Credit Karma专家分享AI治理实践经验
并非每家公司都拥有Intuit旗下Credit Karma的规模和技术实力,但该公司数据科学负责人为其他企业制定自有AI治理框架提供了起步建议。
Credit Karma可使用Intuit的GenOS AI操作系统,其中包含AI模型、智能体和软件开发工具目录。在GenOS协助下,Credit Karma团队近期创建了多智能体系统,用于在AI输出进入生产环境前进行自动审核。
这些技术构成了由Credit Karma数据科学与工程高级总监Madelaine Daianu领导的AI合规计划的基础。但这些努力始于实际的人工协作,其他公司能够且必须效仿,因为每家公司和行业都需要制定量身定制的方法。
“在创新与安全、合规或任何相关因素之间找到平衡点至关重要,需要在快速行动前稍作放缓,“Daianu表示,“让内部红队去破坏LLM生成的响应并从中学习,为您的用例开发全面定制的评估框架。”
在Credit Karma,通过破坏由大语言模型驱动的工作流程并识别其弱点的红队,设计了一个五步AI治理评估框架:
评估框架阶段包括:
- 响应质量和准确性
- AI安全性,包括偏见检测
- 合规性,主要涉及向平台客户展示信用卡和贷款信息时符合合作伙伴的合同期望
- 数据来源和准确性
- 系统指标,如成本和延迟
“在此框架内,合规性是我们必须超级创新的领域,因为手动检查LLM生成的摘要将花费很长时间,“Daianu说,“例如对于信用卡,我们需要确保极其准确地呈现该卡与合作伙伴品牌对应的权益。为此,我们必须从摘要中提取与利率或费用相关的字段。”
这正是多智能体系统的用武之地。专业AI智能体检查LLM生成摘要中的每个特定数据字段,确保其向用户的展示符合合作伙伴品牌。在评估框架的这个阶段和其他阶段,LLM还被用于评判智能体组的整体响应质量。
这些模型通过Credit Karma客户成功团队的人工反馈进行训练,该团队仍执行抽查。据Daianu介绍,AI智能体只是将该评估过程重新应用于新摘要,速度提升高达50倍。
然而,Daianu指出,在评估AI工具时,避免过度使用也很重要。
“我们在框架的某些元素中使用GenAI作为评判者,特别是在合规性方面,但并非所有地方都使用,“她表示,“对于AI安全性,我们可以使用传统机器学习。不过度依赖GenAI很重要,因为这通常能提供更好的准确性、更好的可解释性,且不那么像黑盒。”