Credit Karma专家分享AI治理实践经验
作为金融科技公司Intuit旗下Credit Karma的数据科学与工程高级总监,Madelaine Daianu分享了企业在构建AI治理框架时应从何处入手的建议。
技术基础与多智能体系统
Credit Karma可以利用Intuit的GenOS AI操作系统,该系统包含AI模型、智能体和软件开发工具目录。在GenOS的帮助下,Credit Karma团队最近创建了一个多智能体系统,在允许AI输出进入生产环境之前自动审查这些输出。
这些技术构成了由Daianu领导的AI合规计划的基础。但她强调,这些努力始于人工协作,其他公司可以且必须效仿,因为每个公司和行业都需要制定适合自己的方法。
平衡创新与安全的关键建议
“在创新与安全、合规或任何相关因素之间找到平衡点非常重要,在快速前进之前先稍微放慢脚步是关键,“Daianu表示。“让内部红队去破坏LLM生成的响应并从中学习,为您的用例开发全面、定制的评估框架。”
在Credit Karma,通过破坏由大语言模型驱动的工作流程并识别其弱点的红队,设计了一个五步AI治理评估框架:
- 响应质量和准确性
- AI安全性,包括检测偏见
- 合规性,主要涉及向平台客户展示信用卡和贷款信息时符合合作伙伴的合同期望
- 数据来源和准确性
- 系统指标,如成本和延迟
多智能体系统的创新应用
Daianu解释说:“在这个框架内,合规性是我们必须超级创新的领域,因为[手动]检查LLM的摘要会花费我们很长时间。例如,对于信用卡,我们需要确保以最高准确性呈现该卡片的 benefits 与合作伙伴品牌的映射关系。”
这正是多智能体系统的用武之地。专门的AI智能体检查LLM生成摘要中的每个特定数据字段,并确保向用户呈现的内容符合合作伙伴品牌。在评估框架的这个和其他阶段,LLM也被用来评判智能体组的整体响应质量。
这些模型通过Credit Karma客户成功团队的人工反馈进行训练,该团队仍会执行抽查。据Daianu称,AI智能体只是将评估过程重新应用于新摘要,速度提高了高达50倍。
避免过度使用AI工具的重要提醒
然而,Daianu强调在评估AI工具时,不要过度使用它们也很重要。
“我们在框架的某些元素中使用GenAI作为评判者,特别是在合规性方面,但并非所有地方都使用,“她说。“对于AI安全性,我们可以使用传统的机器学习。不过度使用GenAI很重要,因为这通常可以提供更好的准确性、更好的可解释性,而且不那么像黑盒子。”