AI代理作为法官:Lloyds银行如何用智能体评估生成式AI输出

Lloyds银行集团首席数据官分享如何利用AI代理作为评估法官,确保生成式AI在金融服务中的输出准确性。文章详细介绍了FinLLM专业模型开发、多智能体协作架构及金融合规保障机制。

访谈:在GenAI工作流中使用AI代理作为评估法官

我们与Lloyds银行集团首席数据与分析官Ranil Boteju进行了对话,探讨该银行如何在面向客户的聊天机器人中运用智能体AI。

约40年前,银行分行经理可能认识每位客户的姓名,并能提供个性化建议。但正如Boteju指出的,在当今世界,这种模式无法扩展。

“在财务规划领域,英国大多数人都负担不起咨询财务规划师的费用。”他表示。训练有素的财务顾问数量也不足以帮助所有寻求建议的人,这就是金融机构正在研究如何部署生成式人工智能(GenAI)来直接支持客户的原因。

但来自超大规模厂商的大语言模型(LLM)和GenAI颇像黑匣子,可能提供错误的响应——在AI术语中称为“幻觉”。在受金融行为监管局(FCA)监管的行业中,这些都是不可接受的。

令Boteju兴奋的是,通过以某种方式使用人工智能,将40年前的银行经理模式扩展到满足当前需求,这种方式能让银行确信AI能够理解人们的需求,并以可评估且符合FCA指南的方式给予正确指导。

“对于英国而言,这将是一个巨大的‘解锁’,能让更广泛、更庞大的人群获得高质量的财务指导。”他表示。

正如Boteju所指出的,银行使用AI已有多年历史。“我们使用各种机器学习算法进行信用风险评估和欺诈筛查已超过15年,”他说,“我们使用聊天机器人也至少有10年了。”

因此,AI在金融服务中是一项非常成熟的能力。然而,新出现的是生成式AI和智能体AI。“生成式AI在2022年底随着ChatGPT的出现而爆发,至今已有大约两年半的时间。”Boteju说。

尽管银行拥有AI经验,但他们需要弄清楚如何使用生成式AI和大语言模型。谈到自己的经验,Boteju表示:“我们会考虑模型性能等问题,以及我们是否使用了正确的算法。”

此外还有透明度、伦理、防护措施以及AI模型的部署方式。Boteju说:“这些对于大语言模型和传统AI都是共通的。但生成式AI在金融服务中面临特定挑战,因为我们是一个受监管的行业。”

由于生成式AI常常导致幻觉,他表示银行在如何将大型行动模型直接暴露给客户方面必须非常谨慎。“我们投入大量精力确保大语言模型的输出正确、准确、透明,并且没有偏见。”

在受监管的行业中,确保AI模型不产生幻觉至关重要。“这可能是我们需要真正意识到关键事项之一。”他说。

对专业AI模型的需求

正如Boteju所指出的,像Google Gemini这样的模型是在所有内容上训练的。“如果你问它一个问题,输出将基于它对所有事物的知识。它是在大量数据上训练的。”

然而,并非所有这些数据都与金融服务相关。通过将AI模型限制在特定于金融服务的数据上,理论上模型产生幻觉的情况应该会减少。

“我们非常坚持希望使用专门针对英国相关金融服务数据训练的语言模型或一组模型。”Boteju说。

这促使Lloyds银行集团接触苏格兰初创公司Aveni,以支持开发FinLLM,这是一个特定于金融服务的大语言模型。2024年,该公司从Puma Private Equity获得了1100万英镑投资,Lloyds和Nationwide也参与了投资。

在讨论与Aveni的合作时,Boteju表示Lloyds银行集团不希望被束缚在某一特定模型上,因此决定对基础模型采取开放方法。从AI主权的角度来看,他表示:“我们不希望局限于大型超大规模模型。有一个很棒的开源模型生态系统,我们想要鼓励它,而且我们可以在英国创建一个以英国为中心的FinLLM,这一点我们觉得非常有吸引力。”

该银行一直在其审计团队中测试FinLLM,其中由Lloyds银行集团集团审计与行为调查部(GA&CI)开发的审计聊天机器人虚拟助手正在改变审计师访问和与审计情报交互的方式。该聊天机器人将生成式AI与集团内部文档系统Atlas集成,使信息检索更快、更智能、更直观。

Boteju表示,该银行利用FinLLM及其对审计知识的了解,基于收集的所有审计数据,有效地训练了聊天机器人。

他将Lloyds银行集团为减少错误所采取的方法描述为“代理作为法官”。“你可能有一个特定的模型或代理产生特定的结果,”他说,“然后我们会开发不同的模型和不同的代理来审查这些结果,并有效地对它们进行评分。”

该银行一直与Aveni密切合作,开发使用AI代理作为法官来评估其他AI模型输出的方法。

每个结果都由一组不同的模型独立评估。对AI模型输出的审查使Lloyds能够确保它们符合FCA指南以及银行的内部规定。

根据Boteju的说法,检查AI模型的输出是双重确认客户没有收到不良建议的非常好方法,他补充道:“我们正在完善这些防护措施,并且我们必须[将此流程]落实到位。”

Boteju指出,无论“代理作为法官”的方法如何,保持人在循环中仍然很重要。“未来,人在循环中仍然非常重要。”他说。

不同AI模型在智能体AI中的力量

虽然像FinLLM这样的AI模型已经过调整以理解银行业的方方面面,但Boteju表示其他模型在理解人类行为方面要好得多。这意味着银行可以,例如,使用来自超大规模厂商的AI模型之一,如ChatGPT 5或Google Gemini,来理解客户实际在说什么。

“然后我们会使用不同的模型将他们所说的内容分解成组成部分。”他说。然后,不同的模型负责处理客户查询的每个不同部分。“我们对此的思考方式是,不同的模型有不同的优势,我们想要做的是为每个任务使用最好的模型。”

这种方法就是银行如何看待智能体AI的部署。Boteju说,通过智能体AI,问题被分解成越来越小的部分,不同的代理对每个部分做出响应。在这里,拥有一个作为法官的代理几乎就像有一个二线同事充当观察者。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计