提升LLM质量与可解释性:Vertex GenAI评估服务实践
开发者在利用大语言模型(LLM)时常面临两个关键挑战:管理输出的固有随机性,以及处理偶尔产生事实错误信息的倾向。就像掷骰子一样,LLM具有一定不可预测性,即使给定相同提示也会生成不同响应。虽然这种随机性能激发创造力,但在需要一致性或事实准确性的场景中却可能成为障碍。此外,LLM偶尔出现的"幻觉"现象——即自信地提供错误信息——会削弱对其能力的信任。
创新工作流程:生成与评估双管齐下
我们引入的新工作流程通过生成多样化LLM响应,并利用Vertex GenAI评估服务自动选择最佳响应,同时提供相关质量指标和解释。该流程可扩展至多模态输入输出,适用于各行各业几乎所有的LLM用例。
案例研究:某金融机构需要总结银行顾问与客户的对话,要求摘要内容真实、有帮助、简洁且文笔优秀。由于总结方式多样,质量参差不齐,他们通过以下步骤提升了LLM生成摘要的性能:
第一步:生成多样化响应
核心思路是突破首轮响应的局限。基于因果解码器的LLM内置随机性,这意味着它们以概率方式采样每个词语。通过生成多个略有不同的响应,我们提高了找到完美匹配的几率。
实际操作中,该金融机构使用LLM为每个对话记录生成五个不同摘要,将LLM的"temperature"参数调整至0.3-1.0范围,以在保持主题相关的前提下鼓励适度多样性。
第二步:寻找最佳响应
金融机构使用Vertex GenAI评估服务中的成对评估方法,让响应两两对比,根据原始指令和上下文判断哪个响应最符合用户意图。
示例说明:假设关于日本首都的三个响应:
- 响应1:“京都是日本的首都城市”
- 响应2:“东京是日本当前的首都”
- 响应3:“东京曾是日本的首都”
通过两轮比较,响应2因直接回答当前首都问题且使用时态准确而胜出。
第三步:评估响应是否足够优秀
工作流程将上一步的最佳响应提交至点评估服务,从准确性、基于事实性、有帮助性等维度分配质量分数并生成可读解释。这不仅突出了最佳响应,还提供了模型生成此响应的原因说明,增强了系统决策的信任度和透明度。
灵活应用与优化
您可以通过我们的示例笔记本开始探索并适配您的用例:
- 可颠倒成对评估和点评估的顺序
- 虽然本例聚焦文本,但该方法适用于任何模态和用例
- 为最小化延迟,可并行化各种API调用
通过拥抱LLM的固有可变性并利用Vertex GenAI评估服务,我们能够将挑战转化为机遇。生成多样化响应、系统评估并选择最佳选项的方法,不仅能提升LLM输出的质量和可靠性,还能培养信任和透明度。