提升LLM质量与可解释性的Vertex GenAI评估服务
开发者在利用大语言模型(LLMs)时经常面临两个关键挑战:管理输出的固有随机性,以及处理偶尔产生事实错误信息的倾向。就像掷骰子一样,LLMs具有一定不可预测性,即使输入相同提示也会生成不同响应。虽然这种随机性能激发创造力,但在需要一致性或事实准确性的场景中却可能成为障碍。此外,LLM偶尔出现的"幻觉"——即自信地呈现错误信息——会削弱对其能力的信任。
当我们考虑到许多现实任务并不存在单一明确答案时,这一挑战更加复杂。无论是总结复杂信息、撰写营销文案、构思创新产品创意,还是起草有说服力的邮件,通常都存在多种有效解决方案。
在本博客和随附的笔记本中,我们将介绍如何通过新工作流程应对这些挑战:首先生成多样化的LLM响应,然后使用Vertex GenAI评估服务自动选择最佳响应,并提供相关质量指标和解释。这一流程还可扩展至多模态输入和输出,几乎适用于所有行业和LLM的使用场景。
设想一个金融机构需要总结客户与银行顾问的对话。挑战在于确保这些总结基于事实、有帮助、简洁且文笔良好。由于撰写总结的方式多种多样,质量差异很大。以下是他们如何利用LLMs的概率特性和Vertex GenAI评估服务来提升LLM生成总结的性能。
第一步:生成多样化响应
核心思路是不局限于第一个响应。基于因果解码器的LLMs内置了一定随机性,意味着它们以概率方式采样每个词语。因此,通过生成多个略有不同的响应,我们增加了找到完美匹配的机会。这就像探索多条路径,即使一条通向死胡同,另一条也可能发现隐藏的宝藏。
例如,想象询问LLM"日本的首都是什么?“您可能得到混合响应:“京都是日本的首都城市”、“东京是日本当前的首都”,甚至"东京曾是日本的首都”。通过生成多个选项,我们增加了获得最准确和相关答案的机会。
在实际操作中,该金融机构使用LLM为每个对话记录生成五个不同的总结。他们将LLM的"温度"参数(控制输出随机性)调整到0.3至1.0范围,以鼓励适度的多样性而不偏离主题。这确保了选项范围,增加了找到理想高质量总结的可能性。
第二步:寻找最佳响应
接下来需要从多样化响应集中筛选并确定最佳响应。为实现自动化,该金融机构应用了Vertex GenAI评估服务中的成对评估方法。这就像响应之间的正面交锋:我们将响应两两对比,基于原始指令和上下文进行评判,以识别最符合用户意图的响应。
继续上面的例子来说明,假设我们有关于日本首都的三个响应。我们希望通过成对比较找到最佳响应:
- 响应1 vs 响应2:API倾向于响应2,可能解释为"虽然响应1在技术上是正确的,但未直接回答关于日本当前首都的问题"
- 响应2(当前最佳响应)vs 响应3:响应2再次获胜!响应3因使用过去时而出现问题
经过这两轮比较,我们得出结论:响应2是最佳答案。
在该金融机构的案例中,他们将五个生成的总结进行成对比较以选择最佳的一个。
第三步:评估响应是否足够好
工作流程随后将前一步的最佳响应(响应2)送入点评估服务进行评估。该评估分配质量分数,并为这些分数生成跨多个维度(如准确性、基于事实性和有帮助性)的人类可读解释。此过程不仅突出最佳响应,还提供关于模型为何生成此响应、以及为何认为它优于其他响应的见解,从而在系统决策中培养信任和透明度。
在该金融机构案例中,他们现在对获胜响应使用点评估中与总结相关的指标,以获得关于此答案如何基于事实、有帮助和高质量的解释。我们可以选择仅返回最佳响应,或包含其相关质量指标和解释以提供更大透明度。
本质上,该工作流程(如本博客横幅所示)包括生成多样化LLM响应、系统评估它们,并选择最合适的响应——同时提供关于为何该特定响应被认为最优的见解。通过探索我们的示例笔记本并调整以适应您的使用场景来开始使用。您可以通过基于点评估或对数似然分数对单个响应进行排名,然后仅对顶级候选进行成对比较,来反转成对和点评估的顺序。此外,虽然此示例侧重于文本,但此方法可应用于任何模态或任何使用场景,包括但不限于本博客所示的问答和总结。最后,如果您需要最小化延迟,两个工作流程都能通过并行化各种API调用而大大受益。
下一步行动
通过接受LLMs的固有可变性并利用Vertex GenAI评估服务,我们可以将挑战转化为机遇。生成多样化响应、系统评估它们,并通过清晰解释选择最佳选项,使我们能够释放LLMs的全部潜力。此方法不仅提升LLM输出的质量和可靠性,还培养信任和透明度。在我们的示例笔记本中开始探索此方法,并查看Vertex GenAI评估服务的文档。