使用Vertex GenAI评估服务提升大语言模型质量与可解释性

提升LLM质量与可解释性的Vertex GenAI评估服务

开发者在利用大语言模型（LLMs）时经常面临两个关键挑战：管理输出的固有随机性，以及处理偶尔产生事实错误信息的倾向。就像掷骰子一样，LLMs具有一定不可预测性，即使输入相同提示也会生成不同响应。虽然这种随机性能激发创造力，但在需要一致性或事实准确性的场景中却可能成为障碍。此外，LLM偶尔出现的"幻觉"——即自信地呈现错误信息——会削弱对其能力的信任。

当我们考虑到许多现实任务并不存在单一明确答案时，这一挑战更加复杂。无论是总结复杂信息、撰写营销文案、构思创新产品创意，还是起草有说服力的邮件，通常都存在多种有效解决方案。

在本博客和随附的笔记本中，我们将介绍如何通过新工作流程应对这些挑战：首先生成多样化的LLM响应，然后使用Vertex GenAI评估服务自动选择最佳响应，并提供相关质量指标和解释。这一流程还可扩展至多模态输入和输出，几乎适用于所有行业和LLM的使用场景。

设想一个金融机构需要总结客户与银行顾问的对话。挑战在于确保这些总结基于事实、有帮助、简洁且文笔良好。由于撰写总结的方式多种多样，质量差异很大。以下是他们如何利用LLMs的概率特性和Vertex GenAI评估服务来提升LLM生成总结的性能。

第一步：生成多样化响应

核心思路是不局限于第一个响应。基于因果解码器的LLMs内置了一定随机性，意味着它们以概率方式采样每个词语。因此，通过生成多个略有不同的响应，我们增加了找到完美匹配的机会。这就像探索多条路径，即使一条通向死胡同，另一条也可能发现隐藏的宝藏。

例如，想象询问LLM"日本的首都是什么？“您可能得到混合响应：“京都是日本的首都城市”、“东京是日本当前的首都”，甚至"东京曾是日本的首都”。通过生成多个选项，我们增加了获得最准确和相关答案的机会。

在实际操作中，该金融机构使用LLM为每个对话记录生成五个不同的总结。他们将LLM的"温度"参数（控制输出随机性）调整到0.3至1.0范围，以鼓励适度的多样性而不偏离主题。这确保了选项范围，增加了找到理想高质量总结的可能性。

第二步：寻找最佳响应

接下来需要从多样化响应集中筛选并确定最佳响应。为实现自动化，该金融机构应用了Vertex GenAI评估服务中的成对评估方法。这就像响应之间的正面交锋：我们将响应两两对比，基于原始指令和上下文进行评判，以识别最符合用户意图的响应。

继续上面的例子来说明，假设我们有关于日本首都的三个响应。我们希望通过成对比较找到最佳响应：

响应1 vs 响应2：API倾向于响应2，可能解释为"虽然响应1在技术上是正确的，但未直接回答关于日本当前首都的问题"
响应2（当前最佳响应）vs 响应3：响应2再次获胜！响应3因使用过去时而出现问题

经过这两轮比较，我们得出结论：响应2是最佳答案。

在该金融机构的案例中，他们将五个生成的总结进行成对比较以选择最佳的一个。

第三步：评估响应是否足够好

工作流程随后将前一步的最佳响应（响应2）送入点评估服务进行评估。该评估分配质量分数，并为这些分数生成跨多个维度（如准确性、基于事实性和有帮助性）的人类可读解释。此过程不仅突出最佳响应，还提供关于模型为何生成此响应、以及为何认为它优于其他响应的见解，从而在系统决策中培养信任和透明度。

在该金融机构案例中，他们现在对获胜响应使用点评估中与总结相关的指标，以获得关于此答案如何基于事实、有帮助和高质量的解释。我们可以选择仅返回最佳响应，或包含其相关质量指标和解释以提供更大透明度。

本质上，该工作流程（如本博客横幅所示）包括生成多样化LLM响应、系统评估它们，并选择最合适的响应——同时提供关于为何该特定响应被认为最优的见解。通过探索我们的示例笔记本并调整以适应您的使用场景来开始使用。您可以通过基于点评估或对数似然分数对单个响应进行排名，然后仅对顶级候选进行成对比较，来反转成对和点评估的顺序。此外，虽然此示例侧重于文本，但此方法可应用于任何模态或任何使用场景，包括但不限于本博客所示的问答和总结。最后，如果您需要最小化延迟，两个工作流程都能通过并行化各种API调用而大大受益。

下一步行动

通过接受LLMs的固有可变性并利用Vertex GenAI评估服务，我们可以将挑战转化为机遇。生成多样化响应、系统评估它们，并通过清晰解释选择最佳选项，使我们能够释放LLMs的全部潜力。此方法不仅提升LLM输出的质量和可靠性，还培养信任和透明度。在我们的示例笔记本中开始探索此方法，并查看Vertex GenAI评估服务的文档。