Evals、错误分析与更好的提示:系统化改进AI产品的方法 | Hamel Husain (ML工程师)
🎙️ 如何通过数据驱动的错误分析、评估框架和系统化质量改进来构建更好的AI产品
Claire Vo - 2025年10月13日
Hamel Husain,一位AI顾问和教育者,分享了通过错误分析、评估框架和提示工程来提升AI产品质量的系统化方法。在本期节目中,他展示了产品团队如何超越对AI系统的"感觉检查",实施数据驱动的质量改进流程,识别并修复最常见的错误。
您将学到:
- 逐步错误分析框架,帮助识别和分类产品中最常见的AI故障
- 如何创建自定义标注系统,使审查AI对话更快、更有洞察力
- 为什么二元评估(通过/失败)比任意质量分数更有用于衡量AI性能
- 验证您的LLM评判者以确保其与人类质量期望保持一致的技术
- 基于频率计数而非直觉确定修复优先级的实用方法
- 为什么查看真实用户对话(不仅仅是理想测试案例)对于理解AI产品故障至关重要
- 如何构建从手动审查到自动评估的全面质量系统
在本期节目中,我们涵盖:
(00:00) Hamel Husain介绍 (03:05) 基础:为什么数据分析对AI产品至关重要 (06:58) 理解追踪记录和检查真实用户交互 (13:35) 错误分析:发现AI故障的系统化方法 (17:40) 创建自定义标注系统以加速审查 (22:23) 此流程的实际影响 (25:15) 不同类型的评估 (29:30) 使用LLM作为评判者 (33:58) 改进提示和系统指令 (38:15) 分析智能体工作流程 (40:38) Hamel的个人AI工具和工作流程 (48:02) 快速问答和最终想法
对话摘录:
Claire Vo:人们需要了解哪些基本概念才能获得更高质量的产品?
Hamel Husain:最重要的是查看数据。查看数据一直都很重要,甚至在AI之前就是如此。对于AI来说只是稍有不同,但基本原则是一样的。
Claire Vo:当您看到像这样的真实用户输入时,您实际上是在查看用户用什么样的提示来与您的AI交互。您意识到这些提示非常模糊。
Hamel Husain:完全正确。这就是最有趣的部分。一旦您看到人们这样说话,您可能实际上想要模拟类似的情况,因为这就是数据的真实分布,或者说这就是真实世界的样貌。
Claire Vo:我确定我们的听众期望某种能自动完成这些工作的神奇系统。而您却说,不,朋友。只需花三个下午的时间,仔细阅读一些聊天记录,用您的肉眼查看其中一些,为所有记录添加一句话的注释,然后进行快速分类练习并开始工作。
Claire Vo:您看到这对质量和减少这些错误有实际影响吗?
参考工具:
- Claude: https://claude.ai/
- Braintrust: https://www.braintrust.dev/docs/start
- Phoenix: https://phoenix.arize.com/
- AI Studio: https://aistudio.google.com/
- ChatGPT: https://chat.openai.com/
- Gemini: https://gemini.google.com/
其他参考:
- Nurture Boss: https://nurtureboss.io
- 您的AI产品需要评估:https://hamel.dev/blog/posts/evals/
- AI产品快速改进实地指南:https://hamel.dev/blog/posts/field-guide/
- 创建驱动业务结果的LLM评判者:https://hamel.dev/blog/posts/llm-judge/