谷歌推出了LLM-Evalkit,这是一个基于Vertex AI SDK构建的开源框架,旨在使大语言模型的提示工程不再混乱,更具可测量性。这个轻量级工具旨在用统一、数据驱动的工作流程取代分散的文档和基于猜测的迭代。
正如Michael Santaro所说,任何使用过LLM的人都知道这种痛苦:团队在一个控制台中实验,将提示保存在其他地方,并以不一致的方式衡量结果。LLM-Evalkit将这些工作整合到一个单一、连贯的环境中——在这里,提示可以创建、测试、版本控制并并排比较。通过保持变更的共享记录,团队最终可以跟踪哪些改进提升了性能,而不是依赖记忆或电子表格。
该工具包的理念很简单:停止猜测,开始测量。用户不再询问哪个提示"感觉"更好,而是定义特定任务,组装代表性数据集,并使用客观指标评估输出。该框架使每次改进都可量化,将直觉转化为证据。
这种方法与现有的Google Cloud工作流程无缝集成。LLM-Evalkit基于Vertex AI SDK构建,并与谷歌的评估工具连接,在实验和性能跟踪之间建立了结构化的反馈循环。团队可以运行测试、比较输出,并为所有提示迭代维护单一事实来源——无需在多个环境之间切换。
同时,谷歌设计该框架具有包容性。通过其无代码界面,LLM-Evalkit使更广泛的专业人士能够进行提示工程——从开发人员和数据科学家到产品经理和UX撰稿人。通过降低技术障碍,它鼓励更快的迭代和技术与非技术团队成员之间更紧密的协作,将提示设计转变为真正的跨学科工作。
Santaro在LinkedIn上分享了他的热情:
很高兴宣布我一直致力于的新开源框架——LLM-Evalkit!它旨在为在Google Cloud上使用LLM的团队简化提示工程流程。
该公告引起了该领域从业者的关注。一位用户在LinkedIn上评论:
这看起来非常好,Michael。缺乏一个集中式系统来跟踪提示随时间的变化——尤其是在模型升级时——是我们面临的一个问题。很兴奋尝试这个。
LLM-Evalkit现已作为开源项目在GitHub上提供,与Vertex AI集成,并在Google Cloud控制台中附有教程。新用户可以利用谷歌的300美元试用积分进行探索。
通过LLM-Evalkit,谷歌希望将提示工程从即兴的手艺转变为可重复、透明的过程——一个在每次迭代中变得更智能的过程。