谷歌发布LLM-Evalkit：为提示工程带来秩序与标准化评估

Tue, 04 Nov 2025 10:32:24 +0800

谷歌推出了LLM-Evalkit，这是一个基于Vertex AI SDK构建的开源框架，旨在使大语言模型的提示工程不再混乱，更具可测量性。这个轻量级工具旨在用统一、数据驱动的工作流程取代分散的文档和基于猜测的迭代。

大语言模型幻觉检测新工具与数据集解析

Wed, 24 Sep 2025 21:26:16 +0800

基于知识三元组而非自然语言的事实表示方式，可实现更细粒度的判断。

尽管大语言模型能力卓越，但其存在显著弱点：容易产生幻觉，即生成听起来合理但事实错误的断言。有时这些幻觉非常细微，例如模型可能生成基本准确但将日期错判一两年的内容。