LLM评估 on 办公AI智能小助手

使用Spring AI构建LLM自我评估系统：基于递归顾问的LLM-as-a-Judge实现

Tue, 25 Nov 2025 13:50:29 +0800

LLM响应评估与Spring AI：使用递归顾问构建LLM-as-a-Judge

评估大型语言模型（LLM）输出的挑战对于 notoriously 非确定性的AI应用至关重要，特别是当它们进入生产环境时。像ROUGE和BLEU这样的传统指标在评估现代LLM产生的细致入微、上下文相关的响应时显得不足。人工评估虽然准确，但成本高、速度慢且无法扩展。

谁在监督评估者？LLM评估LLM的技术探索

Wed, 12 Nov 2025 02:39:16 +0800

谁在监督评估者？LLM对LLM评估的技术探索

虽然使用LLM来评判其他LLM的输出可能看起来像是让狐狸看守鸡舍，但事实证明这种方法效果相当不错（而且比人工评估更具扩展性）。

随着生成式AI被更广泛地应用，特别是在生产应用程序中，工程师们正在思考如何使他们的应用程序更加可靠。随着开发人员使用LLM并对其更加熟悉，他们意识到不能盲目信任这些模型的输出。我们2025年的开发者调查发现，AI的采用率正在增加，而对AI的信任度和好感度却在下降。光环已经褪去，因此工程团队正在寻求建立机制来构建可信赖的系统。

大语言模型如何评估大语言模型？LLM评估技术深度解析

Thu, 06 Nov 2025 00:02:14 +0800

谁来看守看守者？LLM在LLM评估中的应用

虽然使用LLM来评判LLM输出可能看起来像是让狐狸看守鸡舍，但事实证明这种方法效果相当不错（而且比人类评估更具扩展性）。

随着生成式AI得到更广泛的应用，特别是在生产环境中，工程师们正在思考如何使他们的应用程序更加可靠。随着开发人员使用LLM并对其更加熟悉，他们意识到不能盲目信任这些模型产生的内容。我们2025年的开发者调查发现，AI采用率正在增加，而对AI的信任和好感度却在下降。新鲜感已经消退，因此工程团队现在正在寻求建立机制来构建可信赖的系统。

大语言模型评估大语言模型：AI如何自我监督？

Mon, 27 Oct 2025 09:44:35 +0800

谁来看守看守者？LLM对LLM的评估

虽然使用LLM来评判LLM的输出可能看起来像是让狐狸看守鸡舍，但事实证明这种方法效果相当不错（而且比人类更容易扩展）。

图片来源：Alexandra Francis

大语言模型如何评估大语言模型？LLM评估机制深度解析

Mon, 20 Oct 2025 19:02:07 +0800

谁来看守看守者？LLM在LLM评估中的应用

随着生成式AI被更广泛地实施，特别是在生产应用中，工程师们正在思考如何使他们的应用程序更加可靠。随着开发者使用并更加熟悉LLM，他们意识到不能盲目信任这些模型的输出。我们2025年的开发者调查发现，AI采用率正在增加，而对AI的信任和好感度正在下降。光环已经消退，现在工程团队正在寻找构建可信系统的机制。

Credit Karma专家分享AI治理框架实战经验

Fri, 10 Oct 2025 14:12:32 +0800

AI治理框架的实践之路

并非每家公司都具备Intuit旗下Credit Karma的规模与技术实力，但该公司数据科学负责人为其他企业规划AI治理框架提供了可借鉴的起点。

AI辅助开发工具安全治理基准测试指南

Thu, 25 Sep 2025 21:28:58 +0800

基准测试AI辅助开发者（及其工具）以实现卓越的AI治理

浏览LinkedIn、DevTok和X平台会让人感觉几乎所有开发者都全力登上了氛围编码（vibe coding）的潮流列车。虽然84%的开发者确认正在使用（或计划使用）AI编码工具，但完全依赖自主代理进行氛围编码的情况仍属罕见。Stack Overflow的2025年AI调查显示，大多数受访者（72%）尚未采用氛围编码。不过采用率呈上升趋势，目前AI生成的代码占全部代码的41%。

使用PyRIT评估大型语言模型：AI对抗AI的攻防实践

Fri, 19 Sep 2025 04:23:35 +0800

使用PyRIT评估大型语言模型：AI对抗AI的攻防实践

大型语言模型简介

如今，许多人已经听说过ChatGPT、Gemini、Bart、Claude、Llama等人工智能助手。这些都是大型语言模型（LLM）的实现，它们被输入从互联网和其他来源收集的海量数据。这些模型经过所谓的训练阶段，学习如何接收用户的问题和提示，利用之前吸收的数据，然后（希望）提供有用的响应。由于需要巨大的计算能力，训练这些模型的系统甚至让最高性能的游戏PC看起来像坏掉的儿童玩具。一旦训练完成，这些模型可以快速回答各种主题的问题、提供代码示例，甚至可以进行来回讨论（尽管要意识到它们实际上并没有意识）。

使用PyRIT评估大型语言模型：AI对抗AI的安全测试实践

Wed, 10 Sep 2025 08:51:53 +0800

使用PyRIT评估大型语言模型（LLM）：AI对抗AI

许多人都听说过ChatGPT、Gemini、Bart、Claude、Llama或其他人工智能（AI）助手。这些都是大型语言模型（LLM）的实现，它们被输入了从互联网和其他来源收集的海量数据。这些模型经过所谓的训练阶段，学习如何接收用户的问题和提示，利用之前吸收的数据，然后（希望）为用户提供有用的回应。由于这需要巨大的计算能力，训练这些模型的系统甚至让最高性能的游戏PC看起来像坏掉的儿童玩具。一旦训练完成，这些模型可以提供大量实用功能，快速回答各种主题的问题，提供代码示例，甚至可以进行来回讨论（尽管要意识到它们实际上并没有意识）。有关充分利用LLM的更多信息，我强烈建议您查看Bronwen Aker的帖子：https://www.blackhillsinfosec.com/crafting-the-perfect-prompt/。

使用PyRIT评估大型语言模型（LLMs）的AI对抗AI技术

Wed, 10 Sep 2025 08:08:47 +0800

使用PyRIT评估大型语言模型（LLMs）

引言

许多人已经听说过ChatGPT、Gemini、Bart、Claude、Llama或其他人工智能（AI）助手。这些都是大型语言模型（LLMs）的实现，它们被输入了从互联网和其他来源收集的海量数据。这些模型经过所谓的训练阶段，学习如何接收用户的问题和提示，使用先前摄入的数据，然后为用户提供（希望是）有用的响应。由于这需要大量的计算能力，训练这些模型的系统使得即使是最高性能的游戏PC也像是一个坏掉的儿童玩具。一旦训练完成，这些模型可以提供巨大的效用，快速回答各种主题的问题，提供代码示例，甚至可以用于进行来回讨论（尽管要意识到它们实际上并没有意识）。