人工智能评估 on 办公AI智能小助手

大语言模型如何评估大语言模型？LLM评估技术深度解析

Sun, 09 Nov 2025 17:55:09 +0800

谁来看守看守者？LLM对LLM评估的探讨

虽然使用LLM来评判LLM输出可能看起来像是让狐狸看守鸡舍，但事实证明这种方法效果相当不错（而且比人类评估更具扩展性）。

随着生成式AI被更广泛地实施，特别是在生产应用中，工程师们正在思考如何使他们的应用程序更可靠。随着开发人员使用LLM并对其更加熟悉，他们意识到不能盲目信任这些模型产生的内容。我们的2025年开发者调查发现，AI采用率正在增加，而对AI的信任和好感度却在下降。光环已经褪去，因此工程团队现在正在寻找构建可信系统的机制。

使用Vertex GenAI评估服务提升LLM质量与可解释性

Sun, 05 Oct 2025 09:15:18 +0800

提升LLM质量与可解释性：Vertex GenAI评估服务实践

开发者在利用大语言模型（LLM）时常面临两个关键挑战：管理输出的固有随机性，以及处理偶尔产生事实错误信息的倾向。就像掷骰子一样，LLM具有一定不可预测性，即使给定相同提示也会生成不同响应。虽然这种随机性能激发创造力，但在需要一致性或事实准确性的场景中却可能成为障碍。此外，LLM偶尔出现的"幻觉"现象——即自信地提供错误信息——会削弱对其能力的信任。

HEAL框架：评估机器学习模型在健康公平性中的表现

Fri, 03 Oct 2025 09:51:51 +0800

HEAL：机器学习性能健康公平性评估框架

今天，我们介绍健康公平性机器学习性能评估（HEAL），这是一个新颖的评估框架，旨在定量评估基于机器学习的健康工具的性能是否公平。我们提出了一个4步流程，用于估计机器学习工具在平均健康结果较差的群体中表现优于其他群体的可能性，目标是指导改进，使健康AI技术更加公平。

利用多模型陪审团系统实现非结构化文本分析

Mon, 15 Sep 2025 01:05:42 +0800

AI评判AI：通过多模型陪审团系统扩展非结构化文本分析

随着越来越多机构采用生成式AI（尤其是大语言模型）处理各类应用，一个新的挑战随之出现：如何确保这些AI模型的输出符合人类视角，且准确契合业务场景。手动分析大规模数据集耗时耗力，例如人工审查2000条评论可能需要超过80小时。大语言模型为文本标注、摘要生成甚至评估其他AI系统输出提供了可扩展的解决方案。

大语言模型基准测试深度解析

Tue, 09 Sep 2025 10:39:15 +0800

大语言模型基准测试深度解析

评估框架概述

大语言模型（LLMs）已迅速发展成为从对话式人工智能到复杂推理任务等各种应用的核心组成部分。然而，随着模型规模和能力的增长，有效评估其性能变得日益困难。传统的基准测试指标如困惑度和BLEU分数往往无法捕捉真实交互的细微差别，这使得人类对齐的评估框架变得至关重要。

日本大语言模型中的交叉偏见研究

Sat, 06 Sep 2025 07:35:14 +0800

日本大语言模型中基于情境化视角的交叉偏见研究

随着大语言模型（LLMs）的快速发展，越来越多研究开始关注其社会偏见问题。尽管大多数研究集中于单一社会属性引发的偏见，但社会科学研究表明，社会偏见往往以交叉性形式出现——即由社会属性引发的构成性和情境化偏见视角。

大语言模型基准测试深度解析

Sat, 06 Sep 2025 04:33:45 +0800

大型语言模型（LLMs）的快速发展使其成为从对话式AI到复杂推理任务等各种应用的核心组成部分。然而，随着模型规模和能力的增长，有效评估其性能变得愈发困难。传统的基准指标如困惑度和BLEU分数往往难以捕捉真实交互的细微差别，这使得人类对齐的评估框架变得至关重要。