大语言模型评估中认知偏差的考量框架
在计算语言学协会(ACL)2024年会议上发表的一篇立场论文,提出了一个更准确评估大语言模型(LLMs)的人类评估框架。
大语言模型能够生成极其流畅的自然语言文本,而这种流畅性可能会误导人类忽视内容的质量。例如,心理学研究表明,高流畅性的内容可能被认为比低流畅性内容更真实和有用。对流畅语言的偏好是认知偏差的一个例子,这是大脑采取的一种捷径,虽然在进化上有用,但可能导致系统性错误。
在这篇论文中,通过比较现实世界中对LLMs的评估与人类心理学研究,得出了关于认知偏差的实用见解。科学依赖于实验结果的可靠性,在LLMs时代,以正确的方式测量正确的事物对于确保可靠性至关重要。例如,在确定LLMs的输出在应用背景(如提供法律或医疗建议)中是否真实和有用的实验中,考虑流畅性和用户的认知负荷(即心理负荷)等因素非常重要。如果长而流畅的内容导致用户忽视关键错误,对缺陷内容给予高评分,那么实验设计需要重新设计。
因此,对于评估真实性等任务,建议将内容分解为单个事实,并由人类评估者简单判断给定事实是否正确,而不是对整个内容分配数字评分。在负责任人工智能(RAI)评估中考虑人类背景也很重要:毒性和刻板印象存在于观察者眼中。因此,模型的评估者应尽可能多样化。
在评估LLMs时,探测其相对于特定用例的优势和弱点也至关重要。最终用户会向LLMs提出各种问题。在安全关键应用(如医学)中,考虑这种多样性尤为重要,因为错误的代价可能很高。同样,相同的提示可以以多种方式构建,测试场景需要反映这种可变性。如果不这样做,我们得到的数字可能无法代表模型在现实世界中的性能。
评估标准也很重要。虽然有一些良好的通用评估方法,如Helpful, Honest, & Harmless(HHH)基准,但特定领域的标准更为深入。例如,在法律领域,我们可能想知道模型在给定证据的情况下预测案件结果的能力如何。
科学实验的另一个基本原则是可重复性,这一原则同样适用于LLMs评估。虽然自动化评估程序是可重复的,但人类评估可能因评估者的个性、背景、情绪和认知状态而异。在论文中强调,人类评估本身并不建立黄金标准:我们需要理解评估系统的用户的认知行为。
最后,人类评估的实际方面是时间和成本。人类评估是一个昂贵的过程,理解评估的哪些方面可以自动化或简化对于更广泛采用至关重要。
在论文中,将这些论点提炼为进行大语言模型人类评估的六个关键原则,并整合为缩写ConSiDERS,代表一致性(Consistency)、评分标准(Scoring Criteria)、差异化(Differentiation)、体验(Experience)、责任(Responsibility)和可扩展性(Scalability):
- 一致性:人类评估的结果必须可靠且可推广。
- 评分标准:评分标准必须包括通用标准(如可读性),并根据目标任务或领域的目标量身定制。
- 差异化:评估测试集必须能够区分生成式LLMs的能力和弱点。
- 用户体验:评估必须考虑评估者的体验,包括他们的情绪和认知偏差,无论是在实验设计还是结果解释中。
- 责任:评估需要符合负责任AI的标准,考虑偏差、安全性、鲁棒性和隐私等因素。
- 可扩展性:为了促进广泛采用,人类评估必须可扩展。
有关该框架应用的更多细节,请参阅论文“ConSiDERS—the human-evaluation framework: Rethinking human evaluation for generative large language models”。