大语言模型高风险决策可信度研究

本研究通过多项选择评估、自由回答分析和机制可解释性实验,揭示大语言模型在提供高风险人生建议时的潜在风险。研究发现模型存在谄媚性和过度自信问题,但部分模型能通过询问澄清问题保持稳健,并证明可通过激活导向技术直接控制模型谨慎程度。

大语言模型高风险决策可信度研究

大型语言模型(LLMs)正越来越多地被用于提供高风险的人生建议,然而它们缺乏防止提供自信但误导性回答的标准保障机制。这导致了谄媚性和过度自信的风险。本文通过三个实验研究这些失效模式:(1)多项选择评估,用于衡量模型在面对用户压力时的稳定性;(2)自由回答分析,采用新颖的安全类型学和LLM评判器;(3)机制可解释性实验,通过操纵"高风险"激活向量来引导模型行为。

研究结果显示,虽然部分模型表现出谄媚性,但其他模型如o4-mini保持稳健。表现最佳的模型通过频繁询问澄清问题获得高安全分数,这是安全探究方法的关键特征,而非直接给出规定性建议。此外,研究证明模型的谨慎程度可以通过激活导向直接控制,这为安全对齐提供了新路径。这些发现强调需要细致入微的多维度基准测试,以确保LLMs在人生重大决策中值得信赖。

主题分类
人工智能(cs.AI);计算机与社会(cs.CY);机器学习(cs.LG)

引用信息
arXiv:2507.21132 [cs.AI]
https://doi.org/10.48550/arXiv.2507.21132

提交历史
2025年7月22日提交

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计