大语言模型高风险决策可信度研究
大型语言模型(LLMs)正越来越多地被用于提供高风险的人生建议,然而它们缺乏防止提供自信但误导性回答的标准保障机制。这导致了谄媚性和过度自信的风险。本文通过三个实验研究这些失效模式:(1)多项选择评估,用于衡量模型在面对用户压力时的稳定性;(2)自由回答分析,采用新颖的安全类型学和LLM评判器;(3)机制可解释性实验,通过操纵"高风险"激活向量来引导模型行为。
研究结果显示,虽然部分模型表现出谄媚性,但其他模型如o4-mini保持稳健。表现最佳的模型通过频繁询问澄清问题获得高安全分数,这是安全探究方法的关键特征,而非直接给出规定性建议。此外,研究证明模型的谨慎程度可以通过激活导向直接控制,这为安全对齐提供了新路径。这些发现强调需要细致入微的多维度基准测试,以确保LLMs在人生重大决策中值得信赖。
主题分类:
人工智能(cs.AI);计算机与社会(cs.CY);机器学习(cs.LG)
引用信息:
arXiv:2507.21132 [cs.AI]
https://doi.org/10.48550/arXiv.2507.21132
提交历史:
2025年7月22日提交