大语言模型高风险决策可信度研究

大型语言模型（LLMs）正越来越多地被用于提供高风险的人生建议，然而它们缺乏防止提供自信但误导性回答的标准保障机制。这导致了谄媚性和过度自信的风险。本文通过三个实验研究这些失效模式：（1）多项选择评估，用于衡量模型在面对用户压力时的稳定性；（2）自由回答分析，采用新颖的安全类型学和LLM评判器；（3）机制可解释性实验，通过操纵"高风险"激活向量来引导模型行为。

研究结果显示，虽然部分模型表现出谄媚性，但其他模型如o4-mini保持稳健。表现最佳的模型通过频繁询问澄清问题获得高安全分数，这是安全探究方法的关键特征，而非直接给出规定性建议。此外，研究证明模型的谨慎程度可以通过激活导向直接控制，这为安全对齐提供了新路径。这些发现强调需要细致入微的多维度基准测试，以确保LLMs在人生重大决策中值得信赖。

主题分类：
人工智能（cs.AI）；计算机与社会（cs.CY）；机器学习（cs.LG）

引用信息：
arXiv:2507.21132 [cs.AI]
https://doi.org/10.48550/arXiv.2507.21132

提交历史：
2025年7月22日提交