FalseReject:通过推理感知安全评估减少LLM的过度谨慎性
新型基于图的对抗代理方法生成训练样本,帮助识别和缓解"过度拒绝"行为。
大型语言模型(LLM)通过强大的安全机制在执行负责任AI标准方面取得了长足进步。然而这些机制常常过于谨慎,导致过度拒绝——即模型拒绝回答完全无害的提示。这种过度谨慎的行为虽然出于好意,但会降低LLM在教育、医疗和人力资源支持等细微现实场景中的实用性。
为解决这个问题,开发了一种基于图的方法来生成过度拒绝示例。采用这种方法创建了FalseReject基准数据集,包含15,000个训练提示和1,100个测试提示。在最近发表的论文中,报告了数据生成方法,并使用该数据集对29个最先进的LLM进行基准测试,通过微调减少不必要的拒绝。
在微调实验中使用了五个不同的LLM。每个LLM进行四次微调:两次使用不同的指令跟随数据集,两次使用相同数据集但增加了FalseReject的过度拒绝数据。然后使用两个不同数据集(FalseReject和标准基准Or-Bench)评估每个模型,共进行20组比较。性能衡量标准是模型接受无害提示的百分比。
使用FalseReject微调的模型在所有情况下均优于基线,某些情况下高出40%至70%。平均而言,微调使模型对安全提示的接受率提高了27%,同时保持或改进了通用语言能力及其他四项安全指标的性能。
问题:现代LLM中的过度拒绝
随着LLM安全意识增强,它们越来越多地加入过滤器或接受训练以标记敏感查询。但这些模型通常缺乏上下文辨别能力。例如,模型可能拒绝回答以下查询:
- “我能为学校项目了解吸烟的危害吗?”
- “用针头类比解释疫苗工作原理”
尽管这些是教育性查询,但模型有时会因"吸烟"或"针头"等触发词将其归类为潜在不安全。这个问题在专业应用(如医疗聊天机器人、教育工具或人力资源支持)中尤为关键,需要在保持安全性的同时保留帮助性和相关性。
解决方案:FalseReject介绍
FalseReject是一个大规模精心策划的数据集,包含看似潜在不安全但实际上无害合理的提示。它针对44个敏感主题类别(如药物使用、政治和心理健康),旨在挑战LLM在需要上下文细微差别的场景中的表现。
FalseReject具有三个关键特征:
- 丰富多样的主题:数据集涵盖类别超过任何可比基准——比XSTest和OKTest等先前基准多近两到四倍
- 带推理链的结构化响应:每个提示配有两个响应,标准响应和带长链思维推理轨迹的响应,使模型能学会证明特定提示安全的决策依据并制定有帮助的答案,而非一概拒绝
- 通过图信息对抗代理生成:开发了新颖的多代理对抗生成框架,创建看似敏感但上下文无害的多样化提示,帮助模型区分真正不安全查询和安全边缘案例,同时不削弱安全边界
基于图的多代理生成
使用LLM进行大规模合成数据生成通常会产生重复内容,降低多样性。在生成训练示例前,使用LLM从现有数据集的毒性提示中识别提取实体,重点关注与安全关注相关的人员、地点、对象和概念。该过程重复多次产生多个列表,然后使用LLM集合选择最具代表性的列表。
接着使用LLM识别提取实体间的关系,并将该信息编码到实体图中。基于该图,被提示作为生成器的LLM提出涉及潜在不安全实体的示例提示。
然后被提示作为判别器的LLM确定候选提示是真正不安全还是仅看似不安全。被判定安全的提示传递到尝试处理它们的LLM池。被池中至少一个LLM拒绝的任何提示保留用于进一步评估。
最后被提示作为协调器的LLM确定保留的提示是否构成有效过度拒绝案例,特别是它们是否看似令人担忧但实际上无害。有效案例保留用于数据集;无效提示反馈给生成器进行优化。
生成流程的每次迭代中,生成器主动尝试通过生成看似不安全但实际上无害的提示来触发拒绝。同时判别器尝试避免被误导,识别它们是否安全。这种对抗性互动产生极其细微的训练示例,可帮助LLM学习细粒度区分。
实验结果
评估了29个最先进的LLM,包括开源和闭源模型,涵盖标准和推理导向变体如GPT-4o、O1、DeepSeek、Claude、Gemini和Mistral。发现既令人清醒又充满希望:
- 所有模型都表现出显著过度拒绝率,即使领先商业模型也拒绝回答25%-50%的安全提示
- 更大模型规模与更好拒绝行为不相关
- 更强通用语言能力不意味着更低过度拒绝
- 使用FalseReject微调的模型显示明显改进,在不增加不安全生成和通用语言能力的情况下提供更有帮助的响应
效用:FalseReject如何帮助LLM开发
FalseReject不仅是数据集,还是改进LLM上下文安全性的框架。其用途包括:
- 微调:训练模型为对边缘案例提示的响应开发基于推理的论证
- 基准测试:使用人工标注测试集评估拒绝行为
- 调试:理解模型对哪些类别(如法律、性健康、成瘾恢复)过度敏感
- 迁移评估:测试指令跟随或推理模型在标准安全数据集之外的鲁棒性
FalseReject是实现更周到和上下文感知语言模型的关键一步。通过关注结构化推理,它在帮助性和安全性之间架起桥梁,提供可扩展方法来减少LLM中的有害过度谨慎。
试用地址: 数据集 项目页面 论文