多智能体AI生成思维链训练数据
思维链推理要求大语言模型不仅执行多步操作,还需解释每一步的决策原因,这已被证明能显著提升模型的推理能力。其中一个重要应用是确保大语言模型遵守负责任AI政策。
方法架构
多智能体审议框架
该方法将生成符合政策的思维链任务分为三个阶段:
- 意图分解:大语言模型接收用户查询,识别显性和隐性用户意图
- 审议阶段:多个大语言模型(智能体)以顺序方式扩展思维链,考虑预定义的政策集。每个智能体被要求审查和修正接收到的思维链版本,或确认其适用性
- 优化阶段:大语言模型对审议阶段的输出进行后处理,过滤冗余、欺骗性和政策不一致的思考
评估结果
质量评估指标
使用三个细粒度属性评估生成的思维链质量:
- 相关性(1-5分)
- 连贯性(1-5分)
- 完整性(1-5分)
忠实度评估
从三个维度评估忠实度:
- 政策与生成思维链之间的忠实度
- 政策与生成响应之间的忠实度
- 生成思维链与最终响应之间的忠实度
评估显示,使用该框架在所有指标上都有质量提升,思维链政策忠实度提高超过10%。
微调性能
使用多个基准测试衡量性能提升:
- Beavertails(安全性)
- WildChat
- XSTest(过度拒绝)
- MMLU(实用性)
- StrongREJECT(越狱鲁棒性)
实验结果
使用Qwen和Mixtral两个开源模型进行测试:
- Mixtral模型:安全性从76%提升至96%,越狱鲁棒性从51.09%提升至94.04%
- Qwen模型:安全性从94.14%提升至97%,越狱鲁棒性从72.84%提升至95.39%
该方法在安全性和越狱鲁棒性方面显示出显著改进,同时在实用性和过度拒绝方面存在一定权衡。