多智能体AI生成思维链训练数据技术解析

本文介绍利用多智能体AI框架生成高质量思维链训练数据的方法,通过意图分解、审议和优化三阶段流程,在安全性和抗越狱能力上实现显著提升,平均性能改善达29%。

多智能体AI生成思维链训练数据

思维链推理要求大语言模型不仅执行多步操作,还需解释每一步的决策原因,这已被证明能显著提升模型的推理能力。其中一个重要应用是确保大语言模型遵守负责任AI政策。

方法架构

多智能体审议框架

该方法将生成符合政策的思维链任务分为三个阶段:

  1. 意图分解:大语言模型接收用户查询,识别显性和隐性用户意图
  2. 审议阶段:多个大语言模型(智能体)以顺序方式扩展思维链,考虑预定义的政策集。每个智能体被要求审查和修正接收到的思维链版本,或确认其适用性
  3. 优化阶段:大语言模型对审议阶段的输出进行后处理,过滤冗余、欺骗性和政策不一致的思考

评估结果

质量评估指标

使用三个细粒度属性评估生成的思维链质量:

  • 相关性(1-5分)
  • 连贯性(1-5分)
  • 完整性(1-5分)

忠实度评估

从三个维度评估忠实度:

  1. 政策与生成思维链之间的忠实度
  2. 政策与生成响应之间的忠实度
  3. 生成思维链与最终响应之间的忠实度

评估显示,使用该框架在所有指标上都有质量提升,思维链政策忠实度提高超过10%。

微调性能

使用多个基准测试衡量性能提升:

  • Beavertails(安全性)
  • WildChat
  • XSTest(过度拒绝)
  • MMLU(实用性)
  • StrongREJECT(越狱鲁棒性)

实验结果

使用Qwen和Mixtral两个开源模型进行测试:

  • Mixtral模型:安全性从76%提升至96%,越狱鲁棒性从51.09%提升至94.04%
  • Qwen模型:安全性从94.14%提升至97%,越狱鲁棒性从72.84%提升至95.39%

该方法在安全性和越狱鲁棒性方面显示出显著改进,同时在实用性和过度拒绝方面存在一定权衡。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计