多智能体AI生成思维链训练数据技术解析

本文介绍利用多智能体AI框架生成高质量思维链训练数据的方法，通过意图分解、审议和优化三阶段流程，在安全性和抗越狱能力上实现显著提升，平均性能改善达29%。

多智能体AI生成思维链训练数据

思维链推理要求大语言模型不仅执行多步操作，还需解释每一步的决策原因，这已被证明能显著提升模型的推理能力。其中一个重要应用是确保大语言模型遵守负责任AI政策。

方法架构

多智能体审议框架

该方法将生成符合政策的思维链任务分为三个阶段：

意图分解：大语言模型接收用户查询，识别显性和隐性用户意图
审议阶段：多个大语言模型（智能体）以顺序方式扩展思维链，考虑预定义的政策集。每个智能体被要求审查和修正接收到的思维链版本，或确认其适用性
优化阶段：大语言模型对审议阶段的输出进行后处理，过滤冗余、欺骗性和政策不一致的思考

评估结果

质量评估指标

使用三个细粒度属性评估生成的思维链质量：

相关性（1-5分）
连贯性（1-5分）
完整性（1-5分）

忠实度评估

从三个维度评估忠实度：

政策与生成思维链之间的忠实度
政策与生成响应之间的忠实度
生成思维链与最终响应之间的忠实度

评估显示，使用该框架在所有指标上都有质量提升，思维链政策忠实度提高超过10%。

微调性能

使用多个基准测试衡量性能提升：

Beavertails（安全性）
WildChat
XSTest（过度拒绝）
MMLU（实用性）
StrongREJECT（越狱鲁棒性）

实验结果

使用Qwen和Mixtral两个开源模型进行测试：

Mixtral模型：安全性从76%提升至96%，越狱鲁棒性从51.09%提升至94.04%
Qwen模型：安全性从94.14%提升至97%，越狱鲁棒性从72.84%提升至95.39%

该方法在安全性和越狱鲁棒性方面显示出显著改进，同时在实用性和过度拒绝方面存在一定权衡。

comments powered by Disqus