训练对齐
在训练过程中采用自动化方法确保满足负责任AI各维度的设计目标。通过监督微调(SFT)和基于人类反馈的强化学习(RLHF)实现模型行为对齐,涵盖安全性、公平性、可控性、真实性与鲁棒性以及隐私安全等维度。
- SFT训练:创建多语言单轮和多轮训练演示样本
- RLHF训练:收集人类偏好数据(含历史评估案例),并提供针对负责任AI的专用奖励模型
运行时护栏系统
构建输入输出审核模型作为核心防御层:
- 输入模型:检测恶意内容、损坏数据、不当材料及越狱尝试
- 输出模型:过滤核心模型可能生成的敏感内容
评估体系
内部评估
- 使用持续更新的内部基准测试各负责任AI维度
- 构建包含多语言/多模态/多轮交互的测试集
- 通过对抗性基准测试模型鲁棒性,覆盖敏感数据泄露、恶意内容生成等风险类别
公共基准贡献
开发三个维度的公开评估数据集:
- 公平性:BOLD数据集(2.3万条文本生成提示)、TANGO数据集(跨性别称呼测试)、Multi-VALUE方言评估系统
- 真实性:INVITE错误假设问题生成方法、FEVER事实验证基准
- 隐私安全:LLM-PIEval间接提示注入基准、FedMultimodal多模态联邦学习评估框架
红队测试
采用四步法人工测试流程:
- 编译已知攻击技术
- 基于自有模型扩展技术
- 定义子技术分类
- 执行自动化对抗测试
开发300余种测试技术,覆盖:
- 文本攻击:绕过护栏的对抗技术
- 多模态攻击:图像/视频理解中的恶意载荷嵌入
- 越狱技术:触发禁止行为的提示设计
自动化红队系统
基于FLIRT框架构建自动化测试管道:
- 输入:人工标注的问题提示种子
- 处理:通过上下文学习和提示工程生成多轮/多语言/多模态攻击
- 迭代:将成功触发异常响应的提示纳入下一轮生成
数字水印技术
为多模态生成模型实施溯源机制:
- 静态图像:抗旋转/缩放/颜色反转的隐形水印
- 视频内容:逐帧嵌入且抗H.264压缩的水印
- 检测API:提供基于置信度分数的水印检测(非二进制判断)
持续演进
通过学术合作项目推进生成式AI机器学习、分布式训练、编译器优化等关键技术研究,持续完善负责任AI实践体系。