负责任AI框架与多模态模型安全实践

本文详细介绍了某机构Nova模型在负责任AI框架下的技术实践,包括强化学习与监督微调对齐、运行时护栏模型构建、红队测试方法及数字水印技术,涵盖模型训练、安全评估和多模态攻击防护等核心技术方案。

训练对齐

在训练过程中采用自动化方法确保满足负责任AI各维度的设计目标。通过监督微调(SFT)和基于人类反馈的强化学习(RLHF)实现模型行为对齐,涵盖安全性、公平性、可控性、真实性与鲁棒性以及隐私安全等维度。

  • SFT训练:创建多语言单轮和多轮训练演示样本
  • RLHF训练:收集人类偏好数据(含历史评估案例),并提供针对负责任AI的专用奖励模型

运行时护栏系统

构建输入输出审核模型作为核心防御层:

  • 输入模型:检测恶意内容、损坏数据、不当材料及越狱尝试
  • 输出模型:过滤核心模型可能生成的敏感内容

评估体系

内部评估

  • 使用持续更新的内部基准测试各负责任AI维度
  • 构建包含多语言/多模态/多轮交互的测试集
  • 通过对抗性基准测试模型鲁棒性,覆盖敏感数据泄露、恶意内容生成等风险类别

公共基准贡献

开发三个维度的公开评估数据集:

  • 公平性:BOLD数据集(2.3万条文本生成提示)、TANGO数据集(跨性别称呼测试)、Multi-VALUE方言评估系统
  • 真实性:INVITE错误假设问题生成方法、FEVER事实验证基准
  • 隐私安全:LLM-PIEval间接提示注入基准、FedMultimodal多模态联邦学习评估框架

红队测试

采用四步法人工测试流程:

  1. 编译已知攻击技术
  2. 基于自有模型扩展技术
  3. 定义子技术分类
  4. 执行自动化对抗测试

开发300余种测试技术,覆盖:

  • 文本攻击:绕过护栏的对抗技术
  • 多模态攻击:图像/视频理解中的恶意载荷嵌入
  • 越狱技术:触发禁止行为的提示设计

自动化红队系统

基于FLIRT框架构建自动化测试管道:

  • 输入:人工标注的问题提示种子
  • 处理:通过上下文学习和提示工程生成多轮/多语言/多模态攻击
  • 迭代:将成功触发异常响应的提示纳入下一轮生成

数字水印技术

为多模态生成模型实施溯源机制:

  • 静态图像:抗旋转/缩放/颜色反转的隐形水印
  • 视频内容:逐帧嵌入且抗H.264压缩的水印
  • 检测API:提供基于置信度分数的水印检测(非二进制判断)

持续演进

通过学术合作项目推进生成式AI机器学习、分布式训练、编译器优化等关键技术研究,持续完善负责任AI实践体系。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计