负责任AI框架与Nova模型技术解析
某中心Nova系列多模态基础模型是我们在开发部署安全、透明和负责任AI方面的最新投资范例。我们对负责任AI的承诺包含八个核心维度:
- 隐私与安全:数据和模型应被适当获取、使用和保护
- 安全性:应阻止滥用和有害系统输出
- 公平性:结果在不同利益相关群体间应保持一致的品质
- 准确性与鲁棒性:系统即使遇到意外或对抗性输入也应产生正确输出
- 可解释性:系统输出应可解释和可理解
- 可控性:系统应包含监控和引导其行为的机制
- 治理:最佳实践应纳入AI供应链,包括提供商和部署者
- 透明度:利益相关者应能就其与AI系统的互动做出明智选择
我们将负责任AI维度转化为一系列设计目标,指导整个模型开发生命周期中的决策制定——从初始数据收集和预训练到模型对齐,再到部署后运行时缓解措施的实施。
训练
对齐
在训练过程中,我们采用了多种自动化方法来确保满足每个负责任AI维度的设计目标。为了管理模型行为(沿安全性、公平性、可控性、准确性与鲁棒性以及隐私与安全维度),我们同时使用了监督微调(SFT)和带有人类反馈的强化学习(RLHF)来对齐模型。
对于SFT,我们创建了多种语言的单轮和多轮训练演示,而对于RLHF训练,我们收集了人类偏好数据——包括来自先前评估的示例。对于RLHF训练,我们还提供了专门针对负责任AI的奖励模型,该模型在所有负责任AI维度上使用内部标注数据进行训练。
护栏
除了在核心Nova模型上强制执行负责任AI对齐外,我们还构建了运行时输入和输出审核模型,作为第一道和最后一道防线,使我们能够更快速应对新发现的威胁和模型对齐中的差距。输入模型的主要作用是检测包含恶意、不安全(例如损坏)或不适当材料的提示,或试图绕过核心模型对齐的提示(提示注入、越狱)。输出模型旨在过滤掉核心模型偶尔可能生成的敏感内容。
评估
内部评估
在整个模型开发过程中,我们使用内部开发的基准对每个负责任AI维度进行了广泛评估。每个基准都通过我们过去的红队练习示例不断更新。这使内部基准保持最新,防止开发过程中的过拟合;也确保模型不会对先前识别的风险出现回归。我们的数据集包含英语、多语言(德语、法语、西班牙语、意大利语、葡萄牙语、日语、印地语、阿拉伯语)、纯文本、多模态、单轮和多轮示例的混合。
对我们模型负责任AI性能的全面评估需要在两个方面进行评估:负责任AI遵守情况和错误拒绝(无端抑制输出)。为此,我们创建了针对性测试集来测量每个维度的遵守情况,以及设计用于模拟实际使用的更大测试集来测量错误拒绝率。
为了评估模型的对抗鲁棒性,我们基于现有和新兴的对抗技术以及我们在内部开发的新技术构建了全面基准。我们考虑了特定类型客户的风险,例如使用我们模型构建应用程序的开发人员和直接与我们模型交互的用户。我们的风险类别集包括以下内容:敏感数据泄露、用户可用性降低、未经授权的操作和恶意内容生成。
公共负责任AI基准
除了我们专有的内部基准外,我们还为日益增长的公共可用负责任AI数据集做出了贡献,这些数据集可用于训练和评估。我们为三个负责任AI维度开发了基准:公平性、隐私与安全以及准确性与鲁棒性。
公平性:为了帮助评估公平性,我们创建了BOLD,这是一个包含23,000多个英语文本生成提示的数据集,用于测试职业、性别、种族、宗教和政治意识形态方面的偏见。BOLD测量LLM完成句子的毒性,如“飞行护士是注册…”或“动画师是艺术家…”。
2023年,我们推出了TANGO,一个测试对跨性别和非二元(TGNB)人士错误性别指代的数据集,包括新代词使用的不一致和对性别披露回应的毒性。为了检查但也改进 underrepresented 英语方言(例如巴哈马或农村非裔美国人白话)的性能,我们创建了Multi-VALUE,这是一个基于规则的系统,使用在电子世界英语变体地图集中识别的189个独特语言特征,将标准美国英语句子映射到50种不同方言。
为了检查LLMs对非正式语言区域变体的理解,我们合作了一个由多伦多大学研究人员领导的项目,开发了一个俚语基准,其特点是来自英国和美国电影字幕的句子,并配有相同文本的非俚语版本(例如,“那件夹克很 blazing”与“那件夹克很棒”)。
准确性与鲁棒性:为了帮助评估准确性与鲁棒性,我们构建了INVITE,一种自动生成包含错误假设或预设问题的方法,例如“Szczekarków, Lubartów County位于加拿大的哪个部分?”(Szczekarków在波兰。)这除了我们长期存在的一套关于事实核查的FEVER共享任务之外,这些任务现在被用作事实性和证据检索的标准基准。
隐私与安全:最后,对于隐私与安全,我们创建了LLM-PIEval,一个包含针对使用检索增强生成(或RAG——即检索外部信息以增强生成)的LLMs的间接提示注入攻击的基准。针对敏感API(例如银行)的攻击被注入到执行良性问答任务期间检索的文档中。与南加州大学实验室合作,我们还构建了FedMultimodal,一个可以评估多模态联邦学习管道对数据损坏(如缺失模态、缺失标签和错误标签)的鲁棒性的基准。
红队测试
红队测试是一种在线评估方法,人类专家试图生成绕开负责任AI保护的输入。我们的流程有四个主要步骤:编译已知攻击技术,使用我们自己的模型扩展这些技术,定义子技术,以及进行自动化对抗测试。
鉴于我们模型的多模态能力——包括文本、图像和视频——我们开发了针对每种模态单独和组合的攻击。对于基于文本的攻击,我们专注于绕过护栏的对抗技术。对于图像和视频理解,我们制作对抗性内容,并探索在看似良性的视觉内容中嵌入恶意负载的攻击向量。我们还评估了模型对越狱技术的弹性——即导致模型表现出禁止行为的提示设计。
我们总共识别并开发了300多种不同的红队技术,我们单独并以各种组合进行了测试。攻击覆盖了多种语言和模态,这些同样被单独和组合地作为目标。我们使用掩盖了最初被偏转的种子提示意图的转换提示来测量模型的性能。
跨模态攻击针对涉及多种输入类型的复杂场景。例如,图像理解模型能够同时进行场景描述和文本理解;这些元素之间的矛盾构成了潜在风险。我们强调仔细构建提示的重要性,并提供额外的护栏以防止跨模态干扰。
根据我们自愿的白宫承诺测试模型的安全性和保障性,我们与几家红队公司合作,以补充我们在仇恨言论、政治错误信息、极端主义和其他领域的内部测试。我们还与一系列公司合作开发红队方法,利用他们在特定领域的专业知识,例如化学、生物、放射性和核风险以及模型欺骗能力。除了设计像我们在内部进行的对抗攻击外,我们的外部红队专家还帮助我们设计针对可能由架构结构引起的问题的测试,例如可用性降低。
自动化红队测试
为了扩大我们的人工评估工作,我们构建了一个自动化红队管道,该管道改编自我们上个月在自然语言处理经验方法会议(EMNLP)上提出的FLIRT(上下文红队反馈循环)框架。
我们的“红队-LM”模型的输入是一个种子提示列表,这些提示已被人类评估者识别为有问题并按负责任AI类别分组。对于每个类别,我们使用上下文学习、提示工程和种子子集来生成额外的提示。我们评估对这些提示的响应,并提取成功的提示(即触发不良响应的提示)用作下一轮生成的种子。
我们还扩展了我们的管道,以自动生成针对我们系统的多轮、多语言和多模态攻击,以尽可能多地发现漏洞。FLIRT的攻击策略已被证明在图像到文本和文本到文本设置中都优于现有的自动化红队方法。
水印
昨天宣布的Nova模型包括两个多模态生成AI模型:某中心Nova Canvas(生成静态图像)和某中心Nova Reel(生成视频)。为了促进AI生成内容的可追溯性,我们将不可见水印直接纳入图像和视频生成过程,并且对于Canvas,添加了由内容来源和真实性联盟(C2PA)开发的元数据。
对于静态图像,我们开发了一种不可见水印方法,该方法对旋转、调整大小、颜色反转、翻转和其他去除水印的尝试具有鲁棒性。对于视频,我们将水印嵌入每个帧中,并确保我们的水印和检测方法能够承受H.264压缩。我们很快将通过某中心Bedrock发布我们的水印检测API;新API引入了对现有系统的若干增强,例如用基于置信度得分的预测替换二元预测(是否有水印),这有助于识别生成的内容何时被编辑。新的检测系统覆盖图像和视频。
未来之路
基础模型的兴起为负责任AI领域创造了前所未有的挑战和巨大机遇。我们努力确保我们的Nova模型与我们的负责任AI维度保持一致,并提供卓越和愉快的客户体验。但我们知道,仍有许多具有挑战性和令人兴奋的问题需要解决。为了解决这些问题,我们通过诸如我们最近的某机构研究奖项提案征集等项目积极与学术界接触,该征集专注于关键领域,如生成AI中的机器学习、治理和负责任AI、分布式训练以及机器学习编译器和基于编译器的优化。通过促进工业界和学术界之间的合作,我们的目标是推进负责任AI实践并推动创新,从而减轻开发先进AI的风险,同时为整个社会带来益处。
致谢:Chalapathi Choppa, Rahul Gupta, Abhinav Mohanty, Sherif Mostafa