云服务中负责任AI实践的关键经验
真实世界部署需要与任务相关的公平性概念、对可用数据的响应能力,识别AI交付"最后一公里"中的意外变化,并与AI活动家合作。
当我们三年前首次作为学者加入某中心AI/ML团队时,我们已经在该领域(现在称为负责任AI)进行了一段时间的科学研究。我们撰写了许多论文,提出了公平性的数学定义和强制执行这些定义的机器学习训练算法,以及确保训练模型中强大隐私概念的方法。我们精通可解释性和鲁棒性等相关主题,并且通常是新兴负责任AI研究社区的成员。我们甚至写了一本关于这些主题的普及读物,试图向更广泛的受众解释其重要性。
因此,我们很兴奋于2020年来到某中心,将我们的专业知识和方法应用于这里正在进行的负责任AI工作——至少这是我们刚来时的想法。但我们的旅程将我们带到了一个截然不同的地方,比我们预期的更有意义和有趣。这并不是说我们从研究界了解的定义和算法不相关——它们确实相关——但它们只是包含数据、模型、服务、企业客户和最终用户的复杂AI工作流中的一个组成部分。这也是一个某中心由于其云计算(特别是云AI服务)的先驱角色而处于独特地位的工作流。
我们在这里的时间揭示了一些我们以前不知道的实际挑战。这些包括多样化的数据模态、客户和最终用户的"最后一公里"效应,以及最近出现的AI行动主义。像许多产业界和学术界之间的良好互动一样,我们在某中心学到的东西以健康的方式改变了我们的研究议程。考虑到可能对任何试图解析蓬勃发展的负责任AI领域(尤其是在生成式AI时代)的人有用,我们想在这里详细说明我们的一些经验。
模态的重要性
我们第一个重要的实际教训可以概括为"模态很重要"。我们的意思是,AI服务运行的特定媒介(如视觉图像或口头/书面语言)在我们从性能和负责任AI角度分析和理解它时非常重要。
具体考虑训练模型"公平"或没有显著人口统计偏见的愿望。许多关于ML公平性的科学文献假设,用于比较群体间性能的特征(可能包括性别、种族、年龄和其他属性)在训练和测试数据集中容易获得或可以准确估计。
如果确实如此(就像某些类似电子表格的"表格"数据集记录医疗或财务记录那样,其中一个人的年龄和性别可能是明确的列),我们可以更容易地测试训练模型的偏见。例如,在医疗诊断应用中,我们可能会评估模型以确保错误率在不同性别间大致相同。如果这些率不够接近,我们可以以各种方式增强数据或重新训练模型,直到评估满意为止。
但许多云AI/ML服务处理的数据根本不包含明确的人口统计信息。相反,这些服务存在于完全不同的模态中,如语音、自然语言和视觉。诸如我们的语音识别和转录服务等应用程序将捕获口语的频率时间序列作为输入。因此,数据中没有诸如性别、种族或年龄等直接注释。
但从语音数据中可以更容易检测到,并且与性能更直接相关的是地区方言和口音——仅在北美英语中就有数十种。英语语音也可能具有非母语口音,更多地受说话者第一语言的影响,而不是他们当前居住的地区。鉴于第一语言数量众多和说话者的国际流动性,这呈现出一个更加多样化的景观。虽然口语口音可能与一个或多个祖先群体弱相关或关联,但它们通常不提供关于年龄和性别等信息(带有费城口音的说话者可能年轻或年老;男性、女性或非二元性别等)。最后,即使是特定人的语音也可能表现出许多其他变异来源,如情境压力和疲劳。
负责任AI从业者在面对如此多不同口音和其他变化部分时,在像语音转录这样复杂的任务中应该怎么做?在某中心,我们的答案是以任务和数据自身的方式满足它们,这在这种情况下涉及一些繁重的工作:精心收集来自具有不同口音的代表性说话者的大量样本,并仔细转录每个单词。“代表性"在这里很重要:虽然(例如)从受过发音训练的专业演员那里收集这些数据可能更便捷,但这样的数据不会代表真实世界中的口语。
我们还收集表现出其他重要维度变异性的语音数据,包括录制期间的声学条件(不同数量和类型的背景噪声,通过不同手机录制的录音,其麦克风质量可能不同等)。组合的数量之多使得获得足够的覆盖范围具有挑战性。(在某些领域,如计算机视觉,类似的覆盖问题——跨视觉属性(如肤色、光照条件、室内与室外设置等)的变异性——导致对合成数据以增强人类生成数据的兴趣增加,包括在某中心进行公平性测试。)
一旦整理好,这样的数据集可以用于训练转录模型,该模型不仅整体表现良好,而且在不同口音间表现大致相等。这里的"表现良好"意味着比简单预测任务更复杂的东西;语音识别通常使用诸如词错误率的度量。除了上述所有整理和注释之外,我们还通过自我报告的说话者人口统计数据注释一些数据,以确保我们不仅按口音公平,而且按种族和性别公平,如服务附带的服务卡中详细说明的那样。
我们在这里的总体观点是双重的。首先,虽然作为一个社会,我们在谈论和评估公平时倾向于关注种族和性别等维度,但有时数据根本不允许这样的评估,并且将这样的维度归因于数据可能不是一个好主意(例如,试图从语音信号推断种族)。其次,在这种情况下,数据可能引导我们走向可能更与任务相关的替代公平概念,如跨方言和口音的单词错误率。
负责任AI的最后一公里
可以从特定数据集或模态中收集(或不能或不应该收集)的个人特定属性并不是AI开发人员可能无法直接控制的唯一事物——尤其是在云计算时代。正如我们在上面看到的,覆盖你能预期的一切是一项具有挑战性的工作。预期一切甚至更难。
供应链短语"最后一公里"指的是"上游"商品和产品提供商可能对直接连接到最终用户或消费者的"下游"供应商控制有限。像某中心这样的云提供商的出现创建了一个具有自身最后一公里挑战的AI服务供应链。
某中心AI/ML为企业客户提供诸如语音转录等服务的API访问,因为许多人希望将这些服务集成到自己的工作流中,但没有资源、专业知识或兴趣从头开始构建它们。这些企业客户位于像某中心这样的云提供商的通用服务和技术的最终最终用户之间。例如,医疗保健系统可能希望提供针对医学词汇优化的云语音转录服务,以允许医生在查房时进行口头记录。
尽管我们在某中心勤奋地对我们的服务和底层模型进行战斗测试,以实现最先进的性能、公平性和其他负责任AI维度,但显然不可能预期所有可能的下游用例和条件。继续我们的医疗保健例子,也许某家医院的某个楼层有新的专用成像设备,以特定的规律性和声学频率发出背景噪声。在这些确切条件很可能既不在训练数据也不在测试数据中表示的情况下,总体词错误率不仅可能更高,而且可能在不同口音和方言间存在差异。
这样的最后一公里效应可能与企业客户本身一样多样化。随着时间的推移和对这些条件的认识,我们可以使用有针对性的训练数据和客户侧测试来提高下游性能。但由于新用例的激增,这是一个不断发展的过程,而不是一个永远"完成"的过程。
AI行动主义:从漏洞到偏见
不仅是云客户的最后一公里可能呈现与训练和测试期间不同的条件。我们生活在一个(健康的)可能被称为AI行动主义的时代,其中不仅企业而且个体公民——包括科学家、记者和非营利组织成员——可以获得ML服务和模型的API或开源访问,并在自己整理的数据集上执行自己的评估。这样的测试通常是为了突出技术的弱点,包括整体性能和公平性的不足,以及潜在的安全和隐私漏洞。因此,它们通常是在AI开发人员不知情的情况下进行的,并可能首先在研究主流媒体渠道中公开。事实上,我们过去曾是这种批评性宣传的接收方。
迄今为止,AI开发人员和活动家之间的动态有些对抗性:活动家设计并进行对部署的AI模型的私人实验评估,并在开放论坛上报告他们的发现,开发人员则留下来评估这些主张并对他们的技术进行任何必要的改进。这种动态让人想起更传统软件和安全开发人员与道德和不道德黑客社区之间的历史紧张关系,其中外部方探测软件、操作系统和其他平台的漏洞,并要么为公共利益暴露它们,要么为私利利用它们。
随着时间的推移,软件社区已经开发出机制来改变这些动态,使其更具生产力而非对抗性,特别是以漏洞赏金计划的形式。这些是正式的活动或竞赛,其中软件开发人员邀请黑客社区故意寻找他们技术中的漏洞,并为向开发人员报告和描述它们提供财务或其他奖励。
在过去的几年里,漏洞赏金背后的思想和动机已被AI开发社区采纳和调整,以"偏见赏金"的形式出现。参与者不是寻找传统软件中的漏洞,而是被邀请帮助识别训练好的ML模型和系统中的人口统计或其他偏见。这个想法的早期版本是短期的非正式黑客马拉松,专注于寻找模型表现不佳的数据子集。但在某中心和其他地方孵化的更近期的提案包括更正式和算法性质的变体。生成式AI模型的爆炸式增长、兴趣和关注也导致了更成文和制度化的负责任AI方法,如用于评估大语言模型的HELM框架。
我们将这些最近的发展——AI开发人员向比企业客户更广泛的利益相关者社区开放他们的技术及其评估,以及这些利益相关者以技术和非技术方式积极识别必要改进——视为健康和有机的,是复杂且不断发展的AI行业的自然结果。事实上,这样的合作符合我们最近对外部测试和模型红队演练的白宫承诺。
负责任AI既不是一个可以一劳永逸"解决"的问题,也不是一个可以孤立于从开发人员到客户再到最终用户和整个社会的管道中单个位置的问题。开发人员当然是必须建立和实施最佳实践并捍卫负责任AI原则的第一线。但AI行业长期成功的关键在于所有受影响者之间的社区、沟通和合作。