负责任AI实战经验:云服务中的公平性与协作挑战
模态的重要性
早期重要实践教训可概括为“模态重要性”:AI服务运行的特定媒介(如视觉图像、口语或书面语言)极大影响我们从性能和负责任AI角度对其的分析理解。
以训练模型保持“公平”或避免显著人口统计偏见的需求为例。多数机器学习公平性科学文献假设用于跨群体比较性能的特征(可能包括性别、种族、年龄等属性)在训练和测试数据集中容易获取或可准确估算。
若确实如此(例如记录医疗或财务记录的表格型数据集,其中年龄和性别可能是明确列),我们可以更轻松测试训练模型的偏见。例如在医疗诊断应用中,可评估模型确保错误率在性别间大致相同。若这些比率不够接近,可通过数据增强或重新训练模型直至满足评估。
但许多云AI/ML服务处理的数据根本不包含明确人口统计信息。这些服务存在于完全不同的模态中,如语音、自然语言和视觉。语音识别和转录服务将捕捉语音的频率时间序列作为输入,因此数据中没有性别、种族或年龄等直接标注。
但从语音数据中更容易检测到的是地域方言和口音——仅北美英语就有数十种——这些更直接与性能相关。英语语音还可能带有非母语口音,更多受说话者第一语言影响而非当前居住地区。鉴于第一语言数量庞大和说话者的国际流动性,这呈现更加多样化的景观。虽然口语口音可能与一个或多个祖先群体弱相关,但通常无法提供年龄和性别等信息(带费城口音的说话者可能年轻或年长;男性、女性或非二元等)。最后,即使特定人的语音也可能表现出许多其他变异来源,如情境压力和疲劳。
面对语音转录等复杂任务中众多不同口音和其他变动因素,负责任AI实践者该如何应对?在某中心的实践中,答案是根据任务和数据本身特性开展工作,这涉及大量细致工作:精心收集来自具有不同口音代表性说话者大规模群体的样本,并仔细转录每个单词。“代表性”在此至关重要:虽然从受过发音训练的专业演员处收集数据可能更便利,但此类数据不能代表真实场景的口语。
我们还收集沿其他重要维度呈现变异性的语音数据,包括录制时的声学条件(不同量和类型的背景噪声、通过不同手机设备制作的录音,其麦克风质量可能不同等)。组合数量之多使得获得足够覆盖具有挑战性。(在计算机视觉等领域,类似的覆盖问题——如肤色、光照条件、室内外环境等视觉属性变异——导致对合成数据增强人类生成数据的兴趣增加,包括在某中心用于公平性测试。)
经过策展后,此类数据集可用于训练转录模型,该模型不仅整体表现良好,而且在不同口音间性能大致相等。此处的“性能”意味着比简单预测任务更复杂的指标;语音识别通常使用词错误率等度量。除了所有策展和标注外,我们还通过自我报告的说话者人口统计数据标注部分数据,以确保不仅按口音而且按种族和性别保持公平,如服务随附的服务卡中详细说明。
我们的总体观点是双重的。首先,虽然作为社会我们倾向于关注种族和性别等维度来谈论和评估公平性,但有时数据根本不允许此类评估,并且将此类维度归因于数据可能不是好主意(例如,试图从语音信号推断种族)。其次,在此类情况下,数据可能引导我们转向更任务相关的替代公平性概念,如跨方言和口音的单词错误率。
负责任AI的最后一公里
可以从特定数据集或模态中收集(或不能或不应收集)的个人特定属性并非AI开发者直接控制的唯一因素——尤其是在云计算时代。如上所述,覆盖所有可预见内容是一项挑战性工作。预见一切则更加困难。
供应链短语“最后一公里”指的是“上游”商品和产品提供商对直接连接最终用户或消费者的“下游”供应商控制有限。某中心等云提供商的出现创造了具有自身最后一公里挑战的AI服务供应链。
某中心AI/ML为企业客户提供语音转录等服务的API访问,因为许多客户希望将此类服务集成到自身工作流程中,但缺乏从头构建的资源、专业知识或兴趣。这些企业客户位于某中心等云提供商的通用服务与技术的最终用户之间。例如,医疗系统可能希望提供针对医学词汇优化的云语音转录服务,允许医生在查房时进行口头记录。
尽管我们在某中心勤奋地对服务及底层模型进行实战测试以达到最先进的性能、公平性和其他负责任AI维度,但显然不可能预见所有下游用例和条件。继续我们的医疗示例,也许某家医院特定楼层拥有新的专用成像设备,该设备以特定规律性和声学频率发出背景噪声。如果这些确切条件未在训练或测试数据中表示,则整体词错误率可能不仅更高,而且可能因口音和方言不同而存在差异。
此类最后一公里效应可能与企业客户本身一样多样。随着时间推移和对这些条件的认识,我们可以使用针对性训练数据和客户端测试来提高下游性能。但由于新用例的激增,这是一个不断发展的过程,而非永远“完成”的过程。
AI行动主义:从漏洞到偏见
不仅是云客户的最后一公里可能呈现与训练和测试期间不同的条件。我们处于一个可称为AI行动主义的(健康)时代,其中不仅企业而且个体公民——包括科学家、记者和非营利组织成员——可以获得ML服务和模型的API或开源访问,并在自己策展的数据集上执行自己的评估。此类测试通常用于强调技术的弱点,包括整体性能和公平性方面的不足,以及潜在的安全和隐私漏洞。因此,它们通常在AI开发者不知情的情况下进行,并可能首先在研究和主流媒体渠道公开。事实上,我们过去曾收到此类批评性公开。
迄今为止,AI开发者与行动主义者之间的动态有些对抗性:行动主义者设计和执行对已部署AI模型的私人实验评估,并在开放论坛报告发现,而开发者则需评估 claims 并对技术进行必要改进。这种动态让人想起传统软件和安全开发者与道德和非道德黑客社区之间的历史紧张关系,其中外部方探测软件、操作系统和其他平台寻找漏洞,并要么为公共利益暴露它们,要么私下利用它们牟利。
随着时间的推移,软件社区开发了机制来改变这些动态,使其更具生产力而非对抗性,特别是以漏洞赏金计划的形式。这些是正式活动或竞赛,软件开发者邀请黑客社区故意查找其技术中的漏洞,并为向开发者报告和描述它们提供财务或其他奖励。
在过去几年中,漏洞赏金背后的思想和动机已被AI开发社区采纳和调整,形成“偏见赏金”形式。参与者不是寻找传统软件中的漏洞,而是被邀请帮助识别训练过的ML模型和系统中的 demographic 或其他偏见。此想法的早期版本是短期的非正式黑客马拉松,专注于查找模型表现不佳的数据子集。但在某中心和其他地方孵化的最新提案包括更正式和算法化的变体。生成式AI模型的爆炸式增长、关注和担忧也导致了更规范化和制度化的负责任AI方法,如用于评估大语言模型的HELM框架。
我们将这些最新发展——AI开发者向比企业客户更广泛的利益相关者社区开放其技术及其评估,以及这些利益相关者在以技术和非技术方式识别必要改进方面发挥积极作用——视为健康有机的,是复杂且不断发展的AI行业的自然结果。事实上,此类合作符合我们最近对外部测试和模型红队演练的白宫承诺。
负责任AI既不是一个可以一劳永逸“解决”的问题,也不是一个可以孤立于从开发者到客户再到最终用户和整个社会的管道中单个位置的问题。开发者当然是必须建立和实施最佳实践并捍卫负责任AI原则的第一线。但AI行业长期成功的关键在于所有受影响者之间的社区、沟通和合作。