负责任AI实践中的三大关键挑战与解决方案

本文探讨了在真实世界部署负责任AI系统时面临的数据模态挑战、最后一公里问题以及AI行动主义的影响,并分享了从语音识别到医疗应用中的实际解决方案与最佳实践。

负责任AI实践中的三大关键挑战与解决方案

模态的重要性

在AI服务开发过程中,数据模态(如图像、语音或文本)对系统性能和负责任AI实践具有重大影响。以机器学习公平性为例,多数研究假设训练和测试数据中均包含可直接获取的人口统计特征(如性别、种族、年龄等)。对于表格化医疗或金融数据,这种假设可能成立,开发者可以相对容易地检测模型在不同群体间的错误率差异并进行调整。

然而,云端AI/ML服务往往处理不包含明确人口统计信息的数据。语音识别和转录服务以频率时间序列作为输入,无法直接标注说话人的性别、种族或年龄。取而代之的是,数据中更易检测且与性能直接相关的是地域方言和口音——仅北美英语就存在数十种变体。非母语口音则受说话人母语影响,呈现出更复杂的多样性。

面对语音转录任务中的口音多样性,某中心的解决方案是:系统收集具有不同口音的代表性说话人样本,并精细转录每个词语。关键在于确保数据代表性——避免仅使用专业演员的发音数据,而应覆盖真实场景中的语言变异。同时还需收集包含其他重要维度的语音数据,如录音时的声学条件(背景噪音、手机麦克风质量差异等)。这种多维覆盖的挑战同样存在于计算机视觉领域,导致某中心对合成数据增强人类生成数据产生兴趣。

经过精心策划的数据集可用于训练不仅整体性能优异,且在不同口音间表现均衡的转录模型。这里的“性能”指比简单预测任务更复杂的指标,如词错误率。部分数据还会标注说话人自报告的人口统计信息,确保模型在口音、种族和性别维度均保持公平性,这些细节记录在随附的服务卡片中。

这带来两个重要启示:第一,虽然社会倾向于关注种族和性别等维度评估公平性,但数据本身可能不支持这种评估,强行从语音信号推断种族等信息并非良策;第二,数据可能引导我们采用更任务相关的公平性概念,如跨方言和口词的词错误率均衡。

负责任AI的最后一公里挑战

AI开发者无法直接控制的不仅是数据模态特性,在云计算时代尤其如此。覆盖所有可预见场景已具挑战性,预见所有可能性则更加困难。

“最后一公里”概念源自供应链,指上游供应商对直接连接终端用户的下游服务商控制有限。某中心等云服务提供商的出现,创造了具有独特最后一公里挑战的AI服务供应链。

某中心AI/ML为企业客户提供语音转录等服务的API接入,这些客户希望将服务集成到自身工作流中,但缺乏从零构建的资源或专业知识。企业客户处于云服务提供商和最终技术用户之间。例如,医疗系统可能希望提供针对医学词汇优化的云语音转录服务,让医生在查房时进行语音记录。

尽管某中心竭尽全力对服务及底层模型进行最先进的性能、公平性等负责任AI维度测试,但显然无法预见所有下游使用场景和条件。继续以医疗为例,某医院特定楼层可能配备新型专业成像设备,以特定规律和声学频率发射背景噪音。如果训练或测试数据未包含这些特定条件,整体词错误率不仅可能升高,还可能在不同口音和方言间呈现差异分布。

这种最后一公里效应与企业客户一样多样化。随着时间推移和对这些条件的认知加深,可以通过针对性训练数据和客户侧测试来改进下游性能。但由于新用例不断涌现,这是一个持续演进的过程,而非可“完成”的任务。

AI行动主义:从漏洞到偏见

最后一公里呈现与训练测试环境不同条件的不仅是云客户。我们正处于可称为“AI行动主义”的健康时代,企业、公民(包括科学家、记者和非营利组织成员)均可通过API或开源方式获取ML服务和模型,并在自建数据集上进行评估。这些测试通常旨在揭示技术缺陷,包括整体性能和公平性不足,以及潜在的安全隐私漏洞。这些评估通常在没有AI开发者知情的情况下进行,并可能首先在研究主流媒体上公布。

迄今为止,AI开发者与行动主义者之间的动态关系略显对抗:行动主义者设计并对已部署AI模型进行私人实验评估,在开放论坛报告发现,开发者则需评估这些主张并做出必要技术改进。这种动态令人联想到传统软件和安全开发者与道德/非道德黑客社区间的历史张力,外部方探测软件、操作系统等平台漏洞,或为公共利益曝光,或为私利利用。

随着时间的推移,软件社区开发了改变这种动态的机制,使其更具建设性而非对抗性,特别是通过漏洞赏金计划。这些正式活动或竞赛邀请黑客社区故意寻找技术漏洞,并为向开发者报告和描述提供经济或其他奖励。

近几年来,漏洞赏金背后的理念和动机已被AI开发社区采纳并调整,形成“偏见赏金”形式。参与者不再寻找传统软件漏洞,而是帮助识别训练ML模型和系统中的 demographic 或其他偏见。该想法的早期版本是短期的非正式黑客马拉松,专注于发现模型表现不佳的数据子集。但在某中心等地孵化的最新提案包含更正式和算法化的变体。生成式AI模型的爆炸式增长及相关关注担忧,也催生了更系统化的负责任AI方法,如评估大语言模型的HELM框架。

这些最新发展——AI开发者向比企业客户更广泛的利益相关者社区开放技术及其评估,这些利益相关者以技术和非技术方式积极识别必要改进——被视为健康有机的演变,是复杂演进AI行业的自然结果。这种合作也符合最近对外部测试和模型红队演练的白宫承诺。

负责任AI既不是可“一劳永逸”解决的问题,也不能孤立于从开发者到客户再到最终用户和整个社会的管道中的单一位置。开发者无疑是必须建立和实施最佳实践、捍卫负责任AI原则的第一道防线。但AI行业长期成功的关键在于所有受影响者之间的社区、沟通和合作。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计