AI在可访问性领域的机遇与挑战

本文探讨了人工智能在提升数字可访问性方面的潜力,包括替代文本生成、匹配算法优化、语音保存技术等具体应用场景,同时强调需要多元化团队和包容性数据集来减少算法偏见。

AI在可访问性领域的机遇

在阅读Joe Dolson最近关于AI与可访问性交叉点的文章时,我完全理解他对AI整体以及许多人使用方式的怀疑态度。事实上,尽管我在微软担任可访问性创新策略师,负责运营"AI for Accessibility"资助项目,但我本人对AI也持怀疑态度。与任何工具一样,AI可以以建设性、包容性和可访问的方式使用,也可以以破坏性、排他性和有害的方式使用。还有大量用途处于平庸的中间地带。

我将本文视为对Joe文章的补充。我不是要反驳他的任何观点,而是希望展示一些项目和机遇,在这些领域AI可以为残障人士带来有意义的改变。需要明确的是,我并不是说AI没有需要解决的实际风险或紧迫问题——这些问题确实存在,而且我们需要立即解决——但我想花点时间讨论未来的可能性。

替代文本

Joe的文章花了很多时间讨论计算机视觉模型生成替代文本的问题。他指出了当前状况中的许多有效问题。虽然计算机视觉模型在描述的细节质量和丰富度方面不断改进,但它们的结果并不理想。正如他正确指出的那样,当前的图像分析状态相当糟糕——特别是对于某些图像类型——这在很大程度上是因为当前的AI系统孤立地检查图像,而不是在它们所处的上下文中进行检查(这是拥有独立的文本分析和图像分析"基础"模型的结果)。今天的模型也没有经过训练来区分上下文相关的图像(可能应该有描述)和纯粹装饰性的图像(可能不需要描述)。尽管如此,我仍然认为这个领域有潜力。

正如Joe提到的,人工参与的替代文本创作绝对应该成为现实。如果AI可以介入提供替代文本的起点——即使这个起点可能是一个提示说"这是什么废话?完全不对……让我尝试提供一个起点"——我认为这就是一个胜利。

更进一步,如果我们能专门训练一个模型来分析上下文中的图像使用,它可以帮助我们更快地识别哪些图像可能是装饰性的,哪些可能需要描述。这将有助于强化哪些上下文需要图像描述,并提高作者使页面更易访问的效率。

虽然复杂图像——如图表和图形——很难用任何简洁的方式描述(即使对人类来说也是如此),但GPT4公告中分享的图像示例也指向了一个有趣的机会。假设你遇到一个图表,其描述仅仅是图表的标题和可视化类型,例如:“饼图比较年收入低于30,000美元的美国家庭使用智能手机和功能手机的情况。"(这对图表的替代文本来说相当糟糕,因为这往往会让许多关于数据的问题得不到解答,但让我们假设这就是现有的描述。)如果你的浏览器知道该图像是一个饼图(因为机载模型得出了这个结论),想象一个用户可以就图形提出以下问题的世界:

  • 使用智能手机的人多还是功能手机的人多?
  • 多多少?
  • 有没有人不属于这两个类别?
  • 有多少人?

暂时抛开大型语言模型(LLM)幻觉的现实——模型会编造听起来合理的"事实”——以这种方式了解更多关于图像和数据的信息可能对盲人和低视力人士以及各种形式的色盲、认知障碍等人群具有革命性意义。在教育环境中,它也可能有助于能够看到这些图表的人理解图表中的数据。

更进一步:如果你可以要求浏览器简化复杂图表会怎样?如果你可以要求它隔离折线图上的一条线会怎样?如果你可以要求浏览器转换不同线条的颜色以更好地适应你拥有的色盲形式会怎样?如果你可以要求它将颜色替换为图案会怎样?鉴于这些工具的基于聊天的界面以及我们在当今AI工具中操作图像的现有能力,这似乎是可能的。

现在想象一个专门构建的模型,可以从该图表中提取信息并将其转换为另一种格式。例如,也许它可以将该饼图(或者更好,一系列饼图)转换为更易访问(和有用)的格式,如电子表格。那将是惊人的!

匹配算法

Safiya Umoja Noble将她的书命名为《压迫算法》时绝对一针见血。虽然她的书关注的是搜索引擎如何强化种族主义,但我认为同样正确的是,所有计算机模型都有可能放大冲突、偏见和不宽容。无论是Twitter总是向你展示一位无聊亿万富翁的最新推文,YouTube将我们送入Q洞,还是Instagram扭曲我们对自然身体外观的看法,我们都知道编写和维护不善的算法极其有害。这很大程度上源于塑造和构建它们的人缺乏多样性。然而,当这些平台内置了包容性时,算法开发确实有潜力帮助残障人士。

以Mentra为例。他们是一个针对神经多样性人群的就业网络。他们使用一种算法,基于超过75个数据点将求职者与潜在雇主匹配。在求职者方面,它考虑每个候选人的优势、必要和首选的工作场所便利设施、环境敏感性等。在雇主方面,它考虑每个工作环境、与每个工作相关的沟通因素等。作为一家由神经多样性人士运营的公司,Mentra决定在典型就业网站方面扭转局面。他们使用算法向公司推荐可用的候选人,然后公司可以与他们感兴趣的求职者联系;减少了求职者方面的情感和体力劳动。

当更多残障人士参与算法的创建时,可以减少这些算法对其社区造成伤害的机会。这就是多元化团队如此重要的原因。

想象一下,一家社交媒体公司的推荐引擎被调整来分析你关注的人,如果它被调整为优先推荐那些谈论类似话题但在某些关键方面与你现有影响圈不同的人。例如,如果你关注一群谈论AI的非残障白人男性学者,它可以建议你关注也谈论AI的残障或非白人或非男性的学者。如果你接受它的推荐,你可能会对AI领域正在发生的事情有更全面和细致的理解。这些相同的系统还应利用它们对特定社区(包括例如残障社区)偏见的理解,以确保它们不推荐任何用户关注那些 perpetuates 对这些群体的偏见(或更糟,散布仇恨)的账户。

AI帮助残障人士的其他方式

如果我不是在其他任务间隙撰写此文,我相信我可以滔滔不绝地提供各种关于AI如何用于帮助残障人士的例子,但我将把这最后一部分变成一个闪电回合。不分先后顺序:

  • 语音保存:你可能看过VALL-E论文或苹果的全球可访问性意识日公告,或者你可能熟悉微软、Acapela或其他公司的语音保存服务。可以训练一个AI模型来复制你的声音,这对于患有ALS(卢伽雷氏病)或运动神经元疾病或其他可能导致无法说话的医疗条件的人来说可能是一个巨大的福音。当然,这也是可用于创建音频深度伪造的相同技术,因此我们需要负责任地对待它,但该技术确实具有变革性潜力。
  • 语音识别:像语音可访问性项目中的研究人员正在付费给残障人士,以帮助他们收集非典型语音者的录音。在我打字时,他们正在积极招募帕金森病及相关疾病患者,并计划随着项目进展扩展到其他疾病。这项研究将产生更具包容性的数据集,让更多残障人士能够使用语音助手、听写软件和语音响应服务,以及仅使用语音更轻松地控制计算机和其他设备。
  • 文本转换:当前一代的LLM非常能够调整现有文本内容而不注入幻觉。这对于可能受益于文本摘要、简化版本文本甚至为Bionic Reading准备的文本的认知障碍者来说是非常赋能的。

多元化团队和数据的重要性

我们需要认识到我们的差异很重要。我们的生活经历受到我们存在的身份交叉的影响。这些生活经历——及其所有的复杂性(以及快乐和痛苦)——是我们塑造的软件、服务和社会的有价值输入。我们的差异需要在我们用于训练新模型的数据中得到体现,并且贡献这些宝贵信息的人需要因与我们分享而得到补偿。包容性数据集产生更强大的模型,从而促进更公平的结果。

想要一个不贬低、不居高临下或不物化残障人士的模型吗?确保你拥有由具有各种残障人士撰写的关于残障的内容,并确保这些内容在训练数据中得到充分体现。

想要一个不使用残疾歧视语言的模型吗?你可能能够使用现有数据集构建一个过滤器,可以在残疾歧视语言到达读者之前拦截和修复它。话虽如此,在敏感性阅读方面,AI模型短期内不会取代人类文案编辑。

想要一个从一开始就给你可访问建议的编码副驾驶吗?在你知道可访问的代码上训练它。

我毫不怀疑AI能够并且将会伤害人们……今天、明天以及遥远的未来。但我也相信,我们可以承认这一点,并以可访问性(以及更广泛的包容性)为着眼点,在我们的AI方法中做出深思熟虑、体贴周到和有意为之的改变,从而随着时间的推移减少伤害。今天、明天以及遥远的未来。

非常感谢Kartik Sawhney帮助我完成本文的撰写,Ashley Bischoff提供宝贵的编辑协助,当然还有Joe Dolson的提示。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计