AI在无障碍领域的机遇

在阅读Joe Dolson最近关于AI与无障碍技术交叉点的文章时，我完全理解他对AI及其多种使用方式的怀疑态度。事实上，尽管我在微软担任无障碍创新策略师，负责帮助运营“AI for Accessibility”资助项目，我自己对AI也非常怀疑。与任何工具一样，AI可以以建设性、包容性和无障碍的方式使用；也可以以破坏性、排他性和有害的方式使用。还有大量用途处于平庸的中间地带。

我希望这篇文章成为Joe帖子的“是的……而且”补充。我不是要反驳他所说的任何内容，而是提供一些项目和机会的可见性，在这些领域AI可以为残障人士带来有意义的改变。明确地说，我并不是说AI没有真正的风险或紧迫问题需要解决——确实有，而且我们需要立即解决它们——但我想花点时间讨论可能实现的事情，希望有一天我们能达到目标。

替代文本

Joe的文章花了很多时间讨论计算机视觉模型生成替代文本。他强调了当前状态的许多有效问题。尽管计算机视觉模型在描述的细节质量和丰富性方面不断改进，但它们的结果并不理想。正如他正确指出的，当前图像分析的状态相当糟糕——特别是对于某些图像类型——很大程度上是因为当前的AI系统孤立地检查图像，而不是在它们所处的上下文中检查（这是拥有单独的文本分析和图像分析“基础”模型的结果）。今天的模型也没有被训练来区分上下文相关的图像（可能应该有描述）和纯粹装饰性的图像（可能不需要描述）。尽管如此，我仍然认为这个领域有潜力。

正如Joe提到的，人在环路的替代文本创作绝对应该成为一件事。如果AI可以介入提供替代文本的起点——即使那个起点可能是一个提示说“这是什么废话？完全不对……让我尝试提供一个起点”——我认为这是一个胜利。

更进一步，如果我们能专门训练一个模型来分析上下文中的图像使用，它可以帮助我们更快地识别哪些图像可能是装饰性的，哪些可能需要描述。这将有助于强化哪些上下文需要图像描述，并提高作者使页面更无障碍的效率。

虽然复杂图像——如图表和图形——很难以任何简洁的方式描述（即使对人类来说），GPT4公告中分享的图像示例也指出了一个有趣的机会。假设你遇到一个图表，其描述仅仅是图表的标题和可视化类型，例如：“饼图比较年收入低于30,000美元的美国家庭中智能手机使用与功能手机使用。”（这对图表的替代文本来说相当糟糕，因为那往往会留下许多关于数据的问题未回答，但假设那是现有的描述。）如果你的浏览器知道那个图像是一个饼图（因为一个板载模型得出了这个结论），想象一个用户可以对图形提出以下问题的世界：

更多人使用智能手机还是功能手机？
多多少？
有没有一组人不属于这两个类别？
有多少人？

暂时抛开大型语言模型（LLM）幻觉的现实——模型编造听起来合理的“事实”——以这种方式了解更多关于图像和数据的机会可能对盲人和低视力人士以及各种形式的色盲、认知障碍等人士具有革命性。在教育背景下，它也可能有用，帮助那些能看到这些图表的人理解图表中的数据。

更进一步：如果你可以要求浏览器简化复杂图表呢？如果你可以要求它隔离折线图上的一条线呢？如果你可以要求浏览器转换不同线的颜色以更好地适应你有的色盲形式呢？如果你可以要求它将颜色换成图案呢？鉴于这些工具的基于聊天的界面和我们在当今AI工具中操纵图像的现有能力，这似乎是一种可能性。

现在想象一个专门构建的模型，可以从该图表中提取信息并将其转换为另一种格式。例如，也许它可以将那个饼图（或者更好，一系列饼图）转换为更无障碍（和有用）的格式，如电子表格。那将是惊人的！

匹配算法

Safiya Umoja Noble将她的书命名为《压迫算法》时绝对一针见血。虽然她的书专注于搜索引擎强化种族主义的方式，但我认为同样真实的是，所有计算机模型都有可能放大冲突、偏见和不宽容。无论是Twitter总是向你展示一位无聊亿万富翁的最新推文，YouTube将我们送入Q洞，还是Instagram扭曲我们对自然身体外观的想法，我们知道编写和维护不良的算法极其有害。这很大程度上源于塑造和构建它们的人缺乏多样性。然而，当这些平台构建时融入了包容性，算法开发就有真正的潜力帮助残障人士。

以Mentra为例。他们是一个为神经多样性人士提供的就业网络。他们使用一种算法，基于超过75个数据点将求职者与潜在雇主匹配。在求职者方面，它考虑每个候选人的优势、必要和首选的工作场所 accommodations、环境敏感性等。在雇主方面，它考虑每个工作环境、与每个工作相关的沟通因素等。作为一家由神经多样性人士运营的公司，Mentra决定在典型就业网站方面翻转剧本。他们使用他们的算法向公司推荐可用的候选人，然后公司可以与他们感兴趣的求职者联系；减少求职者方面的情感和体力劳动。

当更多残障人士参与算法的创建时，可以减少这些算法对其社区造成伤害的机会。这就是为什么多样化团队如此重要。

想象一下，一家社交媒体公司的推荐引擎被调整来分析你关注的人，如果它被调整优先推荐关注那些谈论类似事物但在某些关键方式上与你现有影响圈不同的人。例如，如果你关注一群非残障白人男性学者谈论AI，它可以建议你关注也谈论AI的残障或非白人或非男性学者。如果你接受它的推荐，也许你会对AI领域发生的事情有更全面和细致的理解。这些相同的系统还应利用他们对特定社区——包括残障社区——偏见的理解，确保他们不推荐任何用户关注那些 perpetuates 偏见（或更糟，散布仇恨）针对这些群体的账户。

AI帮助残障人士的其他方式

如果我不是在其他任务之间尝试整理这些内容，我相信我可以继续提供各种例子，说明AI如何用于帮助残障人士，但我将把这最后一部分变成一个闪电回合。没有特定顺序：

语音保存。你可能已经看过VALL-E论文或苹果的全球无障碍意识日公告，或者你可能熟悉微软、Acapela或其他公司的语音保存产品。可以训练一个AI模型来复制你的声音，这对患有ALS（卢·格里克病）或运动神经元疾病或其他可能导致无法说话的医疗条件的人来说可能是一个巨大的福音。当然，这也是可以用于创建音频深度伪造的相同技术，所以我们需要负责任地对待它，但这项技术确实具有变革潜力。
语音识别。像语音无障碍项目中的研究人员这样的研究者正在支付残障人士帮助他们收集非典型语音的录音。在我打字时，他们正在积极招募帕金森病及相关疾病的人，并计划随着项目进展扩展到其他疾病。这项研究将产生更包容的数据集，让更多残障人士使用语音助手、听写软件和语音响应服务，以及仅使用他们的声音更轻松地控制计算机和其他设备。
文本转换。当前一代的LLM非常能够调整现有文本内容而不注入幻觉。这对认知障碍人士非常 empowering，他们可能受益于文本摘要或简化版本的文本，甚至为Bionic Reading准备的文本。

多样化团队和数据的重要性

我们需要认识到我们的差异很重要。我们的生活经历受到我们存在的身份交叉的影响。这些生活经历——及其所有复杂性（和快乐与痛苦）——是我们塑造的软件、服务和社会的宝贵输入。我们的差异需要在我们用于训练新模型的数据中 represented，而那些贡献这些宝贵信息的人需要因与我们分享而得到补偿。包容性数据集产生更强大的模型，促进更公平的结果。

想要一个不贬低、不居高临下或不物化残障人士的模型吗？确保你有关于残疾的内容是由具有各种残疾的人撰写的，并确保在训练数据中充分 represented。

想要一个不使用 ableist 语言的模型吗？你可能能够使用现有数据集构建一个过滤器，可以在 ableist 语言到达读者之前拦截和修复。话虽如此，当涉及到敏感性阅读时，AI模型不会很快取代人类文案编辑。

想要一个从一开始就给你无障碍推荐的编码副驾驶吗？在你知道可访问的代码上训练它。

我毫不怀疑AI可以并且将会伤害人们……今天、明天以及未来很长一段时间。但我也相信，我们可以承认这一点，并以无障碍（更广泛地说，包容性）为着眼点，在我们的AI方法中做出深思熟虑、体贴和 intentional 的改变，随着时间的推移减少伤害。今天、明天以及未来很长一段时间。

非常感谢Kartik Sawhney帮助我开发这篇文章，Ashley Bischoff提供宝贵的编辑协助，当然还有Joe Dolson的提示。