AI在无障碍领域的机遇
在阅读Joe Dolson最近关于AI与无障碍交叉点的文章时,我非常欣赏他对AI整体以及许多人使用方式的怀疑态度。事实上,尽管我在微软担任无障碍创新策略师,帮助运营AI for Accessibility资助项目,但我自己对AI也非常怀疑。与任何工具一样,AI可以以建设性、包容性和无障碍的方式使用;也可以以破坏性、排他性和有害的方式使用。还有大量用途处于平庸的中间地带。
我希望您将本文视为对Joe帖子的“是的……而且”的补充。我不是要反驳他所说的任何内容,而是为那些AI可以为残障人士带来有意义改变的项目和机遇提供一些可见性。明确地说,我并不是说AI没有需要解决的真实风险或紧迫问题——确实有,而且我们早就需要解决它们——但我想花点时间谈谈可能实现的事情,希望有一天我们能达到目标。
替代文本
Joe的文章花了很多时间讨论计算机视觉模型生成替代文本。他强调了当前状况下的许多有效问题。尽管计算机视觉模型在描述的细节质量和丰富度上不断改进,但它们的结果并不理想。正如他正确指出的,当前图像分析的状态相当糟糕——尤其是对于某些图像类型——很大程度上是因为当前的AI系统孤立地检查图像,而不是在它们所处的上下文中(这是拥有独立的文本分析和图像分析“基础”模型的结果)。今天的模型也没有被训练来区分上下文相关的图像(可能应该有描述)和纯粹装饰性的图像(可能不需要描述)。尽管如此,我仍然认为这个领域有潜力。
正如Joe提到的,人在环路的替代文本创作绝对应该成为一件事。如果AI可以介入提供替代文本的起点——即使那个起点可能是一个提示说“这是什么废话?完全不对……让我尝试提供一个起点”——我认为这是一个胜利。
更进一步,如果我们能专门训练一个模型来分析上下文中的图像使用,它可以帮助我们更快地识别哪些图像可能是装饰性的,哪些可能需要描述。这将有助于强化哪些上下文需要图像描述,并提高作者使页面更易访问的效率。
虽然复杂图像——如图表和图形——很难用任何简洁的方式描述(即使对人类来说),GPT4公告中分享的图像示例也指向了一个有趣的机会。假设您遇到一个图表,其描述仅仅是图表的标题和可视化类型,例如:“饼图比较年收入低于3万美元的美国家庭中智能手机使用与功能手机使用情况。”(这对图表的替代文本来说相当糟糕,因为那往往会留下许多关于数据的问题未解答,但假设这就是现有的描述。)如果您的浏览器知道该图像是一个饼图(因为内置模型得出了这个结论),想象一个用户可以对图形提出以下问题的世界:
- 更多人使用智能手机还是功能手机?
- 多多少?
- 有没有一组人不属于这两个类别?
- 有多少人?
暂时抛开大型语言模型(LLM)幻觉的现实——模型编造听起来合理的“事实”——以这种方式了解更多关于图像和数据的机会可能对盲人和低视力人士以及各种形式的色盲、认知障碍等人士具有革命性意义。在教育背景下,它也可能有用,帮助那些能看到这些图表的人理解图表中的数据。
更进一步:如果您可以要求浏览器简化复杂图表呢?如果您可以要求它在线图中隔离单条线呢?如果您可以要求浏览器转换不同线的颜色以更好地适应您拥有的色盲形式呢?如果您可以要求它将颜色替换为图案呢?鉴于这些工具的基于聊天的界面以及我们在当今AI工具中操纵图像的现有能力,这似乎是一种可能性。
现在想象一个专门构建的模型,可以从该图表中提取信息并将其转换为另一种格式。例如,也许它可以将那个饼图(或者更好,一系列饼图)转换为更易访问(和有用)的格式,如电子表格。那将是惊人的!
匹配算法
Safiya Umoja Noble将她的书命名为《压迫算法》时绝对一针见血。虽然她的书专注于搜索引擎强化种族主义的方式,但我认为同样正确的是,所有计算机模型都有可能放大冲突、偏见和不宽容。无论是Twitter总是向您展示一位无聊亿万富翁的最新推文,YouTube将我们送入Q洞,还是Instagram扭曲我们对自然身体外观的想法,我们知道编写和维护不良的算法极其有害。这很大程度上源于塑造和构建它们的人缺乏多样性。然而,当这些平台构建时融入了包容性,算法开发就有真正的潜力帮助残障人士。
以Mentra为例。他们是一个为神经多样性人士提供的就业网络。他们使用一种算法,基于超过75个数据点将求职者与潜在雇主匹配。在求职者方面,它考虑每个候选人的优势、必要和首选的工作场所便利、环境敏感性等。在雇主方面,它考虑每个工作环境、与每个工作相关的沟通因素等。作为一家由神经多样性人士运营的公司,Mentra决定在典型就业网站方面翻转剧本。他们使用算法向公司推荐可用候选人,然后公司可以与他们感兴趣的求职者联系;减少求职者方面的情感和体力劳动。
当更多残障人士参与算法的创建时,可以减少这些算法对其社区造成伤害的机会。这就是为什么多样化团队如此重要。
想象一下,一家社交媒体公司的推荐引擎被调整来分析您关注的人,如果它被调整来优先推荐关注那些谈论类似事物但在某些关键方式上与您现有影响圈不同的人。例如,如果您关注一群谈论AI的非残障白人男性学者,它可以建议您关注也谈论AI的残障或非白人或非男性学者。如果您接受它的推荐,也许您会对AI领域发生的事情有更全面和细致的理解。这些相同的系统还应利用它们对特定社区——包括残障社区——的偏见理解,以确保它们不推荐任何用户关注那些 perpetuates biases against(或更糟,散布仇恨)这些群体的账户。
AI帮助残障人士的其他方式
如果我不是在其他任务之间拼凑这篇文章,我相信我可以继续提供各种关于AI如何用于帮助残障人士的例子,但我将把这最后一部分变成一个闪电回合。不分先后顺序:
-
语音保存。您可能已经看过VALL-E论文或苹果的全球无障碍意识日公告,或者您可能熟悉微软、Acapela或其他公司的语音保存产品。可以训练AI模型复制您的声音,这对患有ALS(卢·格里克病)或运动神经元疾病或其他可能导致无法说话的医疗条件的人来说可能是一个巨大的福音。当然,这也是可用于创建音频深度伪造的相同技术,所以我们需要负责任地处理它,但这项技术确实具有变革潜力。
-
语音识别。像语音无障碍项目中的研究人员这样的研究者正在付费给残障人士,以帮助他们收集非典型语音的人的录音。在我打字时,他们正在积极招募帕金森病及相关疾病的人,并计划随着项目进展扩展到其他疾病。这项研究将产生更包容的数据集,让更多残障人士使用语音助手、听写软件和语音响应服务,以及仅用声音更轻松地控制计算机和其他设备。
-
文本转换。当前一代的LLM非常能够调整现有文本内容而不注入幻觉。这对可能受益于文本摘要或简化版本文本甚至为Bionic Reading准备的文本的认知障碍人士来说非常赋能。
多样化团队和数据的重要性
我们需要认识到我们的差异很重要。我们的生活经历受到我们存在的身份交叉的影响。这些生活经历——及其所有复杂性(和欢乐与痛苦)——是我们塑造的软件、服务和社会的有价值输入。我们的差异需要在我们用于训练新模型的数据中得到代表,而那些贡献这些宝贵信息的人需要因与我们分享而得到补偿。包容的数据集产生更强大的模型,促进更公平的结果。
想要一个不贬低、不居高临下或不物化残障人士的模型吗?确保您有由一系列残障人士创作的关于残障的内容,并确保这在训练数据中得到充分代表。
想要一个不使用残疾歧视语言的模型吗?您也许可以使用现有数据集构建一个过滤器,可以在残疾歧视语言到达读者之前拦截和修复它。话虽如此,在敏感性阅读方面,AI模型不会很快取代人类文案编辑。
想要一个从一开始就给您无障碍推荐的编码副驾驶吗?在您知道可访问的代码上训练它。
我毫不怀疑AI可以并且将会伤害人们……今天、明天以及遥远的未来。但我也相信,我们可以承认这一点,并以无障碍(以及更广泛的包容性)为着眼点,在我们的AI方法中做出深思熟虑、体贴和有意