语音内容与可用性

“对话不是新界面，而是最古老的界面。"——Erika Hall，《对话式设计》

数千年来，人类一直通过对话传递信息、完成交易和情感交流。直到近几十年，我们才开始将对话外包给计算机——这种对书面语更亲和而非口语模糊性的机器。

计算机面临的口语挑战

计算机处理口语时面临根本性困难：口语更原始且充满不流畅停顿、手势体语、用词差异和方言变化。相比之下，书面语言更一致、精炼和规范，更易于机器解析。

根据《对话式界面》研究，语音交互动机与人类对话一致：

1
2
3
4


用户：要夏威夷披萨加双倍菠萝
系统：什么尺寸？
用户：大号
系统：还需要饮料吗？

这类对话直接、简洁、目标明确，快速跳过寒暄环节。

1
2


用户：有清真选项吗？
系统：当然！所有披萨都可定制为清真规格...

对话更长、信息更密集，需要确保关键信息准确传达。

1990年代出现的IVR系统是最早的真正语音界面，用于替代过载的客服代表。虽然能处理高度重复的对话，但其笨拙体验常令用户沮丧。

1986年伯明翰大学开发的首个屏幕阅读器，将视觉内容转为合成语音。随着语义HTML和ARIA角色的引入，屏幕阅读器开始支持将网页作为听觉时空进行导航。

但存在显著缺陷：难以使用且冗长不堪。视觉结构无法良好转换，导致宣布每个可操作HTML元素和格式变更。

从1987年Apple的Knowledge Navigator演示，到2011年Siri的推出，语音助手逐渐成为现实。当前主要分为：

封闭型：如Siri和Cortana，无法扩展核心功能
可编程型：如Amazon Alexa和Google Home，支持开发者通过Alexa Skills Kit和Dialogflow等框架构建自定义语音界面

语音内容需保持流畅、有机、无上下文和简洁——与书面内容完全相反。

纯语音界面（无视觉组件）比多模态界面更具挑战性。成功的语音内容需要：

通过精心设计的语音界面，可以为用户（特别是残障用户）提供比传统屏幕阅读器更高效的内容获取体验。