语音内容与可用性
“对话不是新界面,而是最古老的界面。"——Erika Hall,《对话式设计》
数千年来,人类一直通过对话传递信息、完成交易和情感交流。直到近几十年,我们才开始将对话外包给计算机——这种对书面语更亲和而非口语模糊性的机器。
计算机面临的口语挑战
计算机处理口语时面临根本性困难:口语更原始且充满不流畅停顿、手势体语、用词差异和方言变化。相比之下,书面语言更一致、精炼和规范,更易于机器解析。
语音交互类型
根据《对话式界面》研究,语音交互动机与人类对话一致:
- 事务型交互:完成具体任务(如"购买冰茶”)
- 信息型交互:获取新知(如"讨论音乐剧")
- 社交型交互:纯对话交流(目前机器实现仍较生硬)
事务型对话特征
|
|
这类对话直接、简洁、目标明确,快速跳过寒暄环节。
信息型对话特征
|
|
对话更长、信息更密集,需要确保关键信息准确传达。
语音界面技术演进
交互式语音应答(IVR)系统
1990年代出现的IVR系统是最早的真正语音界面,用于替代过载的客服代表。虽然能处理高度重复的对话,但其笨拙体验常令用户沮丧。
屏幕阅读器技术
1986年伯明翰大学开发的首个屏幕阅读器,将视觉内容转为合成语音。随着语义HTML和ARIA角色的引入,屏幕阅读器开始支持将网页作为听觉时空进行导航。
但存在显著缺陷:难以使用且冗长不堪。视觉结构无法良好转换,导致宣布每个可操作HTML元素和格式变更。
现代语音助手
从1987年Apple的Knowledge Navigator演示,到2011年Siri的推出,语音助手逐渐成为现实。当前主要分为:
- 封闭型:如Siri和Cortana,无法扩展核心功能
- 可编程型:如Amazon Alexa和Google Home,支持开发者通过Alexa Skills Kit和Dialogflow等框架构建自定义语音界面
语音内容设计原则
语音内容需保持流畅、有机、无上下文和简洁——与书面内容完全相反。
微内容策略
- 可读性:在感知时空中的清晰度
- 可发现性:用户定位内容的效率
设计启示
纯语音界面(无视觉组件)比多模态界面更具挑战性。成功的语音内容需要:
- 超越屏幕阅读器的冗长模式
- 利用现代语音助手的流线型体验
- 确保内容在纯听觉环境中的有效性
通过精心设计的语音界面,可以为用户(特别是残障用户)提供比传统屏幕阅读器更高效的内容获取体验。