语音内容与可用性
“对话不是新界面。它是最古老的界面。” — Erika Hall,《对话式设计》
语音交互的本质
人类进行对话已有数千年历史,无论是传递信息、完成交易还是简单寒暄。直到最近几十年,我们才开始将对话外包给计算机——这种机器对书面交流的亲和力远胜于口语的随意性。
计算机面临的根本挑战在于:口语比书面语言更为原始。为了成功与我们对话,机器必须处理人类语音的复杂性:不流畅和停顿、手势和肢体语言、词汇选择和方言变化,这些都可能阻碍最精心设计的人机交互。
语音交互的三种类型
根据《对话式界面》的研究,语音交互的动机基本反映了人类发起对话的原因:
- 事务型交互:需要完成某项任务(如交易)
- 信息型交互:想要了解某些信息
- 社交型交互:作为社交生物想要与人交谈
语音界面技术演进
交互式语音响应(IVR)系统
20世纪90年代初,随着文本转语音(TTS)听写程序和语音启用车载系统的出现,第一批真正的语音界面开始涌现。IVR系统旨在替代超负荷的客户服务代表,允许组织减少对呼叫中心的依赖。
虽然IVR系统非常适合高度重复、单调的对话,但它们在对话质量方面声誉不佳,远不如现实生活中(甚至科幻作品中)的对话那么精彩。
屏幕阅读器技术
与IVR系统并行发展的是屏幕阅读器的发明,这种工具将视觉内容转录为合成语音。对于盲人或视障网站用户来说,这是与文本、多媒体或表单元素交互的主要方法。
1986年,伯明翰大学视觉障碍者教育研究中心开发了第一个屏幕阅读器。同年,Jim Thatcher创建了第一个IBM屏幕阅读器。随着1990年代网络的快速发展,对网站无障碍工具的需求激增。
屏幕阅读器的一个显著问题是:难以使用且极其冗长。网站的可视化结构和导航不能很好地转化为屏幕阅读器,有时会导致笨拙的播报,命名每个可操作的HTML元素并宣布每个格式更改。
语音助手技术架构
当我们想到语音助手(现在常见于客厅、智能家居和办公室的语音界面子集)时,很多人会立即联想到《2001太空漫游》中的HAL或《星际迷航》中Majel Barrett配音的全知计算机。
在最早的IVR系统在企业界取得成功之前,苹果公司在1987年发布了一个演示视频,描述了Knowledge Navigator——一种能够转录口语并高度准确识别人类语音的语音助手。
直到2011年,苹果的Siri才最终登场,使语音助手成为消费者的切实现实。
语音助手的可编程性差异
如今的语音助手在可编程性和可定制性方面存在显著差异:
- 封闭式系统:如苹果Siri和微软Cortana,核心功能无法扩展超出其现有能力
- 开放式系统:如Amazon Alexa和Google Home,提供核心基础,开发者可以在此基础上构建自定义语音界面
Amazon提供Alexa Skills Kit开发框架,Google Home支持编程任意Google Assistant技能。如今用户可以在Amazon Alexa和Google Assistant生态系统中从数千个自定义技能中选择。
语音内容的技术挑战
语音内容是通过语音传递的内容。为了保持人类对话的吸引力,语音内容需要自由流动、有机、无上下文且简洁——这些都是书面内容所不具备的特性。
微内容架构
我们将内容以前所未有的方式进行切片和切分。网站在许多方面是我称之为宏内容的巨大宝库:可以在浏览器窗口中无限滚动的长篇散文。
技术专家Anil Dash将微内容定义为无论环境如何都能保持可读性的永久链接内容片段(如电子邮件或短信):
“一天的天气预报、航班到达和离开时间、长篇出版物的摘要或单个即时消息都可以是微内容的例子。”
微内容作为语音内容是独特的,因为它是内容在时间而非空间中体验的示例。我们需要确保微内容真正作为语音内容表现良好——这意味着要关注强大语音内容的两个最重要特征:语音内容可读性和语音内容可发现性。
从根本上说,语音内容的可读性和可发现性都与语音内容在感知时间和空间中的表现方式有关。
技术实现考量
虽然像Amazon Alexa这样的语音助手往往是单渠道的——它们与设备紧密耦合,无法在计算机或智能手机上访问——但许多开发平台如Google的Dialogflow已经引入了全渠道功能,使用户可以构建单个对话界面,然后在部署时表现为语音界面、文本聊天机器人和IVR系统。
企业如Amazon、Apple、Microsoft和Google继续划定自己的领土,同时也在销售和开源前所未有的工具和框架阵列,旨在使构建语音界面尽可能容易,甚至无需编写代码。