“Alexa,你怎么什么都知道?”
——某中心科学实习生Michael Saxon如何利用自动语音识别模型经验帮助语音助手回答复杂查询
客户经常将与语音助手的互动描述为“神奇”;而在不到十年前,这似乎还是天方夜谭。
语音识别背后的科学
自动语音识别是语音助手背后的核心技术之一——这是语音助手从语音信号中解读语义含义的过程。当客户的请求比要求播放歌曲更为复杂时,像Michael Saxon这样的科学家就会遇到有趣的挑战。
Saxon是某中心今年夏季虚拟接待的10,000多名实习生之一。其中超过10%的实习岗位是应用科学和数据科学角色。大多数科学相关实习持续12到16周。
对自然语言处理日益增长的兴趣
Saxon在亚利桑那州立大学完成了电气工程本科学位和计算机工程硕士学位。他现在正在加州大学圣巴巴拉分校完成计算机科学博士学位,核心研究方向是自然语言处理。
他在本科阶段对语音和自然语言处理产生兴趣;在最后一年,一位教授招募他参与一个项目。Saxon使用自动语音识别模型检测和跟踪构音障碍语音中的鼻音亢进,研究神经退行性疾病的进展。
后来,Saxon在某人工智能会议上遇到了一些寻找应用科学实习生的招聘人员。“基于我对语音和自然语言处理的兴趣,他们邀请我加入匹兹堡的语音助手混合科学团队,”Saxon说,“而我使用自动语音识别模型的经验是一个加分项。”
解决端到端口语理解问题
语音助手混合科学团队的一个核心研究方向是开发神经端到端口语理解模型。在2019年的实习项目中,Saxon被分配了一项起初看起来相对容易的任务:开发一个端到端意图口语理解系统,能够在听到尽可能少的单词后做出决策。
然而,他发现这个项目实际上非常困难。使用训练数据,Saxon和团队无法复制先前口语理解出版物中的高性能结果。
在2019年夏季实习接近尾声时,团队找到了原因。训练数据中的语义复杂度水平与现有文献中公开可用数据集的语义复杂度水平存在不匹配。
语义复杂度指的是语言数据集合中包含的可能表达及其各种含义的数量。集合的语义复杂度越高,程序对其单个话语的解释方式就越多。
由于公开可用数据集的语义复杂度相对较低,它们需要较少的训练数据,并最终限制研究系统从预定的确切命令排列固定列表中进行选择。
Saxon的团队将现有文献中的模型架构应用于某中心的训练数据,后者具有更高的语义复杂度。
“我们发现,对于类似大小的数据集和类似的架构,我们无法重现先前工作中的这些强劲结果,我们怀疑这是由于语义复杂度不匹配造成的,”Saxon说,“这些模型从根本上是为语义复杂度较低的领域设计的。”
然而,第一次实习项目中的这一挫折激发了他下一个项目的方向。
取得成果
当Saxon于2020年1月第二次回到语音助手混合科学团队实习时,团队立即投入工作。在他完成亚利桑那州立大学硕士课程的同时,团队开始了一项研究工作,旨在展示可用的语义复杂度度量,以促进口语理解任务的客观比较。
为了产生有用的度量,团队需要比较口语理解任务的复杂度度量与他们在不同数据集上应用模型所能达到的准确性之间的关系,每个数据集的语义复杂度都比前一个低。
团队通过反复移除批量稀有词,人工生成了不同语义复杂度水平的数据集。这产生了一系列虚拟口语理解问题,范围从大型人工数据集中的语音助手级别任务到有效从短列表中识别关键词。
“这些语义复杂度度量与我们能够在几种不同模型上获得的最大准确度之间存在强烈的、近乎线性的关系,”Saxon说,“这表明给定模型的性能上限与其解决任务的语义复杂度之间存在基本关系。”
Saxon和团队发表了关于结果情境化重要性的研究结果,以展示口语理解系统的适用范围,并在Interspeech 2020会议上进行了展示。
考虑到语义复杂度的挑战,团队随后着手开发用于广义口语理解的端到端模型,该模型可以使像语音助手这样的语音助手能够以比其他模型更高的准确度处理任何话语。
结果是第二篇出版物“用于广义语音助手的端到端口语理解”。团队开发了一个端到端口语理解系统,既可以进行语音预训练,又可以接受大型语言模型的即插即用插入。这使得团队能够分别调整系统的转录和解释能力。
因此,该系统可以处理更多意图和参数解释的组合。值得注意的是,该口语理解系统的语音到解释准确度比类似能力的端到端基线提高了43%。
使用网络回答任何问题
今年夏季,Saxon正在完成他在某中心的第三次应用科学实习,为加利福尼亚曼哈顿海滩的语音助手人工智能团队远程工作。该团队的工作重点是让语音助手能够对客户的问题提供高度准确的回答。
“我一直在这样的旅程中:从语音方面开始,然后进一步深入到技术栈的下游,现在处于网络信息领域,这里仍然回荡着先前工作的回声,”Saxon解释道。
这次的挑战涉及一个语义复杂度更高的用例:语音助手人工智能团队需要训练基于网络信息的模型,这些模型能够正确回答任何可能的问题——即使是最令人困惑的问题——以便语音助手能够对客户的问题提供有用的回答。
通常,问题句子中自动语音识别系统需要正确转录的最重要单词非常罕见。它们增加了句子的语义复杂度,也是系统最难转录的单词。
如果没有正确听到这些单词中的一个,系统将无法回答问题。Saxon当前的工作将他先前在端到端口语理解方面的经验应用到了这项任务中。
“Michael的实习帮助我们建立了扎实的专业知识,并达到了团队今天在端到端口语理解方面的成熟水平,”他的前经理Athanasios Mouchtaris说,“我们从Michael实习期间的工作中学到的一切对我们的成功至关重要。”
展望未来
仅完成博士第一年的学习,Saxon仍处于寻找研究方向的探索阶段。他还有四年的博士学习时间,并打算完成额外的实习——他说他可以看到自己再次回到某中心。
“我真的认同这里的领导原则和文化。我特别喜欢强调承担责任和‘不同意但承诺’,这些在研究项目中对我很有帮助,”他说,“毕业后我肯定会考虑回来全职工作。”