语音助手理解中断问题的技术突破

研究人员通过构建语义图表示不完整句子,开发出能够理解中断问题的语音助手模型。该技术特别有助于痴呆症患者等群体,在测试中修复后的问题回答准确率仅比完整问题低0.77%。

修复中断问题使语音助手更易用

在对话中暂停组织语言是常见现象,但当今的语音助手常将这种暂停误判为句子结束,导致用户需要重复整个句子。这对所有用户都很困扰,但对某些群体影响更大——通常是那些最能从语音助手中受益的群体。例如,痴呆症患者在对话中暂停更频繁、时间更长。

技术方法

在某中心AI的研究中,我们尝试了多种语音处理流程来解决这个问题。最成功的方法涉及一个学习"理解"不完整句子的模型。为训练该模型,我们调整了两个现有数据集,截断其句子并将每个句子与基于图的语义表示配对。

其中一个截断句子数据集仅包含问题,另一个数据集包含更通用的句子。数据集中的图捕获了每个句子中每个单词的语义以及单词之间的关系。当截断原始句子时,我们也移除了被删除单词贡献的图部分。

模型架构

使用这些数据集训练了一个模型,该模型以不完整句子作为输入,输出相应不完整的语义图。部分图随后输入到完成图的模型中,其输出被转换为文本字符串进行下游处理。

测试结果

在涉及语义解析的测试中,比较了使用修复后话语和使用完整未中断问题的结果。在理想情况下,两组输入的输出应该相同。

在问答场景中,接收修复后问题的模型回答的问题数量仅比接收完整问题的模型少0.77%。使用更通用的语料库,在图相似度F分数上仅损失1.6%,该分数同时考虑了假阳性和假阴性率。

应用价值

这些发现对于使语音助手更易用至关重要。痴呆症患者发现语音助手非常有用,他们可以设置提醒、通过选择食谱参与家庭用餐,并更轻松地访问音乐。如果未来的系统能够在某人意外停顿时无缝恢复,那么痴呆症患者将能够以最小的挫折感享受这些好处。

该工作还证实了通过自然交互纠正语音识别错误的可能性。当狗叫时很难听到话语中的单词,研究表明未来的语音助手可以通过自然交互识别和澄清听错的单词,改善非标准语音用户的体验,同时提高语音助手在嘈杂环境中的鲁棒性。

发布这些语料库希望能激励其他研究人员也致力于这个问题,改善未来语音助手的自然交互性和可访问性。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计