语音助手修复中断问题提升可访问性

本文介绍通过语义图表示截断句子的技术,使语音助手能够理解不完整问句。该方法针对痴呆症患者等特殊群体优化交互体验,在测试中仅比完整问句理解率低0.77%,显著提升语音助手在噪声环境下的鲁棒性。

技术方案概述

通过构建截断句子数据集训练语义理解模型,将不完整句子转换为语义图表示。该方法使用基于图的语义表征捕获句子中每个单词的语义及词间关系,当原始句子被截断时,同步移除被删除词汇对应的图结构部分。

模型架构

  1. 输入处理层:接收不完整句子作为输入
  2. 语义图生成层:输出对应的不完整语义图
  3. 图补全模型:对部分图结构进行补全
  4. 文本转换层:将补全后的图转换为文本字符串供下游处理

实验成果

在语义解析测试中:

  • 问答场景下,修复后问题比完整问题的回答准确率仅低0.77%
  • 通用语料测试中,图相似度F值仅下降1.6%(综合考量假阳性和假阴性率)

应用价值

该方法显著提升语音助手在以下场景的适用性:

  • 痴呆症患者(对话停顿更频繁且持续时间更长)
  • 非标准语音用户(发音障碍、肌肉萎缩症等)
  • 噪声环境(家庭环境、公共场所的突发噪声)

数据发布

研究团队公开了两种截断句子数据集:

  • 专用于问题的数据集(已在CUI 2023会议发布)
  • 通用句子数据集(将在Interspeech会议发布)

通过开放数据集促进学术界共同改进语音助手的自然交互性和可访问性。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计