减少语音助手不必要澄清提问的新方法
在嘈杂环境中,当人们听不清或理解不清对方话语时,自然会要求澄清。语音助手也是如此。为避免基于不准确或不完整理解采取错误行动,语音助手会提出后续问题,例如询问定时器应设置为15分钟还是50分钟。
传统上,此类提问决定基于机器学习模型的置信度。如果模型预测出多个高置信度的竞争假设,澄清问题可帮助抉择。然而,对语音助手数据的分析表明,77%的情况下模型最高排名预测是正确的,即使其他假设也具有高置信度。在这些情况下,我们希望减少澄清提问的次数。
在IEEE自动语音识别与理解研讨会(ASRU)上,我们提出了通过训练机器学习模型来确定何时真正需要澄清的研究。实验显示,该方法相比基于置信度阈值和类似启发式的方法,将澄清问题的F1分数提高了81%。
HypRank模型
在大多数语音助手中,用户语音的声学信号首先传递至自动语音识别(ASR)模型,生成多个语音内容假设。排名靠前的假设随后传递至自然语言理解(NLU)模型,识别用户意图(如播放视频)和话语槽位(如视频标题)。
在我们的研究中,ASR和NLU模型生成的假设传递至第三个模型HypRank(假设排序器)。HypRank结合ASR、意图分类和槽位填充的预测与置信度,以及上下文信号(如用户启用的技能),生成不同假设的整体排名。
澄清决策模型
我们训练了另一个机器学习模型来决定是否需要澄清提问。除了ASR、NLU或HypRank分数的相似性外,该模型还考虑信噪比(SNR)和截断话语两种歧义来源。截断话语是指以冠词、所有格或介词结尾的话语。
模型输入包括:最高排名HypRank假设、其他具有相似分数的假设、SNR、表示请求是否为重复的二进制值,以及表示五种歧义来源的二进制值。所有非最高排名假设的向量表示合并为摘要向量,与其他输入向量拼接后传递至分类器,决定是否发出澄清问题。
实验验证
由于缺乏标注多ASR和NLU假设准确性的现有数据集,我们使用由某中心同事在NeurIPS人机对话系统研讨会上提出的模型自动标注的数据进行训练。该模型结合人工标注数据和用户反馈标注数据训练而成。
数据集中所有样本至少存在一种歧义类型,基线方法是在所有情况下都提问澄清。该方法假阴性率为零,但假阳性率可能很高。我们的方法可能增加假阴性率,但F1分数的提高表明在假阴性和假阳性之间取得了更好平衡。