语音理解技术突破与模型优化方法

本文详细介绍某中心在Interspeech 2022会议上发表的五项语音理解技术研究成果,包括噪声数据学习、语音嵌入实体解析、低比特量化训练等方法,这些技术显著提升了语音识别系统的鲁棒性和效率。

噪声数据下的鲁棒语音理解系统学习

基于深度学习的方法在基准评估任务中表现出优异结果,但当训练数据存在噪声时,其性能显著下降。这通常是由于记忆化现象,即模型简单地学习特定输入与特定分类之间的一对一对应关系。该问题对于已经容易过拟合的过参数化模型尤为严重。

研究人员通过向训练数据引入不同水平的受控噪声进行系统研究,并探索了五种不同的标签噪声缓解策略用于意图分类任务:

  • 噪声层:学习噪声分布,在模型最后添加一个层
  • 鲁棒损失:同时使用主动损失(最大化属于标注类别的概率)和被动损失(最小化属于其他类别的概率)
  • LIMIT:通过模型权重与数据实例条件下标签之间的互信息来增强目标函数,减少记忆化
  • 标签平滑:用平滑值替换硬性的0和1分类目标来正则化模型
  • 早停:当验证误差开始增加时停止训练,防止过拟合

结果显示,在50%噪声水平下,基线模型(DistillBERT)的准确率下降超过30%。所有缓解方法都能有效减轻这种性能下降,其中LIMIT方法表现最佳,在50%噪声水平下能恢复超过80%的下降准确率,在20%噪声水平下能恢复超过96%。

语音嵌入提升ASR鲁棒性的实体解析

在语音助手中,实体解析(ER)任务是根据自然语言中描述实体的各种方式检索其索引。语音变异是一个主要的错误类别,例如将"chip and potato"识别为"shipping potato"。

研究人员提出基于短语发音的语音嵌入方法,其中发音相似性直接通过嵌入向量距离反映。然后使用连体网络的神经向量搜索机制来提高ER任务对自动语音识别(ASR)噪声的鲁棒性。语音嵌入与预训练BERT模型的语义嵌入相结合,还尝试在训练期间使用ASR n-best假设作为输入。

评估结果显示,与词汇搜索基线相比,基于语音嵌入的方法在视频域将错误率降低44%,在图书域降低35%。使用ASR n-best数据增强后,在视频域进一步将错误率降低至50%。

深度模型低比特量化的压缩权重分布

大型深度学习模型——特别是基于Transformer的模型——在许多公共基准任务上实现了最先进的性能。但其规模常常使其在具有内存和延迟约束的实际应用中不实用。

量化将变量的可能值划分为离散区间,并将每个区间中的所有值映射到单个代表值。研究人员展示了压缩Transformer模型的最低报告量化比特宽度,在三比特量化下公共GLUE基准仅出现0.2%的相对性能下降,在仅两比特量化下Alexa数据仅出现0.4%的相对下降。

通过权重的重新参数化来压缩分布,并向训练损失引入正则化项来控制学习模型参数的均值和方差,实现了这一突破。

多任务学习中声学事件标注对场景分类的影响

本研究探索使用声学事件标注(AET)来改进声学场景分类(ASC)任务。声学事件代表"汽车引擎"、“狗吠"等抽象层次的信息,而场景是不按特定时间顺序排列的声学事件集合,代表更高抽象层次的信息,如"街道交通"和"城市公园”。

研究人员提出使用多任务学习方法联合训练深度学习模型来执行AET和ASC,使用个体AET和ASC损失的加权组合。该方法将ASC错误率相对于基线模型降低了10%以上,并且优于先使用AET预训练然后在ASC上微调的模型。

L2语音合成的神经音素释义方法用于发音错误诊断

对于帮助用户学习英语作为第二语言(ESL)的机器学习模型,发音错误检测和诊断(MDD)是一项关键任务。然而,很难获得具有细粒度音素标注的非母语(L2)语音音频。

研究人员提出了一个语音合成系统,用于生成模仿L2说话者的发音错误语音。该系统的核心是最先进的基于Transformer的序列到序列机器翻译模型。单词的L1参考音素序列被视为源文本,其相应的错误发音L2音素序列被视为"释义"目标文本。实验证明了L2-GEN系统在提高公共基准评估集上MDD准确性的有效性。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计