语音理解与模型压缩技术突破

本文重点介绍在Interspeech 2022会议上提出的五项语音理解技术创新,包括噪声标签学习、语音嵌入实体解析、低比特量化训练等方法,这些技术显著提升了语音系统的鲁棒性和效率。

Alexa在Interspeech 2022的口语理解研究

世界最大的口语处理科技会议Interspeech本周在韩国仁川举行,某中心作为白金赞助商参与。某中心科学团队邀请三位在语音、口语理解和文本转语音领域的首席科学家,重点介绍了某中心对会议的贡献。

噪声标签下的鲁棒口语理解系统学习

基于深度学习的方法在基准评估任务中表现出色,但当训练数据存在噪声时性能显著下降。这是由于模型过度记忆特定输入与分类的对应关系,而过参数化模型更容易过拟合。研究人员系统性地在训练数据中引入不同级别的可控噪声,并探索了五种标签噪声缓解策略:

  • 噪声层:学习噪声分布,在模型最后添加一层
  • 鲁棒损失:结合主动损失(最大化标注类别概率)和被动损失(最小化其他类别概率)
  • LIMIT:通过模型权重与标签间的互信息增强目标函数
  • 标签平滑:用平滑值替换硬性0/1分类目标
  • 早停:在验证误差开始增加时停止训练

实验结果显示,在50%噪声水平下,基线模型(DistillBERT)准确率下降超过30%。所有缓解方法都有效减轻了这种下降,其中LIMIT方法表现最佳,在50%噪声水平下能恢复超过80%的准确率损失。

用于ASR鲁棒性实体解析的语音嵌入

在智能语音系统中,实体解析(ER)任务是根据自然语言描述检索实体索引。语音变异是主要错误来源之一,例如"chip and potato"被识别为"shipping potato"。虽然词汇和语音搜索方法可以解决此类错误,但它们无法判断哪些短语对更容易混淆。

研究人员提出基于短语发音的语音嵌入方法,其中发音相似性直接反映在嵌入向量距离上。他们使用连体网络的神经向量搜索机制,结合预训练BERT模型的语义嵌入,并尝试在训练中使用ASR n-best假设作为输入。

评估结果显示,与词汇搜索基线相比,基于语音嵌入的方法在视频领域错误率降低44%,在图书领域降低35%。使用ASR n-best数据增强后,视频领域的错误率进一步降低至50%。

深度模型低比特量化的压缩权重分布

大型深度学习模型(特别是基于Transformer的模型)在许多公共基准任务中达到最先进性能,但其规模往往使它们在内存和延迟受限的实际应用中不实用。为此,研究人员提出了各种压缩方法,包括权重剪枝、蒸馏和量化。

量化将变量的可能值划分为离散区间,并将每个区间中的所有值映射到单个代表值。研究人员展示了压缩Transformer模型的最低报告量化比特宽度:在公开GLUE基准上,三比特量化仅产生0.2%的相对性能下降;在某中心数据上,二比特量化仅产生0.4%的相对下降。

他们通过重新参数化权重来压缩分布,并在训练损失中引入正则化项来控制学习模型参数的均值和方差。主要思想是在随机梯度下降(SGD)方法下优化权重的整体分布,使用新颖的权重变换使SGD学习近似均匀分布的权重而非典型的高斯分布。

多任务学习中声学事件标注对场景分类的影响

本文探讨使用声学事件标注(AET)改进声学场景分类(ASC)任务。声学事件代表"汽车引擎"、“狗吠"等抽象层次的信息,而场景是不按特定时间顺序排列的声学事件集合,代表更高抽象层次的信息,如"街道交通"和"城市公园”。

研究人员提出联合训练深度学习模型来执行AET和ASC,使用多任务学习方法结合个体AET和ASC损失的加权组合。该方法使ASC错误率相对于基线模型降低超过10%,并且优于先使用AET预训练再在ASC上微调的模型。

L2-GEN:用于发音错误诊断的神经音素释义方法

对于帮助用户学习英语作为第二语言(ESL)的机器学习模型,发音错误检测和诊断(MDD)是重要任务。然而,获取具有细粒度音素标注的非母语(L2)语音音频很困难。

研究人员提出了用于生成模仿L2说话者发音错误的语音合成系统。系统的核心是最先进的基于Transformer的序列到序列机器翻译模型。单词的L1参考音素序列被视为源文本,其相应的错误发音L2音素序列被视为"释义"目标文本。实验证明L2-GEN系统在提高公共基准评估集上的MDD准确性方面有效。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计