噪声数据下的鲁棒语音理解系统学习
基于深度学习的方法在基准评估任务中表现出优越性能,但当训练数据存在噪声时,其性能会显著下降。这通常是由于记忆化现象导致的,即模型仅学习特定输入与特定分类之间的一一对应关系。该问题对于已经容易过拟合的过参数化模型尤为严重。
研究人员通过向训练数据引入不同级别的受控噪声进行系统研究,并探索了五种不同的标签噪声缓解策略:
- 噪声层:学习噪声分布,在模型最后添加一个层
- 鲁棒损失:同时使用主动损失(最大化属于标注类别的概率)和被动损失(最小化属于其他类别的概率)
- LIMIT方法:通过模型权重与标签在数据实例条件下的互信息来增强目标函数
- 标签平滑:用平滑值替换硬性的0和1分类目标
- 早停法:当验证误差开始增加时停止训练以防止过拟合
基于语音嵌入的实体解析ASR鲁棒性
在语音助手中,实体解析(ER)是根据自然语言中描述实体的各种方式检索实体索引的任务。语音变体是一大类错误,例如将"chip and potato"识别为"shipping potato"。
研究人员提出基于短语发音的语音嵌入方法,其中发音相似性直接通过嵌入向量距离反映。采用连体网络的神经向量搜索机制来提高实体解析任务对自动语音识别(ASR)噪声的鲁棒性。语音嵌入与预训练BERT模型的语义嵌入相结合,并尝试在训练期间使用ASR n-best假设作为输入。
深度模型低比特量化的压缩权重分布
大型深度学习模型(特别是基于Transformer的模型)在许多公共基准任务上实现了最先进的性能,但其规模通常使其在具有内存和延迟约束的实际应用中不实用。
研究人员展示了压缩Transformer模型的最低量化比特宽度报告,在三比特量化下公共GLUE基准仅出现0.2%的相对性能下降,在仅两比特量化下Alexa数据仅出现0.4%的相对性能下降。通过重新参数化权重来压缩分布,并在训练损失中引入正则化项来控制学习模型参数的均值和方差。
多任务学习中声学事件标注对场景分类的影响
本文探讨了使用声学事件标注(AET)来改进声学场景分类(ASC)任务。声学事件代表"汽车引擎"、“狗吠"等抽象层次的信息,而场景是声学事件的集合,代表"街道交通"和"城市公园"等更高抽象层次的信息。
研究人员提出联合训练深度学习模型来同时执行AET和ASC,使用多任务学习方法,采用个体AET和ASC损失的加权组合。该方法使ASC错误率相对于基线模型降低超过10%。
L2语音合成的神经音素转述方法
对于帮助用户学习英语作为第二语言(ESL)的机器学习模型,发音错误检测和诊断(MDD)是重要任务。然而,很难获得具有细粒度音素标注的非母语(L2)语音音频。
研究人员提出了用于生成模仿L2说话者发音错误语音的语音合成系统。系统的核心是最先进的基于Transformer的序列到序列机器翻译模型。实验证明了L2-GEN系统在提高公共基准评估集上MDD准确性的有效性。