Interspeech 2023语音技术研究全景概览

本文系统介绍了某机构在Interspeech 2023会议上发表的语音技术研究成果,涵盖自动语音识别、对话管理、文本转语音等多个领域,包括流式Conformer架构、多语言上下文适配器、语音表示学习等创新技术方案。

自动语音识别

基于指标驱动的Conformer层剪枝方法
Dhanush Bekal, Karthik Gopalakrishnan等提出了一种面向高效ASR推理的Conformer层剪枝方法

流式Conformer架构
Martin Radfar等人开发了无需自注意力机制的流式Conformer模型,专为交互式语音助手设计

动态上下文传递架构
Goeric Huybrechts团队提出DCTX-Conformer,实现低延迟的统一流式与非流式识别

判别式语音识别重排序的蒸馏策略
Prashanth Gurunath Shivakumar等人研究了用于个性化ASR的蒸馏技术

基于注意力的上下文偏置适配器
Burin Naowarat团队探索了使用合成音频训练上下文偏置适配器的方法

人工转录质量改进
Jian Gao等人采用机器学习模型对众包工作者的多个转录假设进行对齐和评分

数据表示

残差适配器的自监督语音表示
Anshu Bhatia提出通过残差适配器进行语音表示的口音自适应方法

对话管理

参数高效的对话状态跟踪
Mingyu Derek Ma等人提出使用语言模型提示进行对话状态跟踪的方法,为每个输入段使用独立的固定长度嵌入

文本转语音

标准化流与扩散模型比较
Guangyang Zhang团队在TTS中比较了标准化流和扩散模型在韵律和声学建模中的表现

跨语言韵律迁移
Jakub Swiatkowski等人研究了基于短语级别的跨语言韵律迁移技术

扩散式口音建模
Kamil Deja提出在语音合成中基于扩散模型的口音建模方法

端到端多说话人TTS系统
Ammar Abbas开发了支持多说话人和细粒度韵律迁移的端到端模型

多语言上下文发音学习
Giulia Comini团队提出了基于上下文的多语言发音学习框架

关键技术亮点

  • 流式语音识别架构优化
  • 多语言上下文适配器训练
  • 参数高效的提示调优技术
  • 跨语言韵律迁移方法
  • 扩散模型在语音合成中的应用
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计