自动语音识别
基于指标驱动的Conformer层剪枝方法
Dhanush Bekal, Karthik Gopalakrishnan等提出了一种面向高效ASR推理的Conformer层剪枝方法
流式Conformer架构
Martin Radfar等人开发了无需自注意力机制的流式Conformer模型,专为交互式语音助手设计
动态上下文传递架构
Goeric Huybrechts团队提出DCTX-Conformer,实现低延迟的统一流式与非流式识别
判别式语音识别重排序的蒸馏策略
Prashanth Gurunath Shivakumar等人研究了用于个性化ASR的蒸馏技术
基于注意力的上下文偏置适配器
Burin Naowarat团队探索了使用合成音频训练上下文偏置适配器的方法
人工转录质量改进
Jian Gao等人采用机器学习模型对众包工作者的多个转录假设进行对齐和评分
数据表示
残差适配器的自监督语音表示
Anshu Bhatia提出通过残差适配器进行语音表示的口音自适应方法
对话管理
参数高效的对话状态跟踪
Mingyu Derek Ma等人提出使用语言模型提示进行对话状态跟踪的方法,为每个输入段使用独立的固定长度嵌入
文本转语音
标准化流与扩散模型比较
Guangyang Zhang团队在TTS中比较了标准化流和扩散模型在韵律和声学建模中的表现
跨语言韵律迁移
Jakub Swiatkowski等人研究了基于短语级别的跨语言韵律迁移技术
扩散式口音建模
Kamil Deja提出在语音合成中基于扩散模型的口音建模方法
端到端多说话人TTS系统
Ammar Abbas开发了支持多说话人和细粒度韵律迁移的端到端模型
多语言上下文发音学习
Giulia Comini团队提出了基于上下文的多语言发音学习框架
关键技术亮点
- 流式语音识别架构优化
- 多语言上下文适配器训练
- 参数高效的提示调优技术
- 跨语言韵律迁移方法
- 扩散模型在语音合成中的应用