Interspeech 2023语音技术研究全景概览

自动语音识别

基于指标驱动的Conformer层剪枝方法
Dhanush Bekal, Karthik Gopalakrishnan等提出了一种面向高效ASR推理的Conformer层剪枝方法

流式Conformer架构
Martin Radfar等人开发了无需自注意力机制的流式Conformer模型，专为交互式语音助手设计

动态上下文传递架构
Goeric Huybrechts团队提出DCTX-Conformer，实现低延迟的统一流式与非流式识别

判别式语音识别重排序的蒸馏策略
Prashanth Gurunath Shivakumar等人研究了用于个性化ASR的蒸馏技术

基于注意力的上下文偏置适配器
Burin Naowarat团队探索了使用合成音频训练上下文偏置适配器的方法

人工转录质量改进
Jian Gao等人采用机器学习模型对众包工作者的多个转录假设进行对齐和评分

残差适配器的自监督语音表示
Anshu Bhatia提出通过残差适配器进行语音表示的口音自适应方法

参数高效的对话状态跟踪
Mingyu Derek Ma等人提出使用语言模型提示进行对话状态跟踪的方法，为每个输入段使用独立的固定长度嵌入

标准化流与扩散模型比较
Guangyang Zhang团队在TTS中比较了标准化流和扩散模型在韵律和声学建模中的表现

跨语言韵律迁移
Jakub Swiatkowski等人研究了基于短语级别的跨语言韵律迁移技术

扩散式口音建模
Kamil Deja提出在语音合成中基于扩散模型的口音建模方法

端到端多说话人TTS系统
Ammar Abbas开发了支持多说话人和细粒度韵律迁移的端到端模型

多语言上下文发音学习
Giulia Comini团队提出了基于上下文的多语言发音学习框架