ICASSP 2024语音技术论文精选指南

本文介绍了某中心在ICASSP 2024会议上发表的20余篇论文，涵盖语音增强、口语理解、对话系统、副语言学及音高估计等前沿技术，重点解析了自动语音识别、说话人识别和负责任AI等创新研究成果。

某中心ICASSP 2024论文技术综述

国际声学、语音与信号处理会议（ICASSP 2024）于4月14日至19日在韩国首尔举行。作为该会议的铜级赞助商，某中心研究人员在"可信语音处理"研讨会中担任组织者，并在设备领域发表题为《合成数据用于算法开发：实际案例与经验教训》的专题报告。

技术研究领域概览

自动语音识别（ASR）

最大间隔传感器损失：通过大间隔学习策略改进序列判别训练
Promptformer架构：基于提示符的传感器模型
对话式语音助手错误检测：针对显著识别错误的检测系统
任务导向对话：通过自监督学习提升语音识别性能

语音增强

NoLACE框架：通过自适应时域整形改进低复杂度语音编解码增强
实时立体声增强：基于双路径结构的空间线索保护技术
可扩展语音增强：采用改进冷扩散与残差学习的创新方法

口语理解（SLU）

S2E端到端方案：直接从音频信号实现实体解析的创新架构
上下文学习优化：通过词混淆网络提升ASR鲁棒性

说话人识别

嵌入对齐技术：实现注册模型与运行时模型的解耦

副语言学增强

大语言模型融合：增强口语对话的副语言学特征建模

音高估计

DSP辅助神经网络：实现极低复杂度的噪声鲁棒性音高估计

负责任AI

置信度模型应用：识别语音模型中具有挑战性的数据子组

唤醒词识别

神经模型重编程：通过热修复技术改进端到端ASR系统
最大熵对抗音频增强：用于关键词检测的创新数据增强方法
量化感知训练：设备端关键词识别的自监督学习方案

技术架构亮点

研究采用 transducer 模型架构、对比学习框架（CLC）、图神经网络（GNN）以及大语言模型与声学特征的融合技术。在模型优化方面，重点涉及序列判别训练、量化感知预训练和冷扩散等前沿方法。

comments powered by Disqus