某中心ICASSP 2024论文技术综述
国际声学、语音与信号处理会议(ICASSP 2024)于4月14日至19日在韩国首尔举行。作为该会议的铜级赞助商,某中心研究人员在"可信语音处理"研讨会中担任组织者,并在设备领域发表题为《合成数据用于算法开发:实际案例与经验教训》的专题报告。
技术研究领域概览
自动语音识别(ASR)
- 最大间隔传感器损失:通过大间隔学习策略改进序列判别训练
- Promptformer架构:基于提示符的传感器模型
- 对话式语音助手错误检测:针对显著识别错误的检测系统
- 任务导向对话:通过自监督学习提升语音识别性能
语音增强
- NoLACE框架:通过自适应时域整形改进低复杂度语音编解码增强
- 实时立体声增强:基于双路径结构的空间线索保护技术
- 可扩展语音增强:采用改进冷扩散与残差学习的创新方法
口语理解(SLU)
- S2E端到端方案:直接从音频信号实现实体解析的创新架构
- 上下文学习优化:通过词混淆网络提升ASR鲁棒性
说话人识别
- 嵌入对齐技术:实现注册模型与运行时模型的解耦
副语言学增强
- 大语言模型融合:增强口语对话的副语言学特征建模
音高估计
- DSP辅助神经网络:实现极低复杂度的噪声鲁棒性音高估计
负责任AI
- 置信度模型应用:识别语音模型中具有挑战性的数据子组
唤醒词识别
- 神经模型重编程:通过热修复技术改进端到端ASR系统
- 最大熵对抗音频增强:用于关键词检测的创新数据增强方法
- 量化感知训练:设备端关键词识别的自监督学习方案
技术架构亮点
研究采用 transducer 模型架构、对比学习框架(CLC)、图神经网络(GNN)以及大语言模型与声学特征的融合技术。在模型优化方面,重点涉及序列判别训练、量化感知预训练和冷扩散等前沿方法。