ICASSP 2024语音技术论文精选指南

本文介绍了某中心在ICASSP 2024会议上发表的20余篇论文,涵盖语音增强、口语理解、对话系统、副语言学及音高估计等前沿技术,重点解析了自动语音识别、说话人识别和负责任AI等创新研究成果。

某中心ICASSP 2024论文技术综述

国际声学、语音与信号处理会议(ICASSP 2024)于4月14日至19日在韩国首尔举行。作为该会议的铜级赞助商,某中心研究人员在"可信语音处理"研讨会中担任组织者,并在设备领域发表题为《合成数据用于算法开发:实际案例与经验教训》的专题报告。

技术研究领域概览

自动语音识别(ASR)

  • 最大间隔传感器损失:通过大间隔学习策略改进序列判别训练
  • Promptformer架构:基于提示符的传感器模型
  • 对话式语音助手错误检测:针对显著识别错误的检测系统
  • 任务导向对话:通过自监督学习提升语音识别性能

语音增强

  • NoLACE框架:通过自适应时域整形改进低复杂度语音编解码增强
  • 实时立体声增强:基于双路径结构的空间线索保护技术
  • 可扩展语音增强:采用改进冷扩散与残差学习的创新方法

口语理解(SLU)

  • S2E端到端方案:直接从音频信号实现实体解析的创新架构
  • 上下文学习优化:通过词混淆网络提升ASR鲁棒性

说话人识别

  • 嵌入对齐技术:实现注册模型与运行时模型的解耦

副语言学增强

  • 大语言模型融合:增强口语对话的副语言学特征建模

音高估计

  • DSP辅助神经网络:实现极低复杂度的噪声鲁棒性音高估计

负责任AI

  • 置信度模型应用:识别语音模型中具有挑战性的数据子组

唤醒词识别

  • 神经模型重编程:通过热修复技术改进端到端ASR系统
  • 最大熵对抗音频增强:用于关键词检测的创新数据增强方法
  • 量化感知训练:设备端关键词识别的自监督学习方案

技术架构亮点

研究采用 transducer 模型架构、对比学习框架(CLC)、图神经网络(GNN)以及大语言模型与声学特征的融合技术。在模型优化方面,重点涉及序列判别训练、量化感知预训练和冷扩散等前沿方法。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计