ICASSP 2024语音技术论文精选

本文精选某机构在ICASSP 2024发表的20余篇论文,涵盖语音增强、口语理解、对话系统、副语言学等前沿技术,展示信号处理领域最新研究成果。

会议背景

国际声学、语音与信号处理会议(ICASSP 2024)于4月14-19日在韩国首尔举行。某机构作为铜牌赞助商参与此次"全球规模最大、最全面的信号处理技术会议"。

重点论文

语音识别(ASR)

  • 最大间隔转录器损失:通过大间隔学习策略改进序列判别训练
  • Promptformer:基于提示的Conformer转录器架构
  • 对话任务驱动的自监督语音识别:利用对话数据提升ASR性能

语音增强

  • NoLACE:通过自适应时域整形改进低复杂度语音编解码增强
  • 实时立体声增强:基于双路径结构的空间线索保留方法
  • 可扩展语音增强:采用改进冷扩散和残差学习的新方法

口语理解(SLU)

  • S2E端到端实体解析:直接从音频信号解析查询中的实体
  • 基于上下文学习的鲁棒SLU:利用词混淆网络提升模型鲁棒性

其他技术

  • 唤醒词识别:通过神经模型重编程实现端到端ASR热修复
  • 副语言学增强的LLM:提升语音对话的大型语言建模
  • 噪声鲁棒基频估计:DSP辅助的极低复杂度神经网络方法

技术图解

论文包含多个模型架构示意图,包括:

  1. 序列判别训练中的N-best假设处理流程
  2. 对话对比学习(CLC)的损失函数设计
  3. 端到端实体解析的完整系统架构
  4. 关键词识别的量化感知预训练框架

专题研讨会

会议包含"可信语音处理"专题研讨会,由某机构AGI基础组织的研究员参与组织,内容涵盖语音算法开发中的合成数据应用等前沿议题。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计