ICASSP 2024语音技术论文精选

本文介绍了某中心在ICASSP 2024会议上发表的20余篇论文,涵盖语音增强、口语理解、对话系统、副语言学等前沿技术,包括最大边际转录器损失、端到端实体解析等创新方法。

某中心ICASSP 2024论文技术概览

国际声学、语音与信号处理会议(ICASSP 2024)于4月14日至19日在韩国首尔举行。某中心作为铜牌赞助商,在会上发表了20余篇技术论文,并举办了"可信语音处理"研讨会。

主要技术方向

自动语音识别(ASR)

  • 最大边际转录器损失:通过大边际学习策略改进序列判别训练,从预训练转录器模型产生的N最佳列表中分离"好"与"坏"假设
  • Promptformer架构:基于提示的Conformer转录器用于语音识别
  • 对话任务驱动的自监督语音识别:使用对比学习对话方法,通过过去-未来损失和N最佳损失优化嵌入一致性

语音增强

  • NoLACE方法:通过自适应时域整形改进低复杂度语音编解码器增强
  • 实时立体声语音增强:基于双路径结构保持空间线索
  • 改进的冷扩散方法:通过残差学习实现可扩展高效的语音增强

口语理解

  • S2E端到端实体解析:直接从音频信号将查询中的实体提及解析为文本目录中的可操作实体
  • 基于词混淆网络的上下文学习:提高语音理解的鲁棒性

其他技术方向

  • 说话人识别:通过训练后嵌入对齐解耦注册和运行时模型
  • 音高估计:低复杂度DSP辅助神经音高估计方法
  • 副语言学增强:大语言模型在口语对话中的应用
  • 唤醒词识别:通过神经模型重编程实现端到端语音识别的热修复

技术特点

所有论文均采用严格的实验验证,涉及深度学习、信号处理、自然语言处理等多个技术领域,重点关注实际应用场景中的性能优化和效率提升。

端到端实体解析解决方案架构示意图

对话对比学习方法示意图

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计