ICASSP 2024语音技术论文精选

本文介绍了某中心在ICASSP 2024会议上发表的20余篇论文,涵盖语音增强、口语理解、对话系统、副语言学和音高估计等前沿技术,展示了在自动语音识别和语音处理领域的最新研究成果。

ICASSP 2024语音与信号处理技术论文精选

国际声学、语音与信号处理会议(ICASSP 2024)于4月14日至19日在韩国首尔举行。某中心作为"全球最大最全面的信号处理及其应用技术会议"的青铜赞助商参与本次会议。

会议亮点

某中心的参与包括组织"可信语音处理"研讨会,该研讨会的两位组织者是某中心人工智能基础组织的研究人员。此外,某中心设备部门的高级研究科学经理将发表题为"算法开发的合成数据:实际案例与经验教训"的专题演讲。

主要研究领域

自动语音识别(ASR)

  • 最大间隔传感器损失:通过大间隔学习策略改进序列判别训练
  • Promptformer:基于提示的Conformer传感器ASR模型
  • 对话语音助手的重要ASR错误检测
  • 面向任务对话作为自监督自动语音识别的催化剂

语音增强

  • NoLACE:通过自适应时域整形改进低复杂度语音编解码增强
  • 基于双路径结构的实时立体声语音增强与空间线索保留
  • 使用改进的冷扩散进行可扩展高效语音增强:残差学习方法

口语理解

  • S2E:从声学信号到端到端实体解析解决方案
  • 通过词混淆网络的上下文学习实现ASR鲁棒的口语理解

对话系统

  • 结合声学和大语言模型的对话轮换与反馈预测

副语言学

  • 副语言学增强的大语言模型在口语对话中的应用

音高估计

  • 基于DSP辅助的神经音高估计:低复杂度且抗噪声

唤醒词识别

  • 通过神经模型重编程实现端到端ASR的热修复唤醒词识别
  • 基于最大熵对抗音频增强的关键词检测

说话人识别

  • 后训练嵌入对齐用于解耦注册和运行时说话人识别模型

计算机视觉

  • 基于图神经网络的2D化妆迁移中的肤色解缠

负责任AI

  • 利用置信度模型识别语音模型中具有挑战性的数据子组

技术特点

这些论文展示了在语音信号处理领域的前沿技术,包括:

  • 新型序列判别训练标准
  • 自监督学习方法
  • 低复杂度算法设计
  • 实时处理技术
  • 多模态融合方法
  • 对抗性增强技术

所有研究都致力于推动语音技术的发展,为实际应用提供更高效、更准确的解决方案。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计