ICASSP 2024语音与信号处理技术论文精选
国际声学、语音与信号处理会议(ICASSP 2024)于4月14日至19日在韩国首尔举行。某中心作为"全球最大最全面的信号处理及其应用技术会议"的青铜赞助商参与本次会议。
会议亮点
某中心的参与包括组织"可信语音处理"研讨会,该研讨会的两位组织者是某中心人工智能基础组织的研究人员。此外,某中心设备部门的高级研究科学经理将发表题为"算法开发的合成数据:实际案例与经验教训"的专题演讲。
主要研究领域
自动语音识别(ASR)
- 最大间隔传感器损失:通过大间隔学习策略改进序列判别训练
- Promptformer:基于提示的Conformer传感器ASR模型
- 对话语音助手的重要ASR错误检测
- 面向任务对话作为自监督自动语音识别的催化剂
语音增强
- NoLACE:通过自适应时域整形改进低复杂度语音编解码增强
- 基于双路径结构的实时立体声语音增强与空间线索保留
- 使用改进的冷扩散进行可扩展高效语音增强:残差学习方法
口语理解
- S2E:从声学信号到端到端实体解析解决方案
- 通过词混淆网络的上下文学习实现ASR鲁棒的口语理解
对话系统
- 结合声学和大语言模型的对话轮换与反馈预测
副语言学
- 副语言学增强的大语言模型在口语对话中的应用
音高估计
- 基于DSP辅助的神经音高估计:低复杂度且抗噪声
唤醒词识别
- 通过神经模型重编程实现端到端ASR的热修复唤醒词识别
- 基于最大熵对抗音频增强的关键词检测
说话人识别
- 后训练嵌入对齐用于解耦注册和运行时说话人识别模型
计算机视觉
- 基于图神经网络的2D化妆迁移中的肤色解缠
负责任AI
- 利用置信度模型识别语音模型中具有挑战性的数据子组
技术特点
这些论文展示了在语音信号处理领域的前沿技术,包括:
- 新型序列判别训练标准
- 自监督学习方法
- 低复杂度算法设计
- 实时处理技术
- 多模态融合方法
- 对抗性增强技术
所有研究都致力于推动语音技术的发展,为实际应用提供更高效、更准确的解决方案。