ICASSP 2024语音技术论文精选

本文介绍了某中心在ICASSP 2024会议上发表的20余篇论文，涵盖语音增强、口语理解、对话系统、副语言学和音高估计等前沿技术，展示了在自动语音识别和语音处理领域的最新研究成果。

ICASSP 2024语音与信号处理技术论文精选

国际声学、语音与信号处理会议（ICASSP 2024）于4月14日至19日在韩国首尔举行。某中心作为"全球最大最全面的信号处理及其应用技术会议"的青铜赞助商参与本次会议。

会议亮点

某中心的参与包括组织"可信语音处理"研讨会，该研讨会的两位组织者是某中心人工智能基础组织的研究人员。此外，某中心设备部门的高级研究科学经理将发表题为"算法开发的合成数据：实际案例与经验教训"的专题演讲。

主要研究领域

自动语音识别（ASR）

最大间隔传感器损失：通过大间隔学习策略改进序列判别训练
Promptformer：基于提示的Conformer传感器ASR模型
对话语音助手的重要ASR错误检测
面向任务对话作为自监督自动语音识别的催化剂

语音增强

NoLACE：通过自适应时域整形改进低复杂度语音编解码增强
基于双路径结构的实时立体声语音增强与空间线索保留
使用改进的冷扩散进行可扩展高效语音增强：残差学习方法

口语理解

S2E：从声学信号到端到端实体解析解决方案
通过词混淆网络的上下文学习实现ASR鲁棒的口语理解

对话系统

结合声学和大语言模型的对话轮换与反馈预测

副语言学

副语言学增强的大语言模型在口语对话中的应用

音高估计

基于DSP辅助的神经音高估计：低复杂度且抗噪声

唤醒词识别

通过神经模型重编程实现端到端ASR的热修复唤醒词识别
基于最大熵对抗音频增强的关键词检测

说话人识别

后训练嵌入对齐用于解耦注册和运行时说话人识别模型

计算机视觉

基于图神经网络的2D化妆迁移中的肤色解缠

负责任AI

利用置信度模型识别语音模型中具有挑战性的数据子组

技术特点

这些论文展示了在语音信号处理领域的前沿技术，包括：

新型序列判别训练标准
自监督学习方法
低复杂度算法设计
实时处理技术
多模态融合方法
对抗性增强技术

所有研究都致力于推动语音技术的发展，为实际应用提供更高效、更准确的解决方案。

comments powered by Disqus