会议背景
国际声学、语音与信号处理会议(ICASSP 2024)于4月14-19日在韩国首尔举行。某机构作为铜牌赞助商参与此次"全球规模最大、最全面的信号处理技术会议"。
重点论文
语音识别(ASR)
- 最大间隔转录器损失:通过大间隔学习策略改进序列判别训练
- Promptformer:基于提示的Conformer转录器架构
- 对话任务驱动的自监督语音识别:利用对话数据提升ASR性能
语音增强
- NoLACE:通过自适应时域整形改进低复杂度语音编解码增强
- 实时立体声增强:基于双路径结构的空间线索保留方法
- 可扩展语音增强:采用改进冷扩散和残差学习的新方法
口语理解(SLU)
- S2E端到端实体解析:直接从音频信号解析查询中的实体
- 基于上下文学习的鲁棒SLU:利用词混淆网络提升模型鲁棒性
其他技术
- 唤醒词识别:通过神经模型重编程实现端到端ASR热修复
- 副语言学增强的LLM:提升语音对话的大型语言建模
- 噪声鲁棒基频估计:DSP辅助的极低复杂度神经网络方法
技术图解
论文包含多个模型架构示意图,包括:
- 序列判别训练中的N-best假设处理流程
- 对话对比学习(CLC)的损失函数设计
- 端到端实体解析的完整系统架构
- 关键词识别的量化感知预训练框架
专题研讨会
会议包含"可信语音处理"专题研讨会,由某机构AGI基础组织的研究员参与组织,内容涵盖语音算法开发中的合成数据应用等前沿议题。