某中心ICASSP 2022论文技术综述
某中心研究人员在本年度声学、语音与信号处理国际会议(ICASSP)上发表了50余篇论文。其中多数聚焦自动语音识别及相关主题,如关键词检测和说话人识别,同时也涉及计算机视觉和联邦学习等更广泛的领域。
本届ICASSP会议包含线上(5月7-13日)和线下(新加坡,5月22-27日)两个环节。
声学事件检测
- 联邦自监督声学事件分类学习:Meng Feng等人提出结合联邦学习与自监督学习的声学事件分类方法
- 基于树状结构本体论的声学事件分类改进:Arman Zharmagambetov团队通过本体论增强表示学习
- WikiTAG:基于维基百科的知识嵌入:Qin Zhang等人利用知识图谱提升声学事件分类性能
自动语音识别
- 基于似然比的端到端模型域适应方法:Chhavi Choudhury团队提出域适应优化方案
- 贪婪采样策略:Jahn Heymann证实特定采样策略对端到端语音识别无损
- 缓存网络:Anastasios Alexandridis团队通过共享语音特征提升ASR效率
在《LATTENTION:ASR重评分中的网格注意力机制》中,研究人员证明对编码多ASR假设的网格应用注意力机制(彩色网格)可提升识别性能。
计算机视觉
- ASD-transformer:基于自注意力和多模态变换器的有效主动说话人检测
- 动态剪枝SegFormer实现高效语义分割
- 时序感知对比学习增强音频-视觉表示生成
联邦学习
- 联邦学习的挑战与机遇展望:Jie Ding团队分析实际应用中的关键问题
- 实际场景中的联邦学习经验:Christophe Dupuy总结实战洞察
信号处理与个性化
- 深度自适应回声消除:融合深度学习与自适应声学回声消除技术
- 基于风格转换的上混技术:通过变分自编码器分离空间图像与音乐内容
- 增量用户嵌入建模:实现个性化文本分类
多语言与情感识别
- 多语言多任务语音情感识别:基于wav2vec 2.0框架
- 跨模态条件师生训练:通过表示学习提升语音情感识别
- 情感感知ASR预训练:增强语音情感识别能力
端到端系统优化
- 端到端Alexa设备仲裁:改进声音源定位
- ASR感知的神经日记化:提升说话人日志记录精度
- 轻量化语音理解模型:支持设备端SLU的上下文感知分类