ICASSP 2022语音与信号处理技术综述

本文综述了某中心在ICASSP 2022会议上发表的50余篇论文,涵盖自动语音识别、联邦学习、信号处理等多个技术领域,包括声学事件检测、多模态预训练、端到端模型优化等前沿研究方向。

某中心ICASSP 2022论文技术综述

某中心研究人员在本年度声学、语音与信号处理国际会议(ICASSP)上发表了50余篇论文。其中多数聚焦自动语音识别及相关主题,如关键词检测和说话人识别,同时也涉及计算机视觉和联邦学习等更广泛的领域。

本届ICASSP会议包含线上(5月7-13日)和线下(新加坡,5月22-27日)两个环节。

声学事件检测

  • 联邦自监督声学事件分类学习:Meng Feng等人提出结合联邦学习与自监督学习的声学事件分类方法
  • 基于树状结构本体论的声学事件分类改进:Arman Zharmagambetov团队通过本体论增强表示学习
  • WikiTAG:基于维基百科的知识嵌入:Qin Zhang等人利用知识图谱提升声学事件分类性能

自动语音识别

  • 基于似然比的端到端模型域适应方法:Chhavi Choudhury团队提出域适应优化方案
  • 贪婪采样策略:Jahn Heymann证实特定采样策略对端到端语音识别无损
  • 缓存网络:Anastasios Alexandridis团队通过共享语音特征提升ASR效率

在《LATTENTION:ASR重评分中的网格注意力机制》中,研究人员证明对编码多ASR假设的网格应用注意力机制(彩色网格)可提升识别性能。

计算机视觉

  • ASD-transformer:基于自注意力和多模态变换器的有效主动说话人检测
  • 动态剪枝SegFormer实现高效语义分割
  • 时序感知对比学习增强音频-视觉表示生成

联邦学习

  • 联邦学习的挑战与机遇展望:Jie Ding团队分析实际应用中的关键问题
  • 实际场景中的联邦学习经验:Christophe Dupuy总结实战洞察

信号处理与个性化

  • 深度自适应回声消除:融合深度学习与自适应声学回声消除技术
  • 基于风格转换的上混技术:通过变分自编码器分离空间图像与音乐内容
  • 增量用户嵌入建模:实现个性化文本分类

多语言与情感识别

  • 多语言多任务语音情感识别:基于wav2vec 2.0框架
  • 跨模态条件师生训练:通过表示学习提升语音情感识别
  • 情感感知ASR预训练:增强语音情感识别能力

端到端系统优化

  • 端到端Alexa设备仲裁:改进声音源定位
  • ASR感知的神经日记化:提升说话人日志记录精度
  • 轻量化语音理解模型:支持设备端SLU的上下文感知分类
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计