ICASSP 2022语音与信号处理技术综述

本文综述了某中心在ICASSP 2022会议上发表的50余篇论文,涵盖自动语音识别、联邦学习、计算机视觉等多个技术领域,重点介绍了语音处理、信号处理和人工智能方面的创新研究成果。

某中心ICASSP 2022论文技术综述

某中心研究人员在2022年声学、语音与信号处理国际会议(ICASSP)上发表了50余篇论文。这些论文主要集中在自动语音识别及相关主题,如关键词识别和说话人识别,同时也涉及计算机视觉和联邦学习等领域。

今年的ICASSP会议包括线上(5月7日至13日)和线下(新加坡,5月22日至27日)两个部分。

主要技术领域

声学事件检测

  • 联邦自监督学习用于声学事件分类:Meng Feng等人
  • 基于树结构本体的改进声学事件分类表示学习:Arman Zharmagambetov等人
  • WikiTAG:基于维基百科的知识嵌入改进声学事件分类:Qin Zhang等人

自动语音识别(ASR)

  • 基于似然比的端到端模型域适应方法:Chhavi Choudhury等人
  • 贪婪采样策略对端到端语音识别无损害:Jahn Heymann等人
  • 缓存网络:利用常见语音优化ASR:Anastasios Alexandridis等人
  • LATTENTION:ASR重评分中的格点注意力机制:Prabhat Pandey等人
  • 知识注入子词建模提升OOV命名实体识别:Nilaksh Das等人
  • 贝叶斯神经建模缓解端到端语音识别中的对抗样本:Chao-Han Huck Yang等人
  • 多模态预训练用于自动语音识别:David M. Chan等人
  • 多轮RNN-T用于流式多说话人语音识别:Ilya Sklyar等人
  • RescoreBERT:基于BERT的判别性语音识别重评分:Liyan Xu等人
  • USTED:统一语音文本编码器-解码器改进ASR:Bolaji Yusuf等人
  • VADOI:端到端长语音识别的语音活动检测重叠推理:Jinhan Wang等人

计算机视觉

  • ASD-transformer:使用自注意力和多模态transformer的高效主动说话人检测:Gourav Datta等人
  • 动态剪枝SegFormer实现高效语义分割:Haoli Bai等人
  • 时态认知增强的对比学习用于音频-视觉表示生成:Chandrashekhar Lavania等人
  • 模型偏移预测器的少样本视线估计:Jiawei Ma等人
  • 自监督注意力在低标签高数据机制中的视觉表示学习:Prarthana Bhattacharyya等人

联邦学习

  • 联邦学习的挑战与机遇展望:Jie Ding等人
  • 现实世界联邦学习的经验教训:Christophe Dupuy等人

信息检索

  • 基于对比知识图谱注意力的食谱推荐:Xiyao Ma等人

关键词识别

  • 统一推测、检测和验证关键词识别:Geng-shen Fu等人

机器翻译

  • 等距机器翻译:自动配音的神经机器翻译:Surafel Melaku Lakew等人

自然语言理解

  • ADVIN:从用户文本中自动发现新领域和意图:Nikhita Vedula等人
  • 大规模NLU模型的高效DP-SGD机制:Christophe Dupuy等人

副语言学

  • 基于情感类别与基元关系的语音情感识别置信度估计:Yang Li等人
  • 使用wav2vec 2.0的多语言多任务语音情感识别:Mayank Sharma
  • 通过跨模态条件师生训练的语音情感识别表示学习:Sundararajan Srinivasan等人
  • 情感感知的自动语音识别预训练增强语音情感识别:Ayoub Ghriss等人

个性化

  • 个性化文本分类的增量用户嵌入建模:Ruixue Lian等人

信号处理

  • 深度自适应AEC:深度学习与自适应声学回声消除的混合:Hao Zhang等人
  • 基于色谱图音高感知重混合的改进歌声分离:Siyuan Yuan等人
  • 声波稀疏恢复:Mohamed Mansour
  • 通过风格转换的上混:解耦空间图像和音乐内容的变分自编码器:Haici Yang等人

声源定位

  • 端到端设备仲裁:Jarred Barber等人

说话人日记/识别/验证

  • ASR感知的端到端神经日记化:Aparna Khare等人
  • 通过组适应融合网络改进说话人验证的公平性:Hua Shen等人
  • OpenFEAT:使用Transformer进行开放集少样本嵌入适应的说话人识别改进:Kishan K C等人
  • 使用人机对话的自监督说话人识别训练:Metehan Cekic等人
  • 使用简单连体网络和自监督正则化的自监督说话人验证:Mufan Sang等人

口语理解

  • 用于端到端对话行为分类的神经韵律编码器:Kai Wei等人
  • 带有语义解码器的多任务RNN-T用于可流式口语理解:Xuandi Fu等人
  • 跨模态潜在空间实现端到端口语理解:Bhuvan Agrawal等人
  • TINYS2I:具有上下文支持的设备端SLU小足迹话语分类模型:Anastasios Alexandridis等人

文本到语音(TTS)

  • 使用数据增强的跨说话人风格迁移:Manuel Sam Ribeiro等人
  • 低资源表达性文本到语音的分布增强:Mateusz Lajszczak等人
  • 自动配音的神经TTS持续时间建模:Johanes Effendi等人
  • 精简神经语音合成:提高LPCNET效率:Jean-Marc Valin等人
  • 使用标准化流的无文本非并行多对多语音转换:Thomas Merritt等人
  • VoiceFilter:使用语音转换作为后处理模块的少样本TTS说话人适应:Adam Gabrys等人

时间序列预测

  • 基于回测bootstrap和自适应残差选择的鲁棒非参数分布预测:Longshaokan Marshall Wang等人
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计