2022年ICASSP会议50余篇论文技术指南

本文概述了某中心在ICASSP 2022会议上发表的50余篇论文,涵盖自动语音识别、联邦学习、计算机视觉等前沿技术。重点介绍了语音分离、知识图谱增强ASR、多模态表示学习等创新方法,展示了在信号处理与人工智能交叉领域的最新研究成果。

2022年ICASSP会议论文技术综述

某中心研究人员在本届声学、语音与信号处理国际会议(ICASSP)上发表了50余篇论文。其中多数聚焦于自动语音识别及相关主题(如关键词检测和说话人识别),同时也涉及计算机视觉、联邦学习等更广泛的领域。

主要技术方向

声学事件检测

  • 联邦自监督学习用于声学事件分类:提出结合联邦学习与自监督学习的声学事件分类框架
  • 基于树状结构本体的声学事件分类改进:利用本体论层次结构增强声学事件的特征表示
  • WikiTAG知识嵌入模型:通过维基百科知识图谱提升声学事件分类精度

自动语音识别(ASR)

  • 基于似然比的端到端模型域自适应方法:解决跨领域ASR的适应性问题
  • 网格注意力机制(LATTENTION):通过注意力机制处理多ASR假设网格,提升识别性能
  • 知识注入的子词建模:融合知识图谱信息改进未登录词实体识别

计算机视觉

  • ASD-Transformer:基于自注意力和多模态Transformer的高效主动说话人检测
  • 动态剪枝SegFormer:实现高效语义分割的轻量化模型
  • 时序感知对比学习:结合时间信息的音频-视觉表示生成方法

联邦学习

  • 联邦学习挑战与机遇展望:分析实际部署中的关键问题
  • 真实场景联邦学习经验总结:基于实际应用场景的优化策略

个性化技术

  • 增量用户嵌入建模:实现个性化文本分类的动态用户表征学习

信号处理

  • 深度自适应回声消除:结合深度学习与自适应信号处理的新型回声消除方案
  • 基于色谱图的音高感知混音改进:提升歌声分离质量的技术方案

语音合成与转换

  • 跨说话人风格迁移:使用数据增强实现文本到语音的风格转换
  • 归一化流实现的非并行多对多语音转换:无需文本标注的语音转换技术

技术亮点

  1. 多模态融合:在语音识别中引入视觉信息,在声学事件分类中结合知识图谱
  2. 端到端优化:多个研究采用端到端神经网络架构简化处理流程
  3. 轻量化设计:通过模型剪枝、知识蒸馏等技术实现高效部署
  4. 联邦学习创新:探索在保护隐私前提下的分布式模型训练新范式
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计