2022年ICASSP会议论文技术综述
某中心研究人员在本届声学、语音与信号处理国际会议(ICASSP)上发表了50余篇论文。其中多数聚焦于自动语音识别及相关主题(如关键词检测和说话人识别),同时也涉及计算机视觉、联邦学习等更广泛的领域。
主要技术方向
声学事件检测
- 联邦自监督学习用于声学事件分类:提出结合联邦学习与自监督学习的声学事件分类框架
- 基于树状结构本体的声学事件分类改进:利用本体论层次结构增强声学事件的特征表示
- WikiTAG知识嵌入模型:通过维基百科知识图谱提升声学事件分类精度
自动语音识别(ASR)
- 基于似然比的端到端模型域自适应方法:解决跨领域ASR的适应性问题
- 网格注意力机制(LATTENTION):通过注意力机制处理多ASR假设网格,提升识别性能
- 知识注入的子词建模:融合知识图谱信息改进未登录词实体识别
计算机视觉
- ASD-Transformer:基于自注意力和多模态Transformer的高效主动说话人检测
- 动态剪枝SegFormer:实现高效语义分割的轻量化模型
- 时序感知对比学习:结合时间信息的音频-视觉表示生成方法
联邦学习
- 联邦学习挑战与机遇展望:分析实际部署中的关键问题
- 真实场景联邦学习经验总结:基于实际应用场景的优化策略
个性化技术
- 增量用户嵌入建模:实现个性化文本分类的动态用户表征学习
信号处理
- 深度自适应回声消除:结合深度学习与自适应信号处理的新型回声消除方案
- 基于色谱图的音高感知混音改进:提升歌声分离质量的技术方案
语音合成与转换
- 跨说话人风格迁移:使用数据增强实现文本到语音的风格转换
- 归一化流实现的非并行多对多语音转换:无需文本标注的语音转换技术
技术亮点
- 多模态融合:在语音识别中引入视觉信息,在声学事件分类中结合知识图谱
- 端到端优化:多个研究采用端到端神经网络架构简化处理流程
- 轻量化设计:通过模型剪枝、知识蒸馏等技术实现高效部署
- 联邦学习创新:探索在保护隐私前提下的分布式模型训练新范式