某中心ICASSP 2022论文技术综述
某中心研究人员在2022年声学、语音与信号处理国际会议(ICASSP)上发表了50余篇论文。这些论文主要集中在自动语音识别及相关主题,如关键词识别和说话人识别,同时也涉及计算机视觉和联邦学习等领域。
今年的ICASSP会议包括线上(5月7日至13日)和线下(新加坡,5月22日至27日)两个部分。
主要技术领域
声学事件检测
- 联邦自监督学习用于声学事件分类:Meng Feng等人
- 基于树结构本体的改进声学事件分类表示学习:Arman Zharmagambetov等人
- WikiTAG:基于维基百科的知识嵌入改进声学事件分类:Qin Zhang等人
自动语音识别(ASR)
- 基于似然比的端到端模型域适应方法:Chhavi Choudhury等人
- 贪婪采样策略对端到端语音识别无损害:Jahn Heymann等人
- 缓存网络:利用常见语音优化ASR:Anastasios Alexandridis等人
- LATTENTION:ASR重评分中的格点注意力机制:Prabhat Pandey等人
- 知识注入子词建模提升OOV命名实体识别:Nilaksh Das等人
- 贝叶斯神经建模缓解端到端语音识别中的对抗样本:Chao-Han Huck Yang等人
- 多模态预训练用于自动语音识别:David M. Chan等人
- 多轮RNN-T用于流式多说话人语音识别:Ilya Sklyar等人
- RescoreBERT:基于BERT的判别性语音识别重评分:Liyan Xu等人
- USTED:统一语音文本编码器-解码器改进ASR:Bolaji Yusuf等人
- VADOI:端到端长语音识别的语音活动检测重叠推理:Jinhan Wang等人
计算机视觉
- ASD-transformer:使用自注意力和多模态transformer的高效主动说话人检测:Gourav Datta等人
- 动态剪枝SegFormer实现高效语义分割:Haoli Bai等人
- 时态认知增强的对比学习用于音频-视觉表示生成:Chandrashekhar Lavania等人
- 模型偏移预测器的少样本视线估计:Jiawei Ma等人
- 自监督注意力在低标签高数据机制中的视觉表示学习:Prarthana Bhattacharyya等人
联邦学习
- 联邦学习的挑战与机遇展望:Jie Ding等人
- 现实世界联邦学习的经验教训:Christophe Dupuy等人
信息检索
- 基于对比知识图谱注意力的食谱推荐:Xiyao Ma等人
关键词识别
- 统一推测、检测和验证关键词识别:Geng-shen Fu等人
机器翻译
- 等距机器翻译:自动配音的神经机器翻译:Surafel Melaku Lakew等人
自然语言理解
- ADVIN:从用户文本中自动发现新领域和意图:Nikhita Vedula等人
- 大规模NLU模型的高效DP-SGD机制:Christophe Dupuy等人
副语言学
- 基于情感类别与基元关系的语音情感识别置信度估计:Yang Li等人
- 使用wav2vec 2.0的多语言多任务语音情感识别:Mayank Sharma
- 通过跨模态条件师生训练的语音情感识别表示学习:Sundararajan Srinivasan等人
- 情感感知的自动语音识别预训练增强语音情感识别:Ayoub Ghriss等人
个性化
- 个性化文本分类的增量用户嵌入建模:Ruixue Lian等人
信号处理
- 深度自适应AEC:深度学习与自适应声学回声消除的混合:Hao Zhang等人
- 基于色谱图音高感知重混合的改进歌声分离:Siyuan Yuan等人
- 声波稀疏恢复:Mohamed Mansour
- 通过风格转换的上混:解耦空间图像和音乐内容的变分自编码器:Haici Yang等人
声源定位
- 端到端设备仲裁:Jarred Barber等人
说话人日记/识别/验证
- ASR感知的端到端神经日记化:Aparna Khare等人
- 通过组适应融合网络改进说话人验证的公平性:Hua Shen等人
- OpenFEAT:使用Transformer进行开放集少样本嵌入适应的说话人识别改进:Kishan K C等人
- 使用人机对话的自监督说话人识别训练:Metehan Cekic等人
- 使用简单连体网络和自监督正则化的自监督说话人验证:Mufan Sang等人
口语理解
- 用于端到端对话行为分类的神经韵律编码器:Kai Wei等人
- 带有语义解码器的多任务RNN-T用于可流式口语理解:Xuandi Fu等人
- 跨模态潜在空间实现端到端口语理解:Bhuvan Agrawal等人
- TINYS2I:具有上下文支持的设备端SLU小足迹话语分类模型:Anastasios Alexandridis等人
文本到语音(TTS)
- 使用数据增强的跨说话人风格迁移:Manuel Sam Ribeiro等人
- 低资源表达性文本到语音的分布增强:Mateusz Lajszczak等人
- 自动配音的神经TTS持续时间建模:Johanes Effendi等人
- 精简神经语音合成:提高LPCNET效率:Jean-Marc Valin等人
- 使用标准化流的无文本非并行多对多语音转换:Thomas Merritt等人
- VoiceFilter:使用语音转换作为后处理模块的少样本TTS说话人适应:Adam Gabrys等人
时间序列预测
- 基于回测bootstrap和自适应残差选择的鲁棒非参数分布预测:Longshaokan Marshall Wang等人