Interspeech 2022语音技术研究全景解析

本文详细解析了某机构在Interspeech 2022发表的40余篇论文,涵盖自动语音识别、文本转语音、音频水印、自动配音、模型量化等前沿技术,展示了语音技术领域的最新进展与创新突破。

语音识别与文本转语音技术

在某机构于Interspeech 2022发表的40余篇论文中,自动语音识别(ASR)和文本转语音(TTS)相关研究约占半数,其余论文涵盖了从音频水印、自动配音到模型量化和公平性等多个领域。

音频水印

实用化空中感知音频水印技术
Ameya Agaskar

音频分类

基于CNN的音频事件识别用于Prime Video内容暴力自动分类与评级
Tarun Gupta, Mayank Sharma, Kenny Qiu, Xiang Hao, Raffay Hamid

多任务学习框架中声学事件标注对场景分类的影响
Rahil Parikh, Harshavardhan Sundar, Ming Sun, Chao Wang, Spyros Matsoukas

自动配音

面向自动配音的等时性感知神经机器翻译
Derek Tam, Surafel Melaku Lakew, Yogesh Virkar, Prashant Mathur, Marcello Federico

离屏自动配音的韵律对齐技术
Yogesh Virkar, Marcello Federico, Robert Enyedi, Roberto Barra-Chicote

自动语音识别

流式ASR的计算成本分摊Transformer
Yi Xie, Jonathan Macoskey, Martin Radfar, Feng-Ju Chang, Brian King, Ariya Rastrow, Athanasios Mouchtaris, Grant Strimel

“计算成本分摊Transformer用于流式ASR"提出了一种通过动态切换Transformer模块组件来提升计算资源利用效率的机制。

自动语音识别的内容-上下文分解表示
David M. Chan, Shalini Ghosh

流式语音识别的卷积增强循环神经网络转换器
Martin Radfar, Rohit Barnwal, Rupak Vignesh Swaminathan, Feng-Ju Chang, Grant Strimel, Nathan Susanj, Athanasios Mouchtaris

长格式对话语音识别的定向语音分离
Rohit Paturi, Sundararajan Srinivasan, Katrin Kirchhoff, Daniel Garcia-Romero

领域提示:面向ASR系统内存与计算高效的领域自适应
Saket Dingliwa, Ashish Shenoy, Sravan Bodapati, Ankur Gandhe, Ravi Teja Gadde, Katrin Kirchhoff

基于RNN-Transducer的语音识别模型增量学习
Deepak Baby, Pasquale D’Alterio, Valentin Mendelev

通过模块替换实现循环神经网络转换器语音识别的知识蒸馏
Kaiqi Zhao, Hieu Duy Nguyen, Animesh Jain, Nathan Susanj, Athanasios Mouchtaris, Lokesh Gupta, Ming Zhao

基于BERT置信度模型的ASR重排序学习排序
Ting-Wei Wu, I-FAN CHEN, Ankur Gandhe

通过弹性权重巩固减少自动语音识别中的地域差异
Viet Anh Trinh, Pegah Ghahremani, Brian King, Jasha Droppo, Andreas Stolcke, Roland Maas

参考文本偏置的Listen, Attend and Spell模型用于精确阅读评估
Phani Sankar Nidadavolu, Na Xu, Nick Jutila, Ravi Teja Gadde, Aswarth Abhilash Dara, Joseph Savold, Sapan Patel, Aaron Hoff, Veerdhawal Pande, Kevin Crews, Ankur Gandhe, Ariya Rastrow, Roland Maas

通过剪枝路径移植增强RNN-T网格
Mirek Novak, Pavlos Papadopoulos

使用数据增强和一致性正则化改进半监督语音识别
Ashtosh Sapru

对话系统

口语对话系统的上下文声学打断分类
Dhanush Bekal, Sundararajan Srinivasan, Sravan Bodapati, Srikanth Ronanki, Katrin Kirchhoff

公平性

语音识别公平性:性能差异发现与缓解
Pranav Dheram, Murugesan Ramakrishnan, Anirudh Raju, I-Fan Chen, Brian King, Katherine Powell, Melissa Saboowala, Karan Shetty, Andreas Stolcke

在"对抗性重加权用于说话人验证公平性"中提出的方法使用对抗网络识别说话人验证数据集中表现不佳的群体(绿色),并调整其对训练损失的贡献(底部)。

关键词检测

关键词检测的延迟控制
Christin Jose, Joe Wang, Grant Strimel, Mohammad Omar Khursheed, Yuriy Mishchenko, Brian Kulis

语言识别

歌唱语言识别的多模态策略
Wo Jae Lee, Emanuele Coviello

多设备处理

多设备语音处理的挑战与机遇
Gregory Ciccarelli, Jarred Barber, Arun Nair, Israel Cohen, Tao Zhang

多方语音

分离器-转换器-分段器:多方语音的流式识别与分割
Ilya Sklyar, Anna Piunova, Christian Osendorfer

自然语言理解

实体解析中ASR鲁棒性的语音嵌入
Xiaozhou Zhou, Ruying Bao, William M. Campbell

量化

深度模型低比特量化的压缩权重分布
Nikko Ström, Haidar Khan, Wael Hamza

8位神经网络加速器的亚8位量化感知训练
Kai Zhen, Hieu Duy Nguyen, Raviteja Chinta, Nathan Susanj, Athanasios Mouchtaris, Tariq Afzal, Ariya Rastrow

在"8位神经网络加速器的亚8位量化感知训练"中提出的算法训练行为,其中权重被优化以降低量化损失。

信号处理

时钟偏移鲁棒的声学回声消除
Karim Helwani, Erfan Soltanmohammadi, Michael M. Goodwin, Arvindh Krishnaswamy

混合生成与预测模型的实时丢包隐藏
Jean-Marc Valin, Ahmed Mustafa, Christopher Montgomery, Timothy B. Terriberry, Michael Klingbeil, Paris Smaragdis, Arvindh Krishnaswamy

说话人识别/验证

说话人验证公平性的对抗性重加权
Minho Jin, Chelsea J.-T. Ju, Zeya Chen, Yi Chieh Liu, Jasha Droppo, Andreas Stolcke

基于图的多视图融合与局部自适应:缓解家庭内混淆度的说话人识别
Long Chen, Yixiong Meng, Venkatesh Ravichandran, Andreas Stolcke

“基于图的多视图融合与局部自适应"提出的方法在图上传播标签,其中节点表示语音片段,加权边量化语音片段之间的相似性。

口语理解

标签噪声下的鲁棒口语理解系统学习
Anoop Kumar, Pankaj Sharma, Aravind Illa, Sriram Venkatapathy, Subhrangshu Nandi, Pritam Varma, Anurag Dwarakanath, Aram Galstyan

口语理解接口联合训练
Anirudh Raju, Milind Rao, Gautam Tiwari, Pranav Dheram, Bryan Anderson, Zhe Zhang, Chul Lee, Bach Bui, Ariya Rastrow

文本转语音

说话人相似性自动评估
Kamil Deja, Ariadna Sanchez, Julian Roth, Marius Cotescu

CopyCat2:多说话人TTS与多对多细粒度韵律转换的统一模型
Sri Karlapati, Penny Karanasou, Mateusz Lajszczak, Ammar Abbas, Alexis Moinet, Peter Makarov, Ray Li, Arent van Korlaar, Simon Slangen, Thomas Drugman

通过"使用标准化流创建新声音"方法生成的声音(绿色)分布在训练集声音的嵌入空间中(蓝色),证实了该方法能够生成多种新声音。

使用条件先验VAE和风格损失的跨语言风格迁移
Dino Ratcliffe, You Wang, Alex Mansbridge, Penny Karanasou, Alexis Moinet, Marius Cotescu

端到端LPCNet:具有全可微分LPC估计的神经声码器
Krishna Subramani, Jean-Marc Valin, Umut Isik, Paris Smaragdis, Arvindh Krishnaswamy

TTS中的表达性、可变和可控时长建模
Ammar Abbas, Tom Merritt, Alexis Moinet, Sri Karlapati, Ewa Muszynska, Simon Slangen, Elia Gatti, Thomas Drugman

GlowVC:语言无关无文本语音转换的梅尔谱解纠缠模型
Magdalena Proszewska, Grzegorz Beringer, Daniel Saez Trigueros, Tom Merritt, Abdelhamid Ezzerg, Roberto Barra-Chicote

L2-GEN:基于神经音素释义的L2语音合成方法用于发音错误诊断
Daniel Zhang, Ashwinkumar Ganesan, Sarah Campbell, Daniel Korzekwa

低数据?没问题:基于F0条件数据增强的低资源语言无关会话文本转语音
Giulia Comini, Goeric Huybrechts, Manuel Sam Ribeiro, Adam Gabrys, Jaime Lorenzo Trueba

混合匹配:多语言文本转语音训练语料组成的实证研究
Ziyao Zhang, Alessio Falai, Ariadna Sanchez, Orazio Angelini, Kayoko Yanagisawa

简单有效的多句子TTS:具有表达性和连贯性韵律
Peter Makarov, Ammar Abbas, Mateusz Lajszczak, Arnaud Joly, Sri Karlapati, Alexis Moinet, Thomas Drugman, Penny Karanasou

统一与征服:语音特征表示如何影响多语言文本转语音
Ariadna Sanchez, Alessio Falai, Ziyao Zhang, Orazio Angelini, Kayoko Yanagisawa

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计