Interspeech 2022:跨学科研究的兴起
循环训练语音合成与语音识别模型,以及通过语言理解改善语音韵律,仅仅是语音相关领域交叉融合的几个例证。
当Penny Karanasou在2010年首次在Interspeech发表论文时,她还是一名计算机科学博士生,专注于自动语音识别研究。六年后,她加入某中心担任自然语言理解团队成员,过去两年半一直从事文本转语音工作,最近担任高级应用科学家。因此她对智能助手的三大核心技术都拥有实战经验。
她也与Interspeech会议有着深厚渊源。今年的会议将是她第二次担任程序委员会领域主席,第七次主持会议环节。鉴于她在对话式AI领域的丰富经验,最令她着迷的领域趋势之一就是自动语音识别、自然语言理解和文本转语音之间日益增长的重叠。
“近年来,随着新兴神经网络技术的发展,我们开始看到不同语音领域之间越来越多的重叠和协同效应,“Karanasou表示,“其中一个方向是使用TTS来辅助ASR,即通过TTS系统生成合成数据以实现数据增强。在英语中,我们可能需要特定领域的数据、超纲词汇或数据分布尾部的罕见示例。但这种方法对资源匮乏的语言同样有效。”
“另一种结合ASR和TTS的方法是使用半监督学习来改进两个系统的联合训练。从数据开始,然后以循环方式进行训练。训练一个系统,并将其输出用于训练另一个系统。通过置信度度量或其他选择方法筛选数据用于新一轮训练。这种循环训练实际上可以同时改进两个任务。”
“近年来观察到的另一个现象是两个领域采用了共同的方法。在TTS和ASR中,研究界都在向全神经网络端到端系统发展。我们还看到为了实现长格式ASR和TTS而增加的上下文处理。因此不再只关注单个句子,而是考虑对话中先前内容的更广泛上下文。”
语言理解与语音的融合
“我认为这也是NLU产生影响的地方,“Karanasou说,“借助所有这些语言模型——最著名的是BERT——我们看到NLU被整合到语音领域。在TTS和ASR论文中看到BERT被用于为系统添加更多上下文及句法语义信息。例如,通过正确的句法和语义信息,我们可以在TTS中获得更好的韵律。”
然而正如Karanasou所解释,像BERT这样的语言模型在NLU中的成功本身就是学科间交叉融合的例证。语言模型编码词序列的概率,而单词与其他词的共现结果被证明是其含义的良好指标。但在引入NLU之前,语言模型早已用于ASR中区分相同声音序列的不同解释。
“我们有为ASR开发的语言模型,“Karanasou说,“突然之间,基于Transformer架构的BERT出现在视野中,现在被用于编码器、解码器和其他模块,而且效果要好得多。”
Interspeech一直都有关于ASR和TTS的论文。毕竟这两个任务是相互镜像的:文本转语音和语音转文本。但Karanasou指出,对话式AI子领域重叠增加的另一个迹象是,接收语音输入并以端到端方式执行下游计算的模型相关论文数量不断增长。这包括口语理解、口语翻译和口语对话的研究。
“传统上,我们会在NLP会议上看到这些关于口语理解的部分,“Karanasou说,“但现在我们在Interspeech这样的会议上看到更多SLU环节。”
“尽管如此,我们必须记住每个领域都有其自身的挑战和目标。ASR是与TTS相反的任务,但处理的数据和评估技术不同。例如,TTS主要基于主观评估,而ASR最小化词错误率,因此是客观评估。”
对Karanasou而言,对话式AI子领域间的交叉融合只是跨学科研究优势的一个例证。“我认为人们应该阅读其他领域的论文,“她说,“当然包括机器翻译,这是NLU的一部分。但越来越多地,我们甚至从图像处理、计算机视觉中获得灵感。理解另一个领域已发生的技术并将其转移到自己的领域,这实际上是非常丰富的。”