Interspeech 2022:跨学科研究的兴起
语音合成与语音识别模型的循环训练,以及通过语言理解改进语音韵律,仅仅是语音相关领域交叉融合的几个示例。
跨领域的技术融合
某中心高级应用科学家Penny Karanasou指出:“近年来,随着神经网络技术的发展,不同语音领域之间出现了越来越多的交叉与协同。例如使用TTS系统生成合成数据来增强ASR训练数据,特别是在英语特定领域、词汇表外词汇或数据分布长尾样本的处理上。这种方法对资源稀缺的语言尤其有效。”
联合训练与端到端系统
另一种结合ASR和TTS的方法是采用半监督学习进行联合训练,通过循环训练方式提升两个系统的性能。Karanasou解释道:“首先使用数据训练一个系统,然后将其输出用于训练另一个系统,通过置信度指标或其他选择方法筛选数据用于新一轮训练。这种循环训练能同时改进两个任务。”
近年来,两个领域都出现了共同的技术趋势:TTS和ASR都在向全神经网络端到端系统发展,并且都开始引入上下文信息来实现长格式语音处理,不再局限于单句处理,而是考虑对话中的历史上下文或其他语境信息。
语言理解的融合影响
“这也是NLU开始产生影响的地方,“Karanasou表示,“随着BERT等语言模型的出现,我们看到NLU被整合到语音领域中。在TTS和ASR论文中,BERT被用于为系统添加更多上下文及句法语义信息。例如,通过正确的句法和语义信息,我们可以在TTS中获得更好的韵律效果。”
跨学科的技术迁移
然而,如Karanasou所解释的,BERT等语言模型在NLU中的成功本身就是跨学科交叉融合的例证。语言模型最初是为ASR开发的,用于区分相同声音序列的不同解释(经典例子如"Pulitzer Prize"和"pullet surprise”),随后基于Transformer的架构被引入NLU领域并取得了显著更好的效果。
会议趋势的变化
Karanasou指出,另一个显示对话AI子领域重叠增加的迹象是:Interspeech会议上关于以语音为输入并以前端到端方式执行下游计算的模型论文数量不断增加。这些研究包括口语理解(SLU,语音识别和NLU的结合)、口语翻译和口语对话系统。
“传统上,我们会在NLP会议上看到这些关于口语理解的部分,“Karanasou说,“但现在我们在Interspeech等会议上看到更多的SLU部分。”
技术挑战与评估差异
尽管存在这些交叉融合,每个领域仍然有其独特的挑战和目标。Karanasou强调:“ASR是TTS的反向任务,但使用不同的数据和评估技术。例如,TTS主要基于主观评估,而ASR最小化词错误率,因此是客观评估。”
跨学科研究的重要性
对Karanasou而言,对话AI子领域之间的交叉融合只是跨学科研究优势的一个例子。“我认为人们应该阅读其他领域的论文,“她说,“当然包括机器翻译(这是NLU的一部分)。但越来越多地,我们甚至从图像处理、计算机视觉领域获得灵感。理解另一个领域发生的事情并将其转移到自己的领域,这实际上是非常丰富的。”