语音识别技术的新趋势与自监督学习

本文探讨了语音识别技术的最新发展,重点分析了自监督学习机制和新型声学表示方法如何推动该领域进步,特别是在处理低资源语言和复杂声学环境方面的突破性应用。

二十年前——远在深度学习革命之前——某机构的学者、以色列理工学院电气与计算机工程副教授Yossi Keshet已经开始研究自动语音识别问题。

“当时工业界的焦点是小规模自动语音识别和封闭词汇语音识别,例如连接数字识别系统,比如‘呼叫26784’,”Keshet表示,“我们听到的‘26784’数字似乎是单独发音的,但实际上它们是连读的。”

如今,许多性能最佳的人工智能模型都使用深度学习,数百万人依赖手机上的语音助手或转录软件将语音转换为文本。但这并不意味着语音识别问题已经得到解决。

“我们仍然存在差距,特别是在混响房间、病理语音、带口音的语音以及所有世界语言的处理方面,”Keshet指出,“作为人类,我们有时只能根据上下文理解语音,因为我们具有某种高层错误纠正机制。语音识别系统目前还不具备这种能力。这非常有趣,因为它涉及通信理论和信息理论等其他领域。”

Keshet特别指出了语音相关研究中最近获得动力的两个趋势: “第一个是无监督/自监督机制,”他表示,“这意味着系统自身提供更多数据来训练自己、适应自己等等。”

“另一个主题与表示相关,但是一种新的表示方法。我们过去使用的mel频谱表示基于信号处理和对人类听觉机制的理解。但事实证明,可以构建不假设信号特定结构的表示方法,这些方法在自动语音识别和语音合成方面都表现更好。最有效的表示基于自监督学习,其中未标记的输入定义了可以生成伪标记训练数据的辅助任务。这些数据可用于使用监督技术训练模型。”

Keshet解释说,这种处理声学数据的新方法受到BERT模型在自然语言处理(NLP)中成功的启发。如今,通常使用相对较小的标注数据语料库来微调预训练语言模型(如BERT)来构建NLP模型,这些模型为整个语言编码词序列概率。

BERT以无监督方式进行训练,这意味着不需要对训练数据进行标注。相反,训练数据句子中的单词被随机屏蔽,模型学习预测缺失的单词。

“类似地,在语音领域,许多自监督学习算法基于训练深度学习模型来区分后续样本和随机未来样本,”Keshet解释道,“这一概念背后的原理是,后续样本比随机未来样本更可能属于相同的音位类别。”

“我可以举一个我的学术研究小组在说话人日志方面的工作例子,即识别谁在什么时候说话。给定一段语音流,需要判断‘这是A。这是B。这是A。这是C。’”

“在这项工作中,我们假设在接下来的10毫秒内,应该是同一个说话人,在接下来的100毫秒内也是如此。在下一秒钟,谁知道呢?但至少在接下来的500毫秒内,应该是同一个说话人。你也可以用音素分割来做这件事”——将原始声学信号的片段与音素(语音的最小单位)进行匹配。

“另一种自监督学习的概念称为Barlow twins,”Keshet说,“你有两个与同一说话人、音素、文本等相关的信号。然后训练一个网络,学习它们在表示空间中应该接近,而其他所有内容则不应该那么接近。”

“这是革命性的,因为如果你想在像希伯来语这样的深奥语言中进行语音识别,你可以做到。你只需要语音。这是我们以前从未有过的。它使我们能够扩展到没有大型数据语料库的语言。”

然而,有时任何类型的数据(无论是标注还是未标注)都不足够。Keshet表示,处理这些情况是语音相关技术的另一个开放前沿。

“让我举个例子,”他说,“听播客时,有时你想让语音更快或更慢。这效果非常差。所以我的小组决定解决这个问题。”

“问题是我们没有你以1.2倍、1.33倍、0.8倍速度说话的数据。即使我们记录了你说得更快或更慢的语音,我们也不知道哪个是哪个。”

“我们做了第一个关于深度学习架构来解决这个问题的工作。数据不是以监督方式使用的。我们让它更快,然后返回比较两个信号,然后让它更慢并比较那些。我们进行不同类型的比较。”

“这些类似于对比损失。对比损失函数有三个元素。我们将当前帧与其他两个元素进行比较。一个是正的,一个是负的。损失函数会说,好吧,获取网络的所有参数,使正样本接近,负样本远离。”

“这是一种以不同方式使用无监督数据的方法。而且质量非常出色。是录音室质量。”

在开始研究语音相关技术二十年后,Keshet的热情依然不减。“我忍不住,”他说,“我对人类语音感到兴奋,这是我们已知的最平凡但也是最复杂的信号之一。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计