语音识别技术的新突破与自监督学习应用

本文探讨了语音识别领域的最新发展趋势,重点分析了自监督学习机制和新型语音表示方法的技术突破。文章详细介绍了基于BERT模型的语音表示技术、说话人日志系统实现原理,以及处理低资源语言和语速调整等前沿问题的解决方案。

语音识别技术的新突破与自监督学习应用

二十年前——远在深度学习革命之前——某中心的学者Yossi Keshet就已经开始研究自动语音识别问题。

“当时行业的重点是小规模自动语音识别和封闭词汇语音识别,比如连接数字识别系统,例如’呼叫26784’,“Keshet表示,“我们听到的'26784’数字似乎是单独发音的,但实际上它们是连读的。”

如今,许多性能最佳的人工智能模型都使用深度学习,数百万人依赖语音助手或手机转录软件将语音转换为文本。但这并不意味着语音识别问题已经得到解决。

“我们仍然存在差距,特别是在混响房间、病理语音、带口音的语音以及所有世界语言中,“Keshet指出,“作为人类,我们有时只能基于上下文理解语音,因为我们具有更高层次的纠错机制。语音识别系统仍然不具备这种能力。”

自监督学习机制

Keshet特别指出了语音相关研究中两个近期获得动力的趋势。

“第一个是无监督/自监督机制,“他表示,“这意味着系统本身为自己提供更多数据,进行自我训练、自我适应等。”

“另一个主题与表示相关,但是一种新的表示方法。我们过去有一种基于信号处理和对人类听觉机制理解的梅尔频谱表示。但事实证明,可以构建不假设信号特定结构的表示方法,这些表示在自动语音识别和语音合成方面都表现更好。”

新型语音表示技术

这种处理声学数据的新方法受到自然语言处理中BERT模型成功的启发。如今,通常使用相对较小的标注数据语料库来微调预训练语言模型(如BERT)来构建自然语言处理模型。

“类似地,在语音领域,许多自监督学习算法基于训练深度学习模型来区分后续样本和随机未来样本,“Keshet解释道,“这个概念背后的原理是,后续样本比随机未来样本更可能属于相同的音素类别。”

说话人日志技术

“以我的学术研究组在说话人日志方面的工作为例,这是识别谁在何时说话的技术。给定语音流,需要判断’这是A,这是B,这是A,这是C’。”

“在这项工作中,我们假设在接下来的10毫秒内应该是同一个说话人,在接下来的100毫秒内也是。在接下来的一秒钟内,谁也不知道?但至少在接下来的500毫秒内应该是同一个说话人。也可以使用音素分割来实现。”

Barlow twins方法

“另一种自监督学习概念称为Barlow twins,“Keshet说,“有两个与同一说话人、音素、文本等相关的信号。训练一个网络,学习它们在表示空间中应该接近,而其他所有内容应该不太接近。”

“这具有革命性意义,因为如果要在像希伯来语这样的特殊语言中进行语音识别,只需要语音数据就可以实现。这是我们以前从未有过的能力,使我们能够扩展到没有大型数据语料库的语言。”

处理数据稀缺问题

然而,有时任何类型的数据(无论是标注还是未标注)都不足够。处理这些情况是语音相关技术的另一个开放前沿。

“以播客收听为例,有时需要加快或减慢语速。目前的效果很不理想。我的团队决定解决这个问题。”

“问题是我们没有你以1.2倍、1.33倍、0.8倍速度说话的数据。即使有记录你说话更快或更慢的语音,我们也不知道哪个是哪个。”

“我们完成了第一个使用深度学习架构解决这个问题的工作。数据不是以监督方式使用的。我们加快语速然后返回比较两个信号,再减慢语速比较那些信号。我们进行不同类型的比较。”

“这些类似于对比损失函数。对比损失函数有三个元素。我们将当前帧与其他两个元素进行比较。一个是正样本,一个是负样本。损失函数会说,好的,获取网络的所有参数,使正样本接近,负样本远离。”

“这是一种以不同方式使用无监督数据的方法。质量非常出色,达到录音室水准。”

在从事语音相关技术工作二十年后,Keshet的热情依然不减。

“我情不自禁,“他表示,“我对人类语音感到兴奋,这是我们已知的最平凡却又最复杂的信号之一。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计