文本转语音技术突破让计算机发声更自然

本文深入探讨文本转语音(TTS)技术的发展历程,从早期贝尔实验室的Voder合成器到现代神经网络技术,详细分析了语音合成技术的架构演进,包括混合单元拼接方法和生成式神经网络方法的技术原理及应用场景。

文本转语音技术帮助计算机找到自己的声音

生成自然流畅、类人语音一直是科学家数十年来追求的目标。

让语音助手更人性化的技术原理

语言和语音极其复杂。词语有意义,词语的语境、背后的情感以及听者的反应也都有意义。言语的微妙之处似乎超出了最复杂计算机的能力范围。但近年来,文本转语音(TTS)技术的进步——计算机将词序列转换为自然流畅、清晰可懂的音频响应的能力——使计算机能够发出更类似人类的声音。

某中心的科学家和工程师正在帮助开创一个新时代,使计算机不仅听起来友好、知识渊博,还能预测话语的情感对普通听者可能产生的效果,并以类似人类的语调作出响应。

该领域的一场革命发生在2016年,当时推出了WaveNet——一种生成原始音频的技术。这项由伦敦人工智能公司DeepMind研究人员创建的技术,可以通过使用真实语音录音训练的神经网络生成逼真的声音。

神经网络推动技术飞跃

神经网络大致模拟人类神经系统,是由简单但密集互连的处理节点组成的网络。通常,这些节点被排列成层,每层的输出传递到上一层。层之间的连接具有相关的"权重",决定了一个节点的输出对下一个节点执行的计算贡献多少。

结合机器学习,神经网络加速了改进计算机语音的进程。“这真是一场发明的淘金热,“某中心TTS研究高级经理Andrew Breen表示。

自然语音生成的演进历程

生成自然流畅、类人语音是科学家数十年的目标。20世纪30年代,贝尔实验室科学家Homer Dudley开发了Voder,这是一种原始的合成语音机器,操作员像弹钢琴键盘一样操作它——但输出的不是音乐,而是刺耳的机械声音。20世纪80年代,数字设备公司开发的DECTalk计算机TTS应用已经发展到已故的Stephen Hawking可以使用它的版本,配合键盘来"说话”。结果是听起来人工但可理解的词语,许多人仍然将其与说话机器联系在一起。

到21世纪初,更准确的语音合成变得普遍。当时最主要的方法是:混合单元拼接。例如,某中心在2015年之前使用这种方法构建早期版本的语音助手声音,或将语音功能构建到Fire平板等产品中。

从短语记忆到语言学习的突破

混合单元拼接方法效果相当好,但有局限性。它需要大量来自专业配音人员的预录音作为参考——有点像游客不断翻阅大型法语书来查找特定短语。“因此,我们真的不能说混合单元拼接系统’学会’了一种语言,“Breen说。

创建真正学习语言而不仅仅是记忆短语的计算机成为研究人员的目标准。“这一直是圣杯,但没人知道如何实现,“Breen说。“我们很接近,但存在质量上限限制了其可行性。”

神经网络提供了一种实现这一目标的方法。2018年,某中心科学家证明,通过使用生成式神经网络方法创建合成语音,他们可以产生自然流畅的语音。使用生成式神经网络方法,语音助手还可以灵活调整讲述某些内容的方式。例如,某中心科学家仅用几个小时的训练数据就创建了新闻播报风格的语音,让客户能够以他们习惯的风格收听新闻。这一进步为语音助手和其他某中心服务在不同情境下采用不同说话风格铺平了道路,改善了客户体验。

品牌语音与未来展望

某中心最近推出了一项名为"品牌语音"的新功能,为组织提供了与某中心AI研究科学家和语言学家团队合作的机会,构建代表其品牌形象的独家高质量神经TTS语音。早期采用者加拿大肯德基和澳大利亚国民银行已利用该服务各自创建了两个独特的品牌语音,这些语音采用了与语音助手相同的深度学习技术。

展望未来,某中心研究人员正在努力教计算机理解一组词语的含义,并使用适当的情感说出这些词语。“如果我给计算机一篇新闻文章,它能够合理地呈现文章中的词语,“Breen说。“但缺少了一些东西。缺少的是对文章内容的理解,无论是好消息还是坏消息,以及焦点是什么。它缺乏那种直觉。”

这种情况正在改变。现在,可以教计算机用不同种类的语调说同一个句子。将来,它们可能仅根据词语的上下文或词语本身就能识别应该如何说出这些词语。“我们希望计算机对环境和对听者敏感,并相应适应,“Breen说。

TTS应用潜力巨大,从客户服务和远程学习到新闻文章叙述。推动这项技术的改进是某中心科学家和工程师采取的一种方法,旨在为语音助手客户乃至全球组织创造更好的体验。

“语音助手根据客户请求的语境调整其说话风格的能力,为提供以前不可想象的新颖愉快体验开辟了可能性,“Breen说。“这真是令人兴奋的时代。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计