语音风格自适应技术解析

本文深入探讨了基于神经网络的文本转语音技术如何实现语音风格自适应,包括韵律调整、语境感知的措辞生成和焦点词识别,展示了对话状态信息如何驱动语音合成系统产生更自然的人机交互体验。

语音风格自适应:让语音助手更自然地对话

语音助手的语音由文本转语音(TTS)模型生成,这些模型将自然语言理解模型和对话管理器的文本输出转换为合成语音。近年来,某中心的语音助手开始使用基于神经网络的神经TTS技术,这不仅使语音听起来更自然,还大大增强了多功能性。

语境驱动的韵律调整

在人类语音中,说话风格和韵律通常取决于语境。为了让语音助手与用户的交互尽可能自然,它也需要具备这种能力。例如:

  • 用户:播放《Village People》
  • 语音助手:您是指乐队、专辑还是歌曲?

人类说话者会自然强调"乐队"、“专辑"和"歌曲"这些与缺失信息最相关的词汇。通过语音风格自适应技术,语音助手开始以相同方式调整韵律模式以适应对话语境。同时还会调整语气:欢快活泼的语气可能适合某些场景,但如果语音助手刚未能成功完成请求,这种语气可能会令人厌烦。

技术实现架构

1. 语境感知的措辞生成

支持语音风格自适应的模型之一能够以语境感知的方式生成替代措辞,避免语音助手重复询问相同问题。在一轮对话中可能说"您是指歌曲吗?",在另一轮中则可能说"那我播放歌曲好吗?“等。

2. 概念到语音的演进

语音风格自适应是向"概念到语音"方向迈出的一步,这是文本转语音的预期后继技术。它以概念的高级表示为输入,根据语境和其他信号,在如何传达概念方面具有相当大的自由度。

系统工作流程

语音风格自适应依赖于对话管理器的状态信息,包括:

  • 用户意图(用户希望执行的操作)
  • 槽位值(操作涉及的特定实体)
  • 当前对话状态(开始、发展或结束)
  • 对话管理器对对话状态理解的当前置信度

第一阶段:重新措辞

状态信息首先传递到语音生成器的重新措辞模块,这是一个基于Transformer的神经网络,在大型领域特定语言语料库上训练。根据状态信息,模型生成替代措辞列表。

第二阶段:焦点词识别

重新措辞然后传递到另一个神经网络,该网络经过训练可以识别每个句子中的"焦点词”——这些词在语音中特别适合强调。

第三阶段:语音生成

对话状态信息、重新措辞模块提出的重新措辞以及焦点词模型的输出都传递到另一个神经网络——发音器,它生成输出语音。焦点词信息与槽位信息一起告诉发音器要强调输入句子中的哪些词。对话管理器的置信度分数决定了语音风格,在从低到高兴奋度的范围内。

技术展望

目前仍在早期阶段,正在试验利用其他上下文信息来进一步定制语音助手的响应。这项技术代表了语音合成领域的重要进展,为人机交互的自然化开辟了新的可能性。

图示说明:模型对不同韵律特征数据集中语音样本的表示(嵌入)进行聚类,相同颜色的点代表来自同一数据集的样本,表明模型准确捕获了韵律信息。根据上下文,语音生成器选择此空间中的一个点来定义生成语音的韵律。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计