语音风格自适应：让对话更自然

近年来，某中心的语音助手开始采用基于神经网络的文本转语音（TTS）技术，这不仅使语音听起来更自然，还大幅提升了多样性。神经TTS技术能够调整语音风格（如新闻播报或音乐风格），并实现韵律模式在不同语音间的迁移。

语境驱动的韵律调整

在人类对话中，说话风格和韵律通常取决于语境。为使语音助手与用户的交互尽可能自然，其也应具备相同能力。例如：

用户：播放Village People
语音助手：是指乐队、专辑还是歌曲？

人类说话者会自然强调“乐队”、“专辑”和“歌曲”这些与缺失信息最相关的词汇。通过语音风格自适应技术，语音助手开始以相同方式调整韵律模式以适应对话语境。同时还会调整语气：欢快活泼的语气可能适合某些场景，但若刚未能成功完成请求，这种语气可能令人不适。

支持语音风格自适应的模型之一能够以语境感知方式生成替代措辞，避免重复提问相同问题。在一轮对话中可能说“是指歌曲吗？”，另一轮则说“那要播放歌曲吗？”等。

语音风格自适应标志着向“概念到语音”方向迈出的一步，这是文本转语音的预期演进方向。该技术以概念的高级表示为输入，根据语境和其他信号拥有相当大的表达自由度。例如，相同的概念内容有时可通过语调、明确的语言表述或两者结合来传达。

语音风格自适应依赖于对话管理器的状态信息，包括：

状态信息首先传递至语音生成器的重新措辞模块，这是一个基于Transformer架构、在大型领域特定语言语料库上训练的神经网络。根据状态信息，该模型生成替代措辞列表。

重新措辞随后传递至另一个神经网络，该网络经训练可识别每个句子中的“焦点词”——在语音中特别适合强调的词汇。

对话状态信息、重新措辞模块提出的措辞以及焦点词模型的输出全部传递至另一个神经网络——发音器，由其生成输出语音。

焦点词信息与槽信息共同指示发音器应强调输入句子中的哪些词汇。对话管理器提供的置信度分数决定了语音风格，在低兴奋度到高兴奋度的频谱上进行调整。

目前仍在探索利用其他上下文信息进一步定制语音响应的方法。