可扩展框架实现多文本转语音模型共存

语音代理（如Alexa）通常配备多种语音合成器，这些合成器在表现力、个性、语言和说话风格等方面各不相同。支撑这些应用的机器学习模型可能具有完全不同的架构，将这些架构集成到单一语音服务中是一个耗时且具有挑战性的过程。

为简化这一流程，某中心的文本转语音团队开发了通用模型集成框架，能够快速且可扩展地定制生产级语音模型。

最先进的语音模型通常使用两个大型神经网络从文本输入合成语音：

虽然已发布支持多种说话风格的通用声码器架构，但仍需不同声学模型架构来实现语音多样性。

主流声学模型架构依赖注意力机制，该机制学习输入文本中哪些元素与当前输出频谱图的"帧"最相关。这种架构虽能生成自然语音，但容易出现模糊、吞词或重复等错误。

更新颖的架构通过显式建模文本块时长并并行生成语音帧来解决这些问题。这种"上采样"方式根据外部时长模型重复文本编码向量，比依赖前序帧输入更高效稳定。

将声学模型投入生产需要组件处理文本输入并返回梅尔频谱图。主要挑战包括：

集成层将模型封装为两类组件：

通过这两类抽象可灵活构建声学模型变体。典型架构包含：

整个模型封装在StreamablePipeline中，包含一个SequenceBlock和一个StreamableBlock。

声学模型以"插件"形式提供，包含：

JSON格式的配置支持快速修改，例如：

该框架已成功用于生产环境，支持集成最新无注意力TTS架构与传统模型。