多方言少样本语音合成技术FMSD-TTS解析

多方言少样本语音合成技术FMSD-TTS解析

本文提出FMSD-TTS框架，通过少样本学习实现藏语三大方言（卫藏、安多、康巴）的多说话人多方言语音合成，包含创新的说话人-方言融合模块和动态路由网络，显著提升方言表现力与说话人相似度。

摘要

藏语作为低资源语言，其三大方言（卫藏、安多、康巴）的并行语音数据稀缺，制约了语音建模进展。为此，提出FMSD-TTS框架，基于少量参考音频和显式方言标签合成并行方言语音。该方法包含以下创新：

说话人-方言融合模块：联合建模说话人身份与方言特征；
方言专用动态路由网络（DSDR-Net）：捕捉跨方言的细粒度声学与语言差异。

实验表明，FMSD-TTS在方言表达力和说话人相似度上均显著优于基线。通过语音到语音的方言转换任务进一步验证合成质量。贡献包括：

首个面向藏语多方言的少样本TTS系统；
公开由FMSD-TTS生成的大规模藏语合成语音库；
开源评估工具包，支持说话人相似度、方言一致性与音质的标准化评测。

技术细节

核心架构：

多任务编码器：分离文本内容、方言和说话人特征；
DSDR-Net：根据输入方言动态激活特定子网络，优化方言特性建模；
对抗训练：增强生成语音的自然度。

数据扩展：合成语料覆盖3种方言的200+说话人，总时长超500小时，缓解低资源瓶颈。

comments powered by Disqus