摘要
藏语作为低资源语言,其三大方言(卫藏、安多、康巴)的并行语音数据稀缺,制约了语音建模进展。为此,提出FMSD-TTS框架,基于少量参考音频和显式方言标签合成并行方言语音。该方法包含以下创新:
- 说话人-方言融合模块:联合建模说话人身份与方言特征;
- 方言专用动态路由网络(DSDR-Net):捕捉跨方言的细粒度声学与语言差异。
实验表明,FMSD-TTS在方言表达力和说话人相似度上均显著优于基线。通过语音到语音的方言转换任务进一步验证合成质量。贡献包括:
- 首个面向藏语多方言的少样本TTS系统;
- 公开由FMSD-TTS生成的大规模藏语合成语音库;
- 开源评估工具包,支持说话人相似度、方言一致性与音质的标准化评测。
技术细节
核心架构:
- 多任务编码器:分离文本内容、方言和说话人特征;
- DSDR-Net:根据输入方言动态激活特定子网络,优化方言特性建模;
- 对抗训练:增强生成语音的自然度。
数据扩展:合成语料覆盖3种方言的200+说话人,总时长超500小时,缓解低资源瓶颈。