多方言少样本语音合成技术FMSD-TTS解析

本文提出FMSD-TTS框架,通过少样本学习实现藏语三大方言(卫藏、安多、康巴)的多说话人多方言语音合成,包含创新的说话人-方言融合模块和动态路由网络,显著提升方言表现力与说话人相似度。

摘要

藏语作为低资源语言,其三大方言(卫藏、安多、康巴)的并行语音数据稀缺,制约了语音建模进展。为此,提出FMSD-TTS框架,基于少量参考音频和显式方言标签合成并行方言语音。该方法包含以下创新:

  1. 说话人-方言融合模块:联合建模说话人身份与方言特征;
  2. 方言专用动态路由网络(DSDR-Net):捕捉跨方言的细粒度声学与语言差异。

实验表明,FMSD-TTS在方言表达力和说话人相似度上均显著优于基线。通过语音到语音的方言转换任务进一步验证合成质量。贡献包括:

  • 首个面向藏语多方言的少样本TTS系统;
  • 公开由FMSD-TTS生成的大规模藏语合成语音库;
  • 开源评估工具包,支持说话人相似度、方言一致性与音质的标准化评测。

技术细节

核心架构

  • 多任务编码器:分离文本内容、方言和说话人特征;
  • DSDR-Net:根据输入方言动态激活特定子网络,优化方言特性建模;
  • 对抗训练:增强生成语音的自然度。

数据扩展:合成语料覆盖3种方言的200+说话人,总时长超500小时,缓解低资源瓶颈。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计