音乐背景如何推动多语言TTS技术研究

音乐与技术的交融

Ariadna Sanchez自幼学习小提琴并接受音乐教育，如今已成为某中心的多语言文本转语音（TTS）研究科学家。她发现音乐背景帮助她以独特视角解决技术问题，特别是在研究能以原生口音说任何语言的语音模型方面。

在巴塞罗那理工大学电信工程系就读期间，Sanchez接触到语音、音乐和视频处理专业方向，并对人工智能和机器学习产生浓厚兴趣。一位教授关于"调制语音使其更人性化"的研究项目，让她意识到自己对TTS领域的热情。

Sanchez目前专注于提供统一的语音体验。传统多语言TTS系统中，不同语言和口音使用不同声音，而她的研究目标是让同一个声音能以正确本地口音发音多种语言。团队已成功实现英式英语和美式英语使用相同男声音色。

在Interspeech 2022会议上发表的论文《统一与征服：音素特征表征如何影响多语言文本转语音》中，团队系统比较了两种语言学特征表征方法：

研究发现统一表征能产生更自然、稳定的语音，同时保持更纯净的口音。这是首个对该主题进行系统研究和评估的工作。

虽然取得了重要进展，但仍需在语音参数控制方面进一步改进，包括音高、语调、音色等独立参数的精确控制。团队继续致力于开发更接近真人说话方式的自然语音合成技术。

“我们正处于TTS技术的激动时刻，正在从机械音转向更亲切友好的语音，这让用户能与语音助手进行更投入的日常对话。”