音乐背景如何革新多语言语音合成技术

音乐与技术的交汇

Ariadna Sanchez自幼沉浸于音乐表演与管弦乐世界，5岁开始学习小提琴并立志以音乐为生。如今她已成为某机构的文本转语音（TTS）研究科学家——早期的音乐兴趣深刻影响了她的职业道路。

Sanchez专注于多语言TTS研究，致力于开发能够以母语口音说任何语言的语音模型。她认为TTS是跨学科领域（不仅是工程或纯技术），其音乐背景使她能够以独特方式寻找新颖解决方案或审视问题。

在西班牙巴塞罗那接受密集音乐教育的Sanchez，15岁时就开始考虑大学专业，希望找到与音乐相关的学位项目。最终她选择了巴塞罗那加泰罗尼亚理工大学电信工程系，该系下设语音、音乐和视频处理分支。该专业的人工智能和机器学习课程也深深吸引了她。

当时她专注于音乐及其在机器学习中的应用。一位教授正在研究如何通过不同方式调制语音使其更接近人声，结合语言与技术元素。“这让我意识到‘我确实非常喜欢TTS这个方向’"，她表示。在声学咨询公司的实习经历也让她明确，自己希望从事能够寻求突破和"发现新事物"的工作。

在毕业论文中，她结合这些兴趣开发了一款基于音频的游戏。特别被剧情优秀的游戏所吸引的Sanchez表示，玩各类电子游戏既是她的爱好也是热情所在。“我试图理解不同环境的声学如何影响玩家的感知，以及玩家如何通过纯音频游戏获得乐趣并进行导航。”

在Telefónica的实习经历决定了她的下一步发展方向，该工作涉及基于文本的自然语言处理的机器学习。完成本科学位后，她在苏格兰爱丁堡大学攻读语音与语言处理硕士学位。

在那里她学习了自然语言理解、人机交互、文本转语音和自动语音识别。“我发现TTS整体上更吸引人，“她说，“语音不仅关乎内容，还关乎表达方式、说话人的声音特质等。”

Sanchez主动学习了英语、苏格兰盖尔语和日语等语言的细微差别。她将对此主题的迷恋与长期对各种音乐（从朋克到古典，主流流行到融合风格）的兴趣联系起来。TTS研究也激发了她学习语言及了解语言间差异的兴趣。

“我一直非常喜欢带有歌词的旋律音乐，这使我对语言的细微差别、歌词创作方式和语言语义产生好奇，“她说，“这也让我投入学习语言，以便理解所听的音乐。”

当某机构招聘人员在Sanchez完成学位期间访问爱丁堡大学时，他们正在寻找精通西班牙语的语言工程师，并聘她为语言工程实习生。该实习最终转化为某机构的正式职位。

“我的背景主要在工程方面，因此在实习期间不仅提升了语言学技能，还学到了团队协作方式以及优先级排序对项目成功的重要性。”

如今，担任研究科学家近四年的Sanchez专注于提供更统一的语音体验。过去，Echo设备上的新语言和口音具有不同的声音，例如美式西班牙语和欧式西班牙语听起来像两个不同的人。Sanchez的研究目标是设计模型，以相同声音用正确当地口音发音各种语言的单词，确保连续性。

“如果你像我一样生活在多语言家庭，听到不同声音说不同语言会有些奇怪，“她指出，“但如果同一个人用所有这些不同语言与你交流，听起来就不会那么突兀。“她和团队已证明这种方法可行，英式英语和美式英语的男性声音现在使用同一语音。

Sanchez表示，她的工作也受到科技伦理读物影响，特别是Cathy O’Neil和Caroline Criado Perez的著作。“提供更多语音选项很重要，“她说，“拥有更广泛的声音范围能为不同社区带来更多多样性和认可。“为此，她的团队致力于开发代表更广泛声音和说话风格的多语言语音。

今年9月，Sanchez在Interspeech 2022上发表了《统一与征服：音素特征表示如何影响多语言文本转语音（TTS）》。该论文（三篇被Interspeech接收的论文之一）探讨了在多语言模型中表示语言特征的两种主要方法。

论文中指出：“本文的主要贡献在于实验和评估，旨在理解统一表示和分离表示输入语言特征如何影响多语言语音合成的自然度和口音质量。据我们所知，这是首次就该主题进行系统研究和评估的工作。”

“在研究多说话人多语言模型的设计选择时，我们没有找到任何全面比较不同类型语言特征的文献，“她说，“我们决定探索并撰写两种非常不同的输入语言特征表示方法——基于音素知识统一它们，或分离代表不同语言/口音音素的所有标记。通过此，我们发现使用统一表示能产生更自然稳定的语音，同时具有更纯净的口音。”

虽然这是重要一步，但Sanchez强调还需采取更多措施：“为了推动该领域发展，我们需要改进对语音参数（如音高、语调、声调和音色）的独立控制。“她和团队继续努力实现更接近真人说话方式的自然语音。

“我们正处于文本转语音非常令人兴奋的阶段，正在摆脱听起来机械的旧TTS系统，转向更亲切友好的声音，“她说，“最终，这是让我们的客户每天都能与Alexa进行更吸引人对话的重要因素。”