音乐背景如何推动多语言语音合成研究
Ariadna Sanchez从小沉浸在音乐表演和管弦乐的世界中,5岁开始学习小提琴,并立志终身从事音乐事业。如今,她是某中心的文本转语音研究科学家——早期的音乐兴趣影响了她的职业道路。
Sanchez从事多语言文本转语音研究,专注于研究能够以本地口音说任何语言的语音模型。她表示,文本转语音是一个混合学科——不仅仅是工程或纯技术——她的音乐背景使她能够以独特的方式寻找新颖解决方案或看待问题。
音乐与技术的结合
在西班牙巴塞罗那接受密集音乐教育的Sanchez,15岁时就开始考虑大学问题,她希望找到一个与音乐相关的学位课程。她在巴塞罗那加泰罗尼亚理工大学的电信工程系找到了这样一个项目,其中一个分支是语音、音乐和视频处理。她也对该项目的人工智能和机器学习课程很感兴趣。
当时,她专注于音乐及其如何应用于机器学习。她的一位教授正在研究创建可以通过不同方式调节以听起来更人性化的语音,结合了语言和技术元素。
“这让我意识到‘哦,我实际上真的很喜欢文本转语音这个方面,’”她说。在一家声学咨询公司的实习也帮助她意识到,她希望从事能够寻找突破和“发现新事物”的工作。
在她的毕业论文中,她结合这些兴趣开发了一款基于音频的游戏。特别被编写良好、基于故事的游戏所吸引的Sanchez表示,她玩各种类型的视频游戏,这是她的爱好和热情所在。
“我试图理解不同环境的声学如何影响玩家的感知,以及玩家如何通过纯音频游戏享受和导航,”她说。
走向文本转语音研究之路
在Telefónica的实习帮助确定了她旅程的下一步,她的工作涉及专注于基于文本的自然语言处理的机器学习。在完成本科学位后,她在苏格兰爱丁堡大学攻读语音和语言处理硕士学位。
在那里,她学习了自然语言理解、人机交互、文本转语音和自动语音识别。
“我发现文本转语音总体上更吸引人,”她说。“语音不仅关乎你说什么,还关乎你如何说,说话人的声音如何,等等。”
Sanchez主动学习了包括英语、苏格兰盖尔语和日语在内的语言细微差别。她将对这个主题的迷恋与她长期以来对各种音乐的兴趣联系起来,从朋克到古典,再到主流流行和融合风格。她的文本转语音研究也激发了她对学习语言及其相互差异的兴趣。
“我一直非常喜欢带有歌词的旋律音乐,这使我对语言的细微差别、歌词的构成方式和语言的语义学产生了兴趣,”她说。“这也让我真正投入学习语言,以便能够理解我听的音乐。”
当某中心的招聘人员在Sanchez完成学位时访问爱丁堡大学时,他们正在寻找一位流利西班牙语的语言工程师,并聘她为语言工程师实习生。
那次实习带来了在某中心的全职工作。
“我的背景主要在工程方面,所以在实习期间,我不仅在语言学方面建立了更多技能,还学到了很多关于团队如何合作的知识,以及优先级排序对项目成功的重要性。”
多种口音,一个声音
现在,在她担任研究科学家近四年后,Sanchez专注于提供更统一的语音体验。过去,回声设备上的新语言和口音有不同的声音,例如美式西班牙语和欧式西班牙语,听起来像是两个不同的人。Sanchez研究的目标是设计模型,能够以正确的本地口音发音各种语言的单词,但使用相同的声音,以保持连续性。
“如果你像我一样有一个多语言家庭,有不同的声音说不同的语言有点奇怪,”她指出。“但如果同一个人对你说所有这些不同的语言,听起来就不那么刺耳。”她和她的团队已经证明了这一点,英式英语和美式英语的男性声音现在使用相同的声音。
Sanchez表示,她的工作也受到她阅读技术伦理的影响,特别是作者Cathy O’Neil和Caroline Criado Perez的作品。
“提供更多语音选项很重要,”她说。“拥有更广泛的声音范围带来了更多多样性,并为不同社区带来了更多验证。”为此,她的团队致力于开发代表更广泛声音和说话风格的多语言语音。
今年9月,Sanchez在Interspeech 2022上发表了“统一与征服:音素特征表示如何影响多语言文本转语音”。这篇论文探讨了在多语言模型中表示语言特征的两种主要方法。
在论文中,Sanchez和她的合著者指出:“本文的主要贡献在于实验和评估,旨在理解输入语言特征的统一表示和分离表示如何影响多语言语音合成的自然度和口音质量。据我们所知,这是第一项对此主题进行系统研究和评估的工作。”
“当我们研究多说话人多语言模型的设计选择时,我们没有找到任何彻底比较不同类型语言特征的文献,”她说。“我们决定探索并撰写关于表示输入语言特征的两种非常不同的方法——基于音素知识统一它们,或分离代表不同语言/口音音素的所有标记。通过这一点,我们发现使用统一表示导致更自然和稳定的语音,同时具有更清晰的口音。”
虽然这是重要的一步,但Sanchez强调还有更多步骤需要采取:“要推动该领域向前发展,我们需要改进对语音参数的控制,如音高、语调、音调和音色,单独控制。”
她和她的团队继续努力实现更自然的语音,更接近人们实际说话的方式。
“我们正处于文本转语音的一个非常激动人心的时刻,我们正在摆脱听起来 robotic 的旧文本转语音系统,转向更平易近人和友好的声音,”她说。“最终,这是一个重要因素,使我们的客户每天都能与Alexa进行更有吸引力的对话。”