音乐与技术的交融
Ariadna Sanchez自幼学习小提琴并接受音乐教育,如今已成为某中心的多语言文本转语音(TTS)研究科学家。她发现音乐背景帮助她以独特视角解决技术问题,特别是在研究能以原生口音说任何语言的语音模型方面。
从音乐到语音技术的转变
在巴塞罗那理工大学电信工程系就读期间,Sanchez接触到语音、音乐和视频处理专业方向,并对人工智能和机器学习产生浓厚兴趣。一位教授关于"调制语音使其更人性化"的研究项目,让她意识到自己对TTS领域的热情。
多语言语音合成的突破
Sanchez目前专注于提供统一的语音体验。传统多语言TTS系统中,不同语言和口音使用不同声音,而她的研究目标是让同一个声音能以正确本地口音发音多种语言。团队已成功实现英式英语和美式英语使用相同男声音色。
技术实现与评估
在Interspeech 2022会议上发表的论文《统一与征服:音素特征表征如何影响多语言文本转语音》中,团队系统比较了两种语言学特征表征方法:
- 基于语音学知识的统一表征
- 不同语言/口音音素的分离表征
研究发现统一表征能产生更自然、稳定的语音,同时保持更纯净的口音。这是首个对该主题进行系统研究和评估的工作。
未来发展方向
虽然取得了重要进展,但仍需在语音参数控制方面进一步改进,包括音高、语调、音色等独立参数的精确控制。团队继续致力于开发更接近真人说话方式的自然语音合成技术。
“我们正处于TTS技术的激动时刻,正在从机械音转向更亲切友好的语音,这让用户能与语音助手进行更投入的日常对话。”