Alexa新英语学习体验中的发音检测技术

在2023年1月，某中心在西班牙推出了一项语言学习体验，帮助西班牙语使用者学习初级英语。该体验与西班牙领先的英语学习提供商Vaughan合作开发，旨在提供沉浸式英语学习项目，特别注重发音评估功能。目前该服务正在向墨西哥和美国西班牙语人群扩展，未来将增加更多语言支持。

发音评估核心技术

采用创新的音素循环神经网络转换器（RNN-T）模型，能够从学习者的发音中预测音素（语音的最小单位）。该模型通过Levenshtein对齐算法比较预测音素序列与参考序列，实现单词、音节或音素级别的细粒度发音评估。

为解决不同语言相似音素的歧义问题（如西班牙语卷舌音"r"与英语"r"音），设计了多语言发音词典，并构建了大规模代码混合语音数据集用于模型训练。

针对非母语使用者语音数据有限的问题，提出基于音素释义的数据增强方法：

系统设计采用双重策略：

该发音模型在音素预测准确率和误读检测准确率方面均达到业界领先水平。实验数据显示，使用增强数据训练的模型比基线模型在误读检测准确率上提升高达5%。

未来研究方向包括构建支持多语言的发音评估模型，以及扩展模型对音调和词汇重音等发音特征的诊断能力。

相关技术论文已在ICASSP 2023会议发表