阿拉伯语Alexa的技术实现解析

本文深入解析阿拉伯语版Alexa开发过程中的技术挑战与解决方案,涵盖自动语音识别(ASR)的方言处理、自然语言理解(NLU)的三语言模型设计,以及文本转语音(TTS)的注音系统实现,展现了多模态AI系统的复杂架构。

阿拉伯语Alexa的技术实现解析

阿拉伯语版Alexa于2021年12月在沙特阿拉伯和阿联酋推出。与所有新语言版本一样,该版本面临独特的技术挑战。首要问题是确定Alexa应使用何种阿拉伯语形式。虽然沙特和阿联酋的官方书面语言是现代标准阿拉伯语(MSA),但日常生活中使用者普遍采用方言形式的阿拉伯语,且存在多种地方变体。

对用户而言,使用方言与Alexa交互比使用MSA更自然。因此Alexa AI团队(包括计算语言学家)决定让阿拉伯语版Alexa能够理解MSA和Khaleeji(海湾)方言的请求。Alexa的语音输出也将同时支持MSA和Khaleeji方言——MSA用于正式语音(如信息查询响应),Khaleeji用于非正式场景(如闹钟确认和音乐选择)。这意味着用户使用一种阿拉伯方言提出请求时,可能会获得另一种方言的响应,但这正符合该地区阿拉伯语使用者的日常交流模式。

核心技术组件

新Alexa模型的核心组件包括:

  • 自动语音识别(ASR):将语音转换为文本
  • 自然语言理解(NLU):解析文本以执行操作
  • 文本转语音(TTS):将NLU输出转换为合成语音

所有组件都面临一个关键问题:如何以文本形式呈现语音(既作为ASR输出,也作为TTS输入)。书面阿拉伯语会省略短元音:类似于将英文单词"begin"拼写为"bgn"。人们通常能通过上下文推断缺失的元音,但在正式和教育文本(如儿童识字读物)中,元音和某些辅音通过变音符号表示。

方言间的主要差异之一就是元音发音,因此省略变音符号可以创建适用于所有方言的语音表示,这对ASR和NLU非常有用。此外,除MSA外其他阿拉伯语形式没有公开的书写标准。最终团队决定ASR输出仅使用shaddah和maddah两种变音符号,因为它们有助于提高从ASR经NLU传递到TTS的实体名称发音准确性。

ASR系统的创新实现

ASR团队的目标之一是在缺乏方言阿拉伯语和外来词标准化正字法的情况下提供一致输出。他们决定使用拉丁文字表示外来词(如法国或美国音乐人姓名及专辑名称)。

为此他们采用目录摄取标准化器,接收法语和英语术语目录,并将ASR模型对应的阿拉伯文字输出转换为拉丁文字。团队从英语声学模型开始训练,使用目标Khaleeji方言的阿拉伯语音公共数据集和Cleo技能数据(允许多语言用户通过开放式语音提示帮助训练新语言模型)。Cleo数据包含其他阿拉伯方言的标注语句,使ASR模型能为更广泛用户提供一致体验。

NLU模型的三语言架构

NLU模型接收ASR转录的语句,并按意图(如播放音乐)进行分类,同时识别语句中的所有槽位(如歌曲名或艺术家名)及其槽值(如特定艺术家"Ahlam")。

NLU模型首先需要对输入进行分词,将其拆分为应单独处理的语义单元。在阿拉伯语中,词缀(前缀和后缀)用于传达上下文含义。某些词缀(如冠词和介词)与NLU无关,可以保留在词干上,但所有格等词缀需要独立的槽标签。

分词后的输入传递到三语言NLU模型(可处理阿拉伯语、法语或英语输入),这不仅帮助模型处理阿拉伯语中的外来词,还实现了从法语和英语的知识迁移(当前这两种语言的训练数据比阿拉伯语更丰富)。

研究团队对现有阿拉伯语训练数据进行重采样以扩展训练样本多样性,例如使用歌曲目录中的其他名称替换现有语句中的艺术家或歌曲名称。关键考量是确定训练数据中应包含多少具有相同基本结构的重采样语句。团队通过构建语句复杂度度量(综合考虑语句模板中的槽位数和每个槽位的可能值数)来计算每个语句模板的最佳示例数量。

模型训练过程从基于BERT的语言模型开始,该模型使用未标注数据和标准语言建模目标对三种语言进行预训练。随后研究人员通过在大量标注法语和英语数据上微调模型来训练其执行NLU任务,最后再次在所有三种语言的等量标注训练数据上进行微调,以确保阿拉伯语的微调不会降低模型在其他两种语言上的性能。

TTS系统的注音技术

虽然变音符号可能妨碍NLU处理,但对TTS却不可或缺:语音合成器需要准确知道应生成哪些元音。当阿拉伯语TTS模型从Alexa功能(如音乐播放器的音乐选择确认)获取文本字符串时,会通过注音器运行该文本,注音器会将完整的变音符号重新添加回去。

TTS研究人员主要在MSA文本上训练注音器,并辅以团队自行编译的Khaleeji方言补充数据。推断正确的变音符号取决于完整的语句上下文:注音器模型具有关注整个语句的注意力机制。

需要以Khaleeji阿拉伯语输出的内容随后通过模块转换,将变音符号转换为适当短元音的表征,并进行任何其他必要的转换。这是一个基于规则的系统,用于捕获MSA和Khaleeji阿拉伯语之间的可预测关系。

文本转语音模型本身是一个神经网络,以文本为输入并输出声学波形。它利用某中心TTS团队在表达性语音方面的最新研究成果,默认赋予阿拉伯语TTS模型生动的会话风格。

新的Alexa语言从来不仅仅是新语言:它是针对特定新地区的新语言,因为客户需求

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计