语音助手阿拉伯语学习技术解析

阿拉伯语版语音助手于2021年12月在沙特阿拉伯和阿联酋推出。与所有新语言版本一样，阿拉伯语带来了独特的技术挑战。

首要问题是确定语音助手应使用何种阿拉伯语形式。虽然沙特和阿联酋的官方书面语言是现代标准阿拉伯语(MSA)，但日常生活中使用者普遍使用方言阿拉伯语，且存在多种地方变体。对用户而言，使用方言与语音助手交互比使用MSA更自然。因此，语音助手AI团队（包括计算语言学家）决定让阿拉伯语版本能同时理解MSA和海湾方言的请求。

语音助手的语音输出也将同时支持MSA和海湾方言——MSA用于正式对话（如信息查询响应），海湾方言用于非正式场景（如闹钟确认和音乐选择）。这意味着用户使用一种阿拉伯方言发出请求时，可能会获得另一种方言的响应，但这正符合该地区阿拉伯语使用者的交流习惯。

核心技术模块

新语音助手模型的核心组件包括：

自动语音识别(ASR)：将语音转换为文本
自然语言理解(NLU)：解析文本以执行操作
文本转语音(TTS)：将NLU输出转换为合成语音

三大组件共同面临的关键问题是如何以文本形式呈现语音内容。书面阿拉伯语会省略短元音：类似于将英语单词"begin"拼写为"bgn"。人们通常能通过上下文推断缺失元音，但在正式和教育文本（如儿童识字课本）中，元音和部分辅音通过注音符号表示。因此AI团队需要决定ASR输出是否应包含注音符号。

方言间的主要差异之一就是元音发音，省略注音符号有助于创建适用于所有方言的语音表示，这对ASR和NLU非常有用。此外，除MSA外其他阿拉伯语形式没有公开书写标准，要求标注人员添加注音符号可能引入更多歧义。最终团队决定ASR输出仅使用shaddah和maddah两种注音符号，因为它们能提高实体名称在ASR到NLU再到TTS流程中的发音准确性。

自动语音识别(ASR)技术实现

ASR团队的目标之一是在缺乏方言阿拉伯语和外来词标准拼写的情况下提供一致输出。他们决定使用拉丁字母表示外来词（如法国或美国音乐家名称）。

团队采用目录摄取规范化器，输入法语和英语术语目录，将ASR模型对应的阿拉伯文输出转换为拉丁字母。应用科学经理Volker Leutnant与语音团队成员（包括应用科学家Moe Hethnawi和Bashar Awwad Shiekh Hasan）从英语声学模型起步，该模型比随机初始化模型更能适应人语音频。他们使用目标海湾方言的阿拉伯语公开数据集和Cleo技能数据进行训练——该技能允许多语言用户通过开放式语音响应帮助训练新语言模型。Cleo数据包含其他阿拉伯方言的标注语句，使ASR模型能为更广泛用户提供一致体验。

自然语言理解(NLU)架构设计

NLU模型接收ASR转写的语句，按意图（如播放音乐）进行分类，同时识别语句中的所有槽位（如歌曲名或艺术家名）及其取值（如特定艺术家"Ahlam"）。

NLU模型首先需要对输入进行分词，将其拆分为应单独处理的语义单元。在许多语言中，分词在ASR过程中自然完成，但阿拉伯语使用词缀（前缀和后缀）传达语境含义。部分词缀（如冠词和介词）对NLU无关紧要，可保留在词干上，但所有格等词缀需要独立的槽位标签。语言工程师Yangsook Park团队设计的分词器会拆分这些重要词缀，其余部分保留在词干上。

分词后的输入传递至三语言NLU模型（支持阿拉伯语、法语和英语）。这不仅有助于处理阿拉伯语中的外来词，还能实现从法语和英语的知识迁移，目前这两种语言的训练数据比阿拉伯语更丰富。研究科学经理Karolina Owczarzak团队对现有阿拉伯语训练数据进行重采样以扩展样本多样性，例如使用歌曲目录中的其他名称替换现有语句中的艺术家或歌曲名称。

关键考量是训练数据中应包含多少具有相同基本结构的重采样语句。基于相同模板的过多示例（如"让我听<歌曲名> by <艺术家名>"）可能降低模型对其他语句类型的性能。NLU研究人员通过计算语句复杂度指标确定每个模板的最佳示例数量，该指标综合考虑模板中的槽位数量和每个槽位的可能取值数量。

模型训练从基于BERT的语言模型开始，使用未标注数据和标准语言建模目标对三种语言进行预训练（随机掩码句子单词，模型学习预测缺失词）。此阶段NLU团队通过某中心翻译服务将英语数据翻译后扩充阿拉伯语数据集。随后研究人员在大量标注法语和英语数据上微调模型以执行NLU任务，利用这两种语言的丰富数据教授模型NLU处理的一般原则，这些原则可迁移至标注数据较少的阿拉伯语微调模型。最后在三种语言的等量标注数据上再次微调，确保阿拉伯语微调不会影响模型在其他语言上的性能。

文本转语音(TTS)系统构建

虽然注音符号可能干扰NLU，但对TTS不可或缺：语音合成器需要精确知道应生成哪些元音。当阿拉伯语TTS模型从语音助手功能（如音乐播放器的选择确认）获取文本字符串时，会通过注音器重新添加完整注音符号集。

软件工程师Tarek Badr和应用科学家Fan Yang领导的TTS团队主要基于MSA文本训练注音器，辅以语音助手团队自行编译的海湾方言数据。推断正确注音需要完整语句上下文：注音器模型采用注意力机制处理整个语句。需要输出海湾阿拉伯语的内容随后通过模块将注音符号转换为适当短元音表示，并进行其他必要转换。这是语言工程师Merouane Benhassine团队构建的基于规则的系统，用于捕捉MSA与海湾阿拉伯语间的可预测关系。

文本转语音模型本身是神经网络，以文本为输入，输出声学波形。它利用某中心TTS团队在情感语音方面的最新成果，默认赋予阿拉伯语TTS模型生动的对话风格。

新的语音助手语言从来不仅是新语言：它是针对特定新地区的新语言，因为用户需求和语言习惯因国家而异。未来，语音助手AI团队将继续努力将阿拉伯语扩展到更多地区，同时将语音助手扩展到全新的语系。