语言相关的机器学习应用近年来取得了巨大进展,部分归功于BERT等掩码语言模型:在训练过程中,模型接收某些单词被掩码或随机替换的句子,学习输出完整且修正后的句子。掩码语言模型的成功催生了扭曲语言模型的开发,后者在可能的修改操作中增加了插入和删除选项。扭曲语言模型专门针对自动语音识别(ASR)中常见的错误类型设计,可作为ASR模型的基础。
在某机构今年Interspeech会议上发表的论文中,描述了如何将扭曲语言模型用于修正ASR输出或用于训练ASR模型的人工语音转录。这一新用途需要对扭曲语言模型的设计进行修改,使其不仅能输出文本字符串,还能对输入字符串中的错误进行分类。根据这些信息,即使在输出文本与输入文本单词数不同的情况下,也能生成修正后的文本。
由于ASR模型输出的不是输入语音的单一转录,而是假设的排名列表,因此还尝试使用多个假设作为错误修正模型的输入。对于人工转录,通过将转录语音输入ASR生成假设。研究发现,多假设方法在修正人工转录错误方面具有特殊优势,能将词错误率降低约11%。对于ASR输出,相同模型能将词错误率降低近6%。
扭曲语言模型 传统扭曲语言模型的架构中,每个输出标记对应一个输入标记。扭曲语言模型为每个输入单词输出一个标记(单词或特殊符号,如检测到虚假插入时的空白)。然而,这意味着它不能完全修正单词删除:必须在当前位置输出删除的单词或输入单词之间做出选择。
改进基本扭曲语言模型架构,使其对每个输入标记预测输出标记和扭曲操作。模型仍为每个输入标记输出单个标记,但从标记和扭曲操作的组合中,简单修正算法可以推断原始输入。例如,模型处理输入句子"I saying that table I [mask] apples place oranges"时,中间行指示模型的输出:首先是操作名称,其次是输出标记。当模型将输入"saying"替换为输出"was"并将操作标记为"drop"时,修正算法推断句子应以"I was saying"开头,而非"I saying"。
掩码(和扭曲)语言模型的巨大优势在于它们是无人监督的:掩码(和扭曲)操作可自动执行,实现几乎无限量的训练数据。该模型同样无人监督:只需修改扭曲算法,使其在应用操作时,也用操作名称标记输出。
多假设 在英语文本语料库上训练模型后,在另一组口语表达的ASR模型输出上对其进行微调。对每个表达,保留前五个ASR假设。算法自动对齐假设的标记并标准化其长度,必要时添加空白标记。将假设二至五视为最高假设的扭曲版本,自动计算将最高假设转换为替代假设所需的最小扭曲操作数,并适当标记假设标记。
对于每个输入,模型组合所有五个假设生成单个向量表示(嵌入),模型的解码器使用该表示生成输出字符串。训练期间,模型为每个假设输出一组单独的预测。这确保操作预测器和标记预测器的微调,因为即使标记字符串相同,每个假设的操作分类也会不同。但在运行时,仅保留与排名最高的ASR假设对应的输出。
未在ASR假设上微调时,模型将ASR模型输出的词错误率降低5%。但略微增加了语音人工转录的词错误率。这可能是因为即使存在错误,人工转录的语音在句法和语义上仍然连贯,因此难以识别错误。然而,添加替代ASR假设使修正模型能够利用语音信号中的额外信息,显著降低词错误率。