扭曲语言模型修正语音识别错误

语言相关的机器学习应用近年来取得了巨大进展，部分归功于BERT等掩码语言模型：在训练过程中，模型接收某些单词被掩码或随机替换的句子，学习输出完整且修正后的句子。掩码语言模型的成功催生了扭曲语言模型的开发，后者在可能的修改操作中增加了插入和删除选项。扭曲语言模型专门针对自动语音识别(ASR)中常见的错误类型设计，可作为ASR模型的基础。

在某机构今年Interspeech会议上发表的论文中，描述了如何将扭曲语言模型用于修正ASR输出或用于训练ASR模型的人工语音转录。这一新用途需要对扭曲语言模型的设计进行修改，使其不仅能输出文本字符串，还能对输入字符串中的错误进行分类。根据这些信息，即使在输出文本与输入文本单词数不同的情况下，也能生成修正后的文本。

由于ASR模型输出的不是输入语音的单一转录，而是假设的排名列表，因此还尝试使用多个假设作为错误修正模型的输入。对于人工转录，通过将转录语音输入ASR生成假设。研究发现，多假设方法在修正人工转录错误方面具有特殊优势，能将词错误率降低约11%。对于ASR输出，相同模型能将词错误率降低近6%。

扭曲语言模型传统扭曲语言模型的架构中，每个输出标记对应一个输入标记。扭曲语言模型为每个输入单词输出一个标记（单词或特殊符号，如检测到虚假插入时的空白）。然而，这意味着它不能完全修正单词删除：必须在当前位置输出删除的单词或输入单词之间做出选择。

改进基本扭曲语言模型架构，使其对每个输入标记预测输出标记和扭曲操作。模型仍为每个输入标记输出单个标记，但从标记和扭曲操作的组合中，简单修正算法可以推断原始输入。例如，模型处理输入句子"I saying that table I [mask] apples place oranges"时，中间行指示模型的输出：首先是操作名称，其次是输出标记。当模型将输入"saying"替换为输出"was"并将操作标记为"drop"时，修正算法推断句子应以"I was saying"开头，而非"I saying"。

掩码（和扭曲）语言模型的巨大优势在于它们是无人监督的：掩码（和扭曲）操作可自动执行，实现几乎无限量的训练数据。该模型同样无人监督：只需修改扭曲算法，使其在应用操作时，也用操作名称标记输出。

多假设在英语文本语料库上训练模型后，在另一组口语表达的ASR模型输出上对其进行微调。对每个表达，保留前五个ASR假设。算法自动对齐假设的标记并标准化其长度，必要时添加空白标记。将假设二至五视为最高假设的扭曲版本，自动计算将最高假设转换为替代假设所需的最小扭曲操作数，并适当标记假设标记。

对于每个输入，模型组合所有五个假设生成单个向量表示（嵌入），模型的解码器使用该表示生成输出字符串。训练期间，模型为每个假设输出一组单独的预测。这确保操作预测器和标记预测器的微调，因为即使标记字符串相同，每个假设的操作分类也会不同。但在运行时，仅保留与排名最高的ASR假设对应的输出。

未在ASR假设上微调时，模型将ASR模型输出的词错误率降低5%。但略微增加了语音人工转录的词错误率。这可能是因为即使存在错误，人工转录的语音在句法和语义上仍然连贯，因此难以识别错误。然而，添加替代ASR假设使修正模型能够利用语音信号中的额外信息，显著降低词错误率。