动态前瞻提升语音识别准确率

动态前瞻如何提升语音识别性能

自动语音识别（ASR）模型分为因果模型和非因果模型两类。因果模型实时处理语音输入，仅使用当前帧之前的音频信息；非因果模型则等待整个语句结束后，利用前后帧上下文进行解析。因果模型延迟较低，但非因果模型因拥有更多上下文信息而准确率更高。

多数ASR模型采用折衷的前瞻策略：在处理当前帧前预先获取若干后续帧。但固定前瞻长度可能导致冗余计算或关键信息缺失。在ICML会议上提出的新型ASR模型，能够根据输入内容动态确定每帧所需的前瞻量。

模型通过计算图表示运算过程：横向维度代表时间步进，纵向维度表示网络层级。灰色箭头显示不同时间步节点间的因果联系，蓝色箭头表示未来时间步节点与当前输出节点的依赖关系。

每个网络层通过邻接矩阵映射节点依赖关系。纯因果模型的矩阵仅包含左下三角非零值，非因果模型则为全矩阵，标准前瞻模型则具有固定偏移的对角线。该研究通过训练实时生成邻接矩阵的调度器，为不同矩阵行分配差异化的前瞻度，这些矩阵被称为"掩码"。

训练过程中采用可微分的退火策略：初始允许矩阵存在分数值，通过逐轮训练迫使数值向0或1收敛。推断阶段通过舍入获得二值化矩阵。

模型通过算法延迟指标平衡准确率与延迟：定义算法延迟为当前输出节点与最高权重依赖路径末端的时间步差。同时探索计算延迟概念，通过未完成计算量衡量用户感知延迟。通过调节损失函数中延迟惩罚项的权重，可实现准确率与延迟的权衡。

与四种基线模型（无前瞻模型、分层固定前瞻模型、分块前瞻模型、标准延迟惩罚动态模型）的对比显示：采用Conformer和Transformer架构的动态前瞻模型，在二帧、五帧、十帧等固定前瞻设置下，均实现更低错误率和更低延迟。

灰色箭头表示时间步因果关联，蓝色箭头显示未来节点与当前输出的依赖关系

算法延迟计算示例：节点v3i依赖v0i+2输入值，延迟为两帧

不同延迟惩罚系数训练得到的掩码对比（左：低惩罚系数，右：高惩罚系数）