动态前瞻如何提升语音识别性能
自动语音识别(ASR)模型分为因果模型和非因果模型两类。因果模型实时处理语音输入,仅使用当前帧之前的音频信息;非因果模型则等待整个语句结束后,利用前后帧上下文进行解析。因果模型延迟较低,但非因果模型因拥有更多上下文信息而准确率更高。
多数ASR模型采用折衷的前瞻策略:在处理当前帧前预先获取若干后续帧。但固定前瞻长度可能导致冗余计算或关键信息缺失。在ICML会议上提出的新型ASR模型,能够根据输入内容动态确定每帧所需的前瞻量。
计算图与邻接矩阵
模型通过计算图表示运算过程:横向维度代表时间步进,纵向维度表示网络层级。灰色箭头显示不同时间步节点间的因果联系,蓝色箭头表示未来时间步节点与当前输出节点的依赖关系。
每个网络层通过邻接矩阵映射节点依赖关系。纯因果模型的矩阵仅包含左下三角非零值,非因果模型则为全矩阵,标准前瞻模型则具有固定偏移的对角线。该研究通过训练实时生成邻接矩阵的调度器,为不同矩阵行分配差异化的前瞻度,这些矩阵被称为"掩码"。
退火技术与延迟优化
训练过程中采用可微分的退火策略:初始允许矩阵存在分数值,通过逐轮训练迫使数值向0或1收敛。推断阶段通过舍入获得二值化矩阵。
模型通过算法延迟指标平衡准确率与延迟:定义算法延迟为当前输出节点与最高权重依赖路径末端的时间步差。同时探索计算延迟概念,通过未完成计算量衡量用户感知延迟。通过调节损失函数中延迟惩罚项的权重,可实现准确率与延迟的权衡。
性能对比
与四种基线模型(无前瞻模型、分层固定前瞻模型、分块前瞻模型、标准延迟惩罚动态模型)的对比显示:采用Conformer和Transformer架构的动态前瞻模型,在二帧、五帧、十帧等固定前瞻设置下,均实现更低错误率和更低延迟。
灰色箭头表示时间步因果关联,蓝色箭头显示未来节点与当前输出的依赖关系
算法延迟计算示例:节点v3i依赖v0i+2输入值,延迟为两帧
不同延迟惩罚系数训练得到的掩码对比(左:低惩罚系数,右:高惩罚系数)