设备端语音处理技术解析:提速降耗新突破

本文深入解析设备端语音处理技术如何通过创新训练方法、模型压缩技术和硬件软件协同设计,实现降低延迟、减少带宽消耗并提升响应速度的技术架构与实现原理。

系统架构

设备端自动语音识别(ASR)模型接收语音信号后,输出按概率排序的语音识别假设集合。这些假设以网格(lattice)形式呈现,其中边线代表识别出的词汇及其接续概率。

与传统云端ASR将加密音频流分帧传输至云端不同,设备端ASR仅将网格传输至云端,由大型神经网络语言模型重新排序假设。网格需在用户结束说话后才能传输,因为后续词汇可能显著改变假设的整体概率。

端点检测器(end-pointer)负责判定用户说话结束时机,需要在准确性与延迟之间取得平衡。设备端采用双端点检测机制:

  • 推测式端点检测器比最终端点检测器快200毫秒,可提前启动自然语言理解(NLU)等下游处理
  • 最终端点检测器决策更慢但更准确,当首次检测过早截断语音时可发送修正网格

上下文感知技术

设备端ASR需具备上下文感知能力,在计算概率网格时优先加权用户通讯录或智能设备名称等个性化内容。采用基于多头注意力的上下文偏置机制,与ASR子网络联合训练,避免个性化内容在假设剪枝过程中被剔除。

模型训练技术

端到端网络设计

采用循环神经网络传感器(RNN-T)架构,直接将输入语音映射为单词序列。通过师生训练(teacher-student training)方法,使用百万小时未标注语音数据训练轻量化模型匹配大型模型输出。

音频上下文利用

开发神经网络学习技术,利用流内音频上下文提升识别精度。例如通过关键词段(“Alexa”)的音频上下文帮助模型聚焦 foreground 语音和说话人。

模型压缩技术

权重量化:将权重值域划分为小区间,使用单一值代表区间内所有权重。采用量化感知训练方法,在训练过程中对权重施加概率分布,使量化后性能损失最小。

稀疏化:在训练过程中逐步将低权重归零,减少计算负担。通过多轮训练周期,使固定比例的权重最终归零并可安全剔除。

分支编码器网络:采用复杂和简单双神经网络架构,动态决定输入帧的处理路径以节省计算成本。

硬件软件协同设计

神经边缘处理器针对压缩方案专门优化:

  • 核心操作采用8位或更低比特表示
  • 内存中使用支持低比特量化和零值的压缩方案
  • 芯片内置电路识别零值并跳过相关计算

技术拓展

持续研发多语言设备端ASR模型,支持动态语言切换功能。同时推进模型更新带宽优化和NLU模型压缩技术,确保在间歇性网络连接设备上的基础功能实现。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计