设备端语音处理技术解析：提速降耗新突破

系统架构

设备端自动语音识别（ASR）模型接收语音信号后，输出按概率排序的语音识别假设集合。这些假设以网格（lattice）形式呈现，其中边线代表识别出的词汇及其接续概率。

与传统云端ASR将加密音频流分帧传输至云端不同，设备端ASR仅将网格传输至云端，由大型神经网络语言模型重新排序假设。网格需在用户结束说话后才能传输，因为后续词汇可能显著改变假设的整体概率。

端点检测器（end-pointer）负责判定用户说话结束时机，需要在准确性与延迟之间取得平衡。设备端采用双端点检测机制：

设备端ASR需具备上下文感知能力，在计算概率网格时优先加权用户通讯录或智能设备名称等个性化内容。采用基于多头注意力的上下文偏置机制，与ASR子网络联合训练，避免个性化内容在假设剪枝过程中被剔除。

采用循环神经网络传感器（RNN-T）架构，直接将输入语音映射为单词序列。通过师生训练（teacher-student training）方法，使用百万小时未标注语音数据训练轻量化模型匹配大型模型输出。

开发神经网络学习技术，利用流内音频上下文提升识别精度。例如通过关键词段（“Alexa”）的音频上下文帮助模型聚焦 foreground 语音和说话人。

权重量化：将权重值域划分为小区间，使用单一值代表区间内所有权重。采用量化感知训练方法，在训练过程中对权重施加概率分布，使量化后性能损失最小。

稀疏化：在训练过程中逐步将低权重归零，减少计算负担。通过多轮训练周期，使固定比例的权重最终归零并可安全剔除。

分支编码器网络：采用复杂和简单双神经网络架构，动态决定输入帧的处理路径以节省计算成本。

神经边缘处理器针对压缩方案专门优化：

持续研发多语言设备端ASR模型，支持动态语言切换功能。同时推进模型更新带宽优化和NLU模型压缩技术，确保在间歇性网络连接设备上的基础功能实现。