语音交互的起点
每次与语音助手的交互都始于唤醒词识别。设备仅在确认唤醒词后才会将用户请求发送至云端处理。某中心科学团队持续创新唤醒词识别技术,在Interspeech 2020会议上展示了五项新技术成果。
关键技术突破
-
元数据感知系统
研究团队发现设备播放声音时(如音乐或警报),输入信号的对数滤波器组能量(LFBEs)会发生显著变化。解决方案是将设备类型、状态等元数据嵌入多维空间作为模型输入:- 作为网络末层的附加输入,与音频特征向量融合
- 动态调节卷积层输出的归一化参数
实验表明该方法使错误拒绝率平均降低14.6%。
-
卷积循环注意力模型(CRA)
云端验证模型面临音频片段对齐噪声问题。研究团队创新性地:- 在卷积层后加入循环层处理时序特征
- 采用注意力层重新加权关键特征
在噪声数据上,CRA模型将错误接受率较基线降低60%,优于传统CNN模型的31-44%改进。
技术实现细节
- 卷积网络应用:音频信号可表示为频率-时间的二维映射,CNN通过多通道滤波器组逐层提取特征
- 动态归一化:根据设备状态元数据动态调整归一化参数,提升模型泛化能力
- 抗噪架构:195帧全窗口输入的CRA模型在精准对齐数据上错误接受率降低55%