每台支持语音助手的设备交互都始于唤醒词:通常是“Alexa”,有时是“Amazon”、“Echo”或“Computer”——现在还包括“Hey Samuel”。设备仅在确认唤醒词后才会将请求发送至云端进行后续处理。
在某中心首代智能音箱发布六年后,其科学团队持续创新唤醒词识别方法。在本届Interspeech会议上,研究人员展示了五项新技术论文,其中《构建鲁棒的词级唤醒词验证网络》描述了在云端运行的模型,用于验证设备端唤醒词检测结果。
另一篇论文《元数据感知的端到端关键词检测》提出新系统:利用设备状态元数据(如设备类型、是否正在播放音乐或警报)提升设备端唤醒词检测精度。这两项研究均部分依赖卷积神经网络(CNN)。CNN最初为图像处理设计,通过重复应用相同“滤波器”处理输入数据小块。由于音频信号可表示为频率(y轴)随时间(x轴)变化的二维映射,CNN天然适用于此类数据。
当设备发出声音时,会导致输入信号的对数滤波器组能量(LFBE)发生显著偏移。为解决此问题,研究人员刘宏毅和阿比扬卡等人将设备元数据作为模型输入,通过两种方式使用元数据嵌入:
- 作为网络最后几层的附加输入,与扁平化的音频特征向量拼接后传递至全连接层进行判断;
- 在卷积层处理输入信号时调制其输出,根据元数据向量动态调整归一化参数。
实验表明,采用元数据训练的模型相比基准CNN模型平均降低14.6%的错误拒绝率。
设备端模型受限于内存容量,当检测到疑似唤醒词时,会向云端发送包含唤醒词前0.5秒音频的片段。由于设备端可能轻微错过唤醒词起始点,导致云端接收的音频对齐质量不一。
库马尔等人在研究中通过向网络添加循环层处理卷积层输出,捕获时间序列信息,并采用注意力层重新加权序列输出以强调唤醒词验证关键部分,最终形成卷积-循环-注意力(CRA)模型。在195帧输入测试中,CRA模型将错误接受率较基准降低55%,而对未对齐输入时降低率达60%,显著优于传统CNN架构。