语音唤醒技术的新研究进展

每次与语音助手交互都始于唤醒词：通常是"Alexa"，但也可以是"Amazon"、“Echo"或"Computer”——现在还包括"Hey Samuel"。只有在确认唤醒词后，搭载语音助手的设备才会将用户请求发送到云端进行进一步处理。

在首款智能音箱发布六年后，某中心语音助手科学团队持续创新唤醒词识别方法，提升响应速度和准确性。在今年Interspeech会议上，研究人员展示了五项关于唤醒词识别新技术的论文。

云端唤醒词验证模型

《构建鲁棒的词级唤醒词验证网络》描述了在云端运行的模型，用于确认设备端唤醒词检测结果。由于音频信号可以表示为频率（y轴）随时间（x轴）变化的二维映射，卷积神经网络自然适用于处理此类数据。

另一篇论文《元数据感知的端到端关键词检测》描述了一个新系统，它使用关于设备状态的元数据——如设备类型、是否正在播放音乐或发出警报——来提高设备端唤醒词检测器的准确性。

这两篇论文中报告的唤醒词检测器都至少部分依赖于卷积神经网络。卷积神经网络最初为图像处理开发，通过重复应用相同的"过滤器"来处理输入数据的小块。在音频处理中，CNN对表示频率随时间变化的二维映射同样有效。

应用科学家Hongyi Liu和Apurva Abhyankar及其同事将设备元数据作为唤醒词模型的输入。模型对元数据进行嵌入，即在多维空间中表示它，使得空间中的位置能够向模型传递有用信息。

模型以两种不同方式使用这些嵌入：

一是作为网络最后几层的额外输入，这些层负责判断声学输入信号是否包含唤醒词。卷积层的最终输出被展平成单个长向量，元数据嵌入向量被送入全连接层，其输出与展平的音频特征向量连接，这个融合后的向量传递到最终的全连接层，发出关于是否包含唤醒词的判断。

二是使用元数据嵌入来调节卷积层在处理输入信号时的输出。研究人员训练模型根据元数据向量改变归一化参数，这提高了网络对异构数据集的泛化能力。

实验显示，平均而言，使用元数据信息训练的模型相对于基线CNN模型在误拒率上实现了14.6%的改进。

设备端模型必须具有小的内存占用，这意味着它们牺牲了一些处理能力。如果设备端模型认为检测到唤醒词，它会向云端发送短音频片段，由更强大、更大型的模型进行确认。

应用科学家Rajath Kumar及其同事通过向网络添加循环层来处理卷积层的输出，解决了对齐噪声问题。循环层可以捕获时间序列信息，不是学习唤醒词在输入中的位置，而是学习当唤醒词存在时序列如何随时间变化。

研究人员还使用注意力层来处理和重新加权循环层的顺序输出，强调唤醒词验证所需的输出。该模型因此成为卷积-循环-注意力模型。

在精确对齐的输入上，CRA模型相对于195帧CNN模型仅提供轻微改进。与基线相比，CNN模型将误接受率降低了53%，而CRA降低了55%。在相同任务上，100帧CNN模型仅实现35%的降低。

在噪声对齐的输入上，CRA模型提供了更显著的改进。相对于基线，它将误接受率降低了60%，而195帧CNN模型仅管理31%，100帧模型为44%。

这些技术进步展示了语音唤醒技术在准确性和鲁棒性方面的持续改进，为更自然、更可靠的人机交互奠定了基础。