对话模式实现免唤醒词多人交互技术

某中心Alexa团队于2021年11月18日推出的对话模式（Conversation Mode）代表了语音AI领域的重大突破。该功能让Echo Show 8和Echo Show 10用户无需重复唤醒词即可与Alexa进行更自然的交互。

通过视觉和听觉线索的结合，该功能的AI能够识别用户语音是否指向设备以及是否需要回复。用户可通过"Alexa，开启对话模式"激活功能，无交互时自动退出。

传统方法通过检测面部关键点并使用PnP几何技术估算朝向，但精度有限。新方法将每个头部表示为不同属性3D模板头部的线性组合，通过深度神经网络推断模板系数并确定头部朝向。经量化处理后，模型大小和执行时间减少，误拒率较PnP方法降低近80%。

采用可分离卷积神经网络（CNN）处理音频信号，通过分解滤波器矩阵减少计算负担。经架构优化和矩阵分解调优，2021年初始版本较纯视觉模型降低83%误拒率，环境噪声导致的误唤醒减少80%，设备响应触发的误唤醒降低42%。

该模式支持多用户同时交互，需解决如"来部喜剧怎么样？“这类模糊指向语句的识别问题，并要求低延迟以准确捕获语句起始点。

持续研究"指代打断"等功能，允许用户通过"就这个！“等表达打断选项列表，在提升用户体验的同时推动技术创新。