语音助手自然轮转功能:多模态交互技术
自然轮转功能利用多种线索——声学、语言和视觉——帮助语音助手更自然地进行交互,无需重复唤醒词。
多模态融合技术
自然轮转功能基于语音助手的跟进模式构建,该模式使用声学线索区分设备导向和非设备导向的语音。新功能增加了其他线索,例如来自带摄像头设备的视觉信息。
设备端算法处理摄像头拍摄的图像,从说话者的身体位置推断他们是否可能在向语音助手说话。计算机视觉算法的输出与语音助手现有的声学算法检测设备导向语音的输出相结合,并馈送到设备端融合模型中,该模型确定设备导向性。这种方法即使在多个说话者相互交互并与语音助手交互时也能区分设备导向的语音。
打断处理机制
自然轮转的一个关键是处理打断,即用户中断语音助手的输出语音。当用户打断并提出新请求时,语音助手知道停止说话并继续处理新请求。
在某些打断情况下,语音助手还需要知道在输出语音中进行了多远,因为该信息可能对对话管理器有用。这种场景称为上下文打断。例如,如果语音助手在客户请求后返回选项列表,而客户打断说“那个”,语音助手知道“那个”指的是在打断时正在读取的任何选项。
该功能使用中断语音开始时间和中断本身时间戳之间的差异来确定在语音中查找客户话语所指对象的范围。该信息传递给对话管理器,用于确定对客户话语的适当响应。
用户节奏感知
自然轮转功能推出时,还计划测试用户节奏功能。用户节奏依赖几种不同的信号来确定客户是否已完成说话以及是否需要任何额外的提示。
这些信号包括填充词,如“嗯”或“呃”;元音延长,如“让我看看……”;以及不完整的话语,如“我想我要选择”。
技术演进方向
还在研究从语音信号推断设备导向性的新技术。例如,今年早些时候报告了一种方法,该方法使用客户话语的句法和语义特征以及跟进模式已经采用的声学特征。
核心技术特点:
- 多模态信息融合(声学+视觉)
- 设备端算法处理
- 智能打断识别
- 上下文感知对话管理
- 自然语言理解增强