音频与视觉信号的融合
当用户对Echo Show设备说出"Alexa"时,屏幕会显示蓝色光条,其较亮部分指示设备选择的声源方向(称为波束选择)。传统纯音频方案易受噪声、多人说话或墙面反射干扰,导致屏幕因错误追踪声源而产生频繁晃动。
Echo Show 10通过结合声源定位(SSL)与计算机视觉(CV)解决该问题:
- SSL采用声波分解和机器学习技术估算用户方位
- 原始SSL测量数据与CV算法进行融合处理
- CV算法可识别视场内的物体和人体,区分人声与环境反射声
- 设备通过设置运动范围来忽略范围外的声源反射
计算机视觉处理机制
CV算法将相机图像转换为数百个代表形状、边缘、面部特征点和通用色彩的数据点,随后立即永久删除原始图像:
- 数据点不可逆向还原为原始输入
- 完全不使用面部识别技术
- 所有处理在设备端以毫秒级完成
- 视觉服务(CVS)动态调整帧率,在10英尺距离内保持95%以上精度
CVS采用时空滤波抑制相机运动引起的瞬时误报。在多用户环境中,通过 engagement detection( engagement检测)确定面向设备的用户,实现屏幕的精准定向。
运动控制与用户体验
设备通过三个感知分区模拟人类响应机制:
- 静止区(视野中心):用户移动时设备保持不动
- 保持区(中心外围区域):用户持续停留新位置时才转动
- 运动区(视野边缘):立即移动确保屏幕始终可见
运动参数经过数千小时实验室测试优化:
- 电机支持最高360度/秒²的加速度
- 最终采用既能快速响应又能及时停止的平衡速度
- 内置阻力机制区分用户 intentional 移动与无意触碰
- 遇到障碍物时自动停止运动
技术应用场景
- 视频通话:通过自动构图保持人物居中
- 厨房场景:动态跟踪移动中的用户显示食谱
- 家庭安防:离家模式下周期性巡视房间,检测到人员时发送智能警报
- 远程查看:支持外出时通过摄像头远程查看家中状况
开发者生态
开放运动API允许开发者基于设备运动能力构建创新体验,具体API详情参见开发博客。