音频与计算机视觉算法的结合
当用户对智能音箱说出唤醒词时,设备会通过蓝色光条进行波束选择。传统纯音频方案在存在噪音、多人说话或墙面反射时容易出现方向误判,导致屏幕不必要的移动。
新一代设备通过声源定位与计算机视觉的融合解决了这一问题:
- 声源定位采用声波分解和机器学习技术确定用户方位
- 计算机视觉算法识别视野内的物体和人体,区分人声与其他声源
- 设备通过设置步骤限定运动范围,避免后方反射干扰
视觉数据处理与隐私保护
计算机视觉算法将摄像头图像转换为数百个数据点,代表形状、边缘、面部特征和通用色彩信息:
- 原始图像立即被永久删除
- 数据点无法反向工程还原为原始输入
- 不使用面部识别技术
- 所有处理在设备端毫秒级完成
运动控制系统优化
计算机视觉服务具备以下特性:
- 动态调整帧率(每秒帧数)
- 在10英尺距离内保持95%以上精度
- 使用时空滤波抑制相机移动和模糊造成的误判
- 在多用户环境中通过参与度检测确定主要交互对象
用户体验精细化设计
通过内部测试和虚拟现实模拟,团队确定了关键参数:
运动阻力调节
- 区分滚动屏幕的轻触与意图移动设备的用力
- 遇到障碍物时自动停止运动
运动速度优化
- 电机支持最高360度/秒²的加速度
- 最终选择既快速又能及时停止的速度,避免碰倒周边物品
三区感知系统
设备模仿人类反应机制,将视野划分为三个区域:
静止区(视野中心)
- 即使用户移动,设备也不转动
保持区(中心外围区域)
- 仅当用户在新位置停留足够长时间时才转动
运动区(视野边缘)
- 设备立即移动确保屏幕始终可见
各区范围根据用户距离、设备速度和加速度进行精细调节,基于数千小时的实验室和用户测试数据。
应用场景
视频通话
- 自动构图和运动跟踪
厨房场景
- 无需忙碌的厨师费力查看屏幕食谱
家庭安防
- 离家模式下定期巡视房间
- 检测到人员时发送智能警报
- 支持远程查看家中情况
开发者生态
设备向开发者开放运动API,鼓励创造新的交互体验,探索运动作为响应方式的巨大潜力。