视觉识别技术背后的科学原理

本文详细介绍了基于卷积神经网络的视觉识别系统,涵盖从面部数据采集、向量化处理到本地化识别的完整技术流程,并阐述了确保系统公平性和隐私保护的设计理念与技术实现方案。

视觉识别技术背后的科学原理

面向Echo Show和Astro的新可选功能为选择注册的客户提供更个性化的内容和体验。

创建视觉身份标识

视觉身份标识为可选功能,用户需要先注册该功能,类似于现有的语音身份标识注册流程。在注册过程中,您将使用支持的Echo Show设备或Astro上的摄像头从不同角度拍摄一系列头部照片。

为确保视觉身份标识能准确识别您,系统需要您提供五个不同角度的面部图像。在注册过程中,设备会运行算法确保每张图像都具有足够高质量。例如,如果房间光线太暗,屏幕将显示指示,提示您调整光线后重试。当每个姿势的图像成功捕获时,您也会看到屏幕通知。

这些图像用于创建面部特征的数字表示。称为向量(对应面部的每个角度),这些数字表示就是一串数字。这些图像还用于在视觉身份标识模型定期更新时修订向量——这意味着客户无需在每次模型更新时重新注册视觉身份标识。这些图像和向量安全地存储在设备本地,而非某中心的云端。

每个兼容的Echo Show或Astro设备上,每个账户最多可有10名家庭成员注册,以享受更个性化的体验。拥有多个兼容视觉身份标识设备的客户需要在每个设备上单独注册。

识别已注册个体

注册视觉身份标识后,您的设备会尝试将进入摄像头视野的人员与已注册家庭成员的视觉身份标识进行匹配。此过程包括两个步骤:面部检测和面部识别,两者都是通过使用称为卷积神经网络的机器学习模型在本地进行处理。

要识别一个人,设备首先使用卷积神经网络检测摄像头视野中何时出现面部。如果设备未注册视觉身份标识的人走入摄像头视野,设备将确定没有与存储向量匹配的结果。设备在处理后不会保留未注册个体的图像或向量。所有这些都在几分之一秒内完成,并在设备上安全进行。

当您支持的Echo Show设备识别出您时,您的头像和个性化问候将出现在屏幕右上角。

Astro屏幕上显示的内容将取决于Astro正在执行的任务。例如,如果您已注册视觉身份标识,且Astro正在尝试找到您,Astro将在其屏幕上显示文本——“正在寻找[Bob]”,随后是“已找到[Bob]”——以确认它已识别出您。

提升公平性

在设计视觉身份标识时,我们为公平性设定了高标准。为达到这一标准,我们的科学家和工程师使用数百万张图像——在参与者同意的情况下收集——构建并改进了视觉身份标识模型,这些图像明确代表了性别、种族、肤色、年龄、能力和其他因素的多样性。然后我们设定了性能目标,确保视觉身份标识功能在各个群体中都能良好运行。

除了咨询几位专门研究计算机视觉的某机构学者外,我们还咨询了算法偏见外部专家Ayanna Howard(俄亥俄州立大学工程学院院长),以审查我们为增强功能公平性所采取的步骤。我们已经实施了来自我们学者和Howard博士的反馈,并将征求并听取客户反馈,进行改进,确保该功能继续为客户不断优化。

隐私设计

与我们所有产品和服务一样,隐私是我们构建和设计视觉身份标识的基础。如上所述,已注册家庭成员的视觉身份标识安全地存储在设备本地,Astro和Echo Show设备都使用本地处理来识别已注册客户。您可以通过设备设置(对于Echo Show,还可通过Alexa应用)从您注册的单个设备中删除视觉身份标识。这将从您的设备中删除存储的注册图像和相关向量。如果您的面部在18个月内未被该设备识别,我们也将自动从单个设备中删除您的视觉身份标识。

对于视觉身份标识、Echo Show和Astro来说,这仍然只是第一天。我们期待听到客户如何使用视觉身份标识来个性化他们的设备体验。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计