无标注数据预测人脸识别模型偏差的新方法

本文介绍了一种无需身份标注数据即可评估人脸识别系统偏差的创新方法,通过分析匹配与非匹配图像对的分数分布差异,有效预测模型在不同人口统计群体中的性能差异,大幅降低偏差检测成本。

在近年来的AI研究中,算法偏差已成为核心议题。2018年一项针对人脸识别软件偏差的调查(将偏差定义为模型在不同人口统计群体中的性能差异)引发了广泛关注。传统检测方法需要大量标注身份信息的图像数据,但身份标注成本极高——尤其是进行彻底评估所需的规模。

在欧洲计算机视觉会议(ECCV 2022)上,研究者提出了一种无需身份标注数据的偏差评估新方法。该方法通过分析模型输出的匹配分数分布来预测性能差异,实验表明其预测结果足以检测出表明偏差存在的性能差异。这一突破性发现使得人脸识别软件的开发者能够更实际地进行模型偏差测试。

技术原理

  1. 分布建模:假设真实匹配图像对(p1)与非匹配图像对(p0)的距离分数服从两种不同分布。方法核心是学习这两个分布的参数(q1和q0)。
  2. 双片段分布:采用能处理偏态数据的双片段分布模型,在众数两侧分别使用不同参数。
  3. 动态适应:仅需人口统计元数据(如自我报告信息)即可适配新群体,无需身份标签。

验证结果

  • 在故意引入偏差(训练时剔除特定人口数据)的实验中,该方法成功识别出受影响群体的性能差异
  • 相比需要标注数据引导的贝叶斯校准方法,新方法全面胜出,某些情况下优势显著

实施流程

  1. 向训练好的模型输入带人口统计标签(无身份标签)的随机图像对
  2. 模型学习匹配/非匹配的分数分布
  3. 通过分布分离程度预测模型准确率
  4. 分层聚类计算误差范围,确保差异信号的可靠性

该方法为从事人脸识别等生物特征任务的AI从业者提供了实用的公平性评估工具,其成本效益和灵活性有望推动更广泛的算法偏差检测实践。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计