HEAL:机器学习性能健康公平性评估框架
今天,我们介绍健康公平性机器学习性能评估(HEAL),这是一个新颖的评估框架,旨在定量评估基于机器学习的健康工具的性能是否公平。我们提出了一个4步流程,用于估计机器学习工具在平均健康结果较差的群体中表现优于其他群体的可能性,目标是指导改进,使健康AI技术更加公平。
健康公平是全球关注的主要社会问题,差异有多种原因。这些来源包括医疗保健获取的限制、临床治疗的差异,甚至诊断技术的根本差异。例如,在皮肤病学中,少数族裔、社会经济地位较低或医疗保健获取有限的群体的皮肤癌结果较差。虽然机器学习和人工智能的最新进展有望帮助改善医疗保健,但从研究到临床应用的转变必须伴随着对其是否以及如何影响健康公平性的仔细理解。
健康公平性考量
在《健康公平性机器学习性能评估(HEAL):框架和皮肤病AI模型案例研究》中,我们提出了一种定量评估基于机器学习的健康技术是否公平执行的方法。换句话说,机器学习模型在那些该模型旨在解决的情况中健康结果最差的人群中是否表现良好?这个目标基于健康公平应优先考虑和衡量模型在 disparate 健康结果方面的性能的原则,这可能是由于包括结构性不平等在内的多种因素造成的。
健康公平性框架(HEAL)
HEAL框架提出了一个4步流程,用于估计基于机器学习的健康技术公平执行的可能性:
(1)识别与健康不平等相关的因素并定义工具性能指标, (2)识别和量化预先存在的健康差异, (3)测量工具在每个亚群中的性能, (4)测量工具在健康差异方面优先考虑性能的可能性。
最后一步的输出称为HEAL指标,它量化了机器学习模型的性能与健康差异的反相关程度。换句话说,模型在健康结果较差的人群中是否表现更好?
这个4步流程旨在指导改进,使机器学习模型性能更加公平,并且是迭代性的,需要定期重新评估。
皮肤病模型案例研究
作为一个说明性案例研究,我们将该框架应用于一个皮肤病模型,该模型使用了与先前工作中描述的类似的卷积神经网络。这个示例皮肤病模型使用包含29,000个案例的开发数据集训练,以分类288种皮肤状况。模型的输入包括三张皮肤问题的照片以及人口统计信息和简要结构化病史。输出包括可能匹配的皮肤状况的排名列表。
使用HEAL框架,我们通过评估模型是否在预先存在的健康结果方面优先考虑性能来评估该模型。该模型旨在基于皮肤问题的照片和患者元数据预测可能的皮肤病状况。模型的评估使用前3协议指标,该指标量化了前3个输出状况与皮肤科医生小组建议的最可能状况匹配的频率。HEAL指标通过该前3协议与健康结果排名的反相关性计算。
我们使用了一个包含5,420个远程皮肤病学案例的数据集,丰富了年龄、性别和种族/民族的多样性,以回顾性评估模型的HEAL指标。该数据集包括来自美国初级保健提供者和澳大利亚皮肤癌诊所的20岁或以上患者的“存储和转发”案例。基于文献回顾,我们决定探索种族/民族、性别和年龄作为不平等的潜在因素,并使用抽样技术确保我们的评估数据集在所有种族/民族、性别和年龄组中具有足够的代表性。
我们的分析估计,该模型在种族/民族亚组中公平执行的可能性为80.5%,在性别中公平执行的可能性为92.1%。
然而,虽然该模型在年龄组中对癌症状况特别可能公平执行,但我们发现它在非癌症状况的年龄组中有改进的空间。例如,70岁以上的人在与非癌症皮肤状况相关的健康结果最差,但模型没有优先考虑该亚组的性能。
将事物置于背景中
为了进行全面评估,HEAL指标不能单独使用。相反,该指标应与许多其他因素一起背景化,从计算效率和数据隐私到伦理价值观,以及可能影响结果的方面。
作为一个对抗性例子,HEAL指标可以通过故意减少最优势亚群的模型性能直到该亚群的性能比所有其他亚群更差来人为改善。
因此,HEAL指标应与帕累托条件一起使用,该条件限制模型变化,使得每个亚群的结果要么不变,要么与现状相比改善,并且任何亚群的性能都不会恶化。
结论
HEAL框架使得能够定量评估健康AI技术在健康差异方面优先考虑性能的可能性。案例研究展示了如何在皮肤病学领域应用该框架,表明模型性能在性别和种族/民族的健康差异方面优先考虑的可能性很高,但也揭示了在非癌症状况的年龄组中改进的潜力。
这项工作是一种解决AI和健康公平性重大挑战的 proposed 方法,可能提供一个有用的评估框架,不仅在模型开发期间,而且在预实施和现实世界监测阶段。