HEAL: 机器学习性能健康公平性评估框架
引言
健康公平性是全球主要社会关切问题,差异源于医疗可及性限制、临床治疗差异甚至诊断技术根本差异。例如在皮肤病学中,少数群体、社会经济地位较低或医疗可及性有限的个体皮肤癌结局更差。虽然机器学习和人工智能在改善医疗保健方面前景广阔,但从研究到临床应用的转变必须谨慎理解其对健康公平性的影响。
健康公平性定义为每个人获得尽可能健康机会的公平性。值得注意的是,公平可能与平等不同:健康改善障碍更大的人群可能需要更多或不同的努力来实现公平机会。同样,公平性不同于医疗AI文献中定义的公平性——AI公平性通常追求跨患者群体的平等性能,但这不以实现优先考虑现有健康差异的性能为中心目标。
HEAL框架
HEAL框架提出4步流程评估基于ML的健康技术是否公平执行:
- 识别健康不公平相关因素并定义工具性能指标
- 识别和量化预先存在的健康差异
- 测量每个亚人群的工具性能
- 测量工具优先考虑健康差异相关性能的可能性
最终输出称为HEAL指标,量化ML模型性能与健康差异的反相关程度——模型是否在健康结局更差的群体中表现更好?
此4步流程旨在指导改进ML模型性能公平性,应迭代并定期重新评估。例如,步骤(2)中健康结局数据的可用性可指导步骤(1)中人口统计因素和分组的选择,框架可应用于新数据集、模型和人群。
皮肤病学模型案例研究
作为说明性案例,我们将框架应用于皮肤病学模型,该模型使用与先前工作类似的卷积神经网络。示例模型使用29k病例的开发数据集训练分类288种皮肤病症。模型输入包括皮肤问题的三张照片以及人口统计信息和简要结构化病史。输出包含可能匹配皮肤病症的排名列表。
使用HEAL框架,我们通过评估模型是否优先考虑预先存在健康结局相关的性能来评估该模型。模型设计基于皮肤问题照片和患者元数据预测可能的皮肤病况(从数百种列表中)。模型评估使用前3位一致性指标,量化前3位输出条件与皮肤科医生小组建议的最可能条件匹配的频率。HEAL指标通过此前3位一致性与健康结局排名的反相关性计算。
我们使用5,420例远程皮肤病学病例数据集( enriched for年龄、性别和种族/民族多样性)回顾性评估模型的HEAL指标。数据集包含来自美国初级保健提供者和澳大利亚皮肤癌诊所20岁及以上患者的"存储转发"病例。基于文献回顾,我们决定探索种族/民族、性别和年龄作为不公平的潜在因素,并使用抽样技术确保评估数据集充分代表所有种族/民族、性别和年龄组。为量化每个亚组的预先存在健康结局,我们依赖世界卫生组织认可的公共数据库测量,如生命损失年数和残疾调整生命年。
我们的分析估计,模型在种族/民族亚组中公平执行的可能性为80.5%,在性别间公平执行的可能性为92.1%。然而,虽然模型可能特别在癌症条件下跨年龄组公平执行,但我们发现其在非癌症条件下跨年龄组有改进空间。例如,70岁以上人群与非癌症皮肤病症相关的健康结局最差,但模型未优先考虑此亚组的性能。
背景化考量
为全面评估,HEAL指标不能单独使用,而应与许多其他因素背景化,包括计算效率、数据隐私到伦理价值,以及可能影响结果的方面(如选择偏倚或跨人口统计组评估数据代表性差异)。
作为对抗性示例,HEAL指标可通过故意减少最优势亚群的模型性能直到该亚群性能比所有其他亚群更差而人为改善。因此,HEAL指标应与帕累托条件(论文中进一步讨论)一起使用,限制模型更改使得每个亚群的结果与现状相比要么不变要么改善,且任何亚群的性能都不恶化。
当前形式的HEAL框架评估基于ML的模型优先考虑特定亚群预先存在健康差异相关性能的可能性。这与理解ML是否实际减少亚群间结局差异的目标不同。具体而言,建模结局改进需要因果理解使用任何给定模型前后护理旅程中的步骤。未来研究需要解决此差距。
结论
HEAL框架能够定量评估健康AI技术优先考虑健康差异相关性能的可能性。案例研究展示如何在皮肤病学领域应用框架,表明模型性能在性别和种族/民族健康差异方面优先考虑的可能性高,但也揭示跨年龄非癌症条件改进的潜力。案例研究还说明应用框架所有推荐方面的能力限制(如映射社会背景、数据可用性),从而突出基于ML工具的健康公平性考量的复杂性。
此项工作是解决AI和健康公平性重大挑战的提议方法,可能提供有用评估框架,不仅用于模型开发,还用于预实施和现实世界监测阶段(如健康公平性仪表板形式)。我们认为HEAL框架的优势在于未来应用于各种AI工具和使用案例及其在此过程中的改进。最后,我们承认成功理解AI技术对健康公平性影响的方法需要超越一组指标,需要代表最受模型影响群体的社区达成一致的目标集。