医学图像去标识化基准挑战

保护健康信息（PHI）和个人可识别信息（PII）的去标识化（deID）是共享医学图像（尤其是通过公共存储库）的基本要求，以确保符合患者隐私法律。此外，保留非PHI元数据以支持医学影像人工智能（AI）的下游开发是生物医学研究中的重要考量。MIDI-B的目标是基于符合HIPAA安全港法规、DICOM属性保密配置以及由癌症影像档案（TCIA）定义的研究关键元数据保留最佳实践的一套规则，为DICOM图像去标识化工具提供标准化基准测试平台。该挑战采用了一个大型、多样化、多中心、多模态的真实去标识化放射图像数据集，并插入了合成的PHI/PII。

MIDI-B挑战包含三个阶段：训练、验证和测试。共有80名个人注册参与挑战。在训练阶段，我们鼓励参与者使用内部或公共数据调整其算法。验证和测试阶段使用了包含合成标识符的DICOM图像（分别涉及216名和322名受试者）。十支团队成功完成了挑战的测试阶段。为衡量基于规则的图像去标识化方法的成功程度，评分计算为正确操作数占所需操作总数的百分比。得分范围从97.91%到99.93%。参与者采用了多种开源和专有工具（含自定义配置）、大语言模型以及光学字符识别（OCR）技术。本文提供了关于MIDI-B挑战设计、实施、结果和经验教训的全面报告。