医学图像去标识化基准挑战:技术实现与评估

本文介绍了医学图像去标识化基准挑战(MIDI-B)的设计与实施,重点探讨了基于HIPAA安全港规则和DICOM属性保密配置的去标识化技术。挑战采用含合成PHI/PII的多中心真实放射图像数据集,通过训练、验证和测试三阶段评估了10支团队的算法性能,最高准确率达99.93%。文章还分析了开源工具、大语言模型和OCR等技术在去标识化中的应用。

医学图像去标识化基准挑战

保护健康信息(PHI)和个人可识别信息(PII)的去标识化(deID)是共享医学图像(尤其是通过公共存储库)的基本要求,以确保符合患者隐私法律。此外,保留非PHI元数据以支持医学影像人工智能(AI)的下游开发是生物医学研究中的重要考量。MIDI-B的目标是基于符合HIPAA安全港法规、DICOM属性保密配置以及由癌症影像档案(TCIA)定义的研究关键元数据保留最佳实践的一套规则,为DICOM图像去标识化工具提供标准化基准测试平台。该挑战采用了一个大型、多样化、多中心、多模态的真实去标识化放射图像数据集,并插入了合成的PHI/PII。

MIDI-B挑战包含三个阶段:训练、验证和测试。共有80名个人注册参与挑战。在训练阶段,我们鼓励参与者使用内部或公共数据调整其算法。验证和测试阶段使用了包含合成标识符的DICOM图像(分别涉及216名和322名受试者)。十支团队成功完成了挑战的测试阶段。为衡量基于规则的图像去标识化方法的成功程度,评分计算为正确操作数占所需操作总数的百分比。得分范围从97.91%到99.93%。参与者采用了多种开源和专有工具(含自定义配置)、大语言模型以及光学字符识别(OCR)技术。本文提供了关于MIDI-B挑战设计、实施、结果和经验教训的全面报告。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计