计算机辅助肺癌筛查诊断
2024年3月20日 - 谷歌研究团队软件工程师Atilla Kiraly和产品经理Rory Pilgrim发布
推出一种通用化、以用户为中心的界面,帮助放射科医生利用机器学习模型进行肺癌筛查。该系统以计算机断层扫描(CT)影像作为输入,输出癌症可疑度评级以及相应的关注区域。
背景
肺癌是全球癌症相关死亡的主要原因,2020年报告有180万人死亡。晚期诊断显著降低了生存机会。通过CT进行肺癌筛查可以提供肺部的详细3D图像,已被证明可以通过早期检测潜在癌症迹象,将高危人群的死亡率降低至少20%。
在美国,筛查涉及年度扫描,某些国家或病例建议更频繁或更少频繁的扫描。美国预防服务工作组最近将肺癌筛查建议扩大了约80%,预计将增加女性和种族及少数民族群体的筛查机会。
然而,假阳性(即在无癌患者中错误报告潜在癌症)可能引起焦虑,导致患者接受不必要的程序,同时增加医疗系统成本。此外,筛查大量个体的效率可能具有挑战性,具体取决于医疗基础设施和放射科医生的可用性。
在谷歌,我们之前开发了用于肺癌检测的机器学习模型,并评估了它们自动检测和分类显示潜在癌症迹象区域的能力。性能已被证明在检测可能癌症方面与专家相当。虽然它们实现了高性能,但在现实环境中有效传达发现对于实现其全部潜力是必要的。
为此,在发表在《Radiology AI》上的"辅助AI在肺癌筛查中的应用:美国和日本的回顾性跨国研究"中,我们研究了ML模型如何有效地向放射科医生传达发现。我们还介绍了一种通用化、以用户为中心的界面,以帮助放射科医生利用此类模型进行肺癌筛查。该系统以CT影像作为输入,使用四个类别(无疑似、可能良性、可疑、高度可疑)输出癌症可疑度评级,以及相应的关注区域。我们通过在美国和日本的随机读者研究,使用当地癌症评分系统(Lung-RADS V1.1和Sendai评分)和模拟现实环境的图像查看器,评估了系统在提高临床医生性能方面的效用。我们发现,在两个读者研究中,读者特异性随着模型辅助而增加。为了加速使用ML模型进行类似研究的进展,我们已经开源了处理CT图像并生成与放射科医生使用的图像存档和通信系统(PACS)兼容的图像的代码。
开发传达模型结果的界面
将ML模型集成到放射科医生工作流程中涉及理解他们任务的细微差别和目标,以有意义地支持他们。在肺癌筛查的情况下,医院遵循各种国家特定的指南,这些指南会定期更新。例如,在美国,Lung-RADs V1.1分配一个字母数字评分来指示肺癌风险和随访建议。在评估患者时,放射科医生将CT加载到他们的工作站中读取病例,找到肺结节或病变,并应用设定的指南来确定随访决策。
我们的第一步是通过额外的训练数据和架构改进(包括自注意力)改进先前开发的ML模型。然后,我们不针对特定指南,而是尝试了一种补充性的传达AI结果的方式,独立于指南或其特定版本。具体来说,系统输出提供了一个可疑度评级和定位(关注区域),供用户结合他们自己的特定指南考虑。界面产生与CT研究直接相关的输出图像,不需要更改用户的工作站。放射科医生只需要查看一小部分额外的图像。他们的系统或与系统的交互没有其他变化。
辅助肺癌筛查系统包括13个模型,并具有与先前工作中使用的端到端系统类似的高级架构。模型相互协调,首先分割肺部,获得整体评估,定位三个可疑区域,然后使用该信息为每个区域分配可疑度评级。该系统使用Google Kubernetes Engine(GKE)在Google Cloud上部署,该引擎拉取图像,运行ML模型,并提供结果。这允许可扩展性,并直接连接到图像存储在DICOM存储中的服务器。
读者研究
为了评估系统在提高临床性能方面的效用,我们进行了两个读者研究(即设计用于评估临床性能的实验,比较有和没有技术辅助的专家性能),涉及12名放射科医生使用预先存在的、去标识化的CT扫描。我们向6名美国基地和6名日本基地的放射科医生展示了627个具有挑战性的病例。在实验设置中,读者被分为两组,每组读取每个病例两次,有和没有模型辅助。要求读者应用他们通常在临床实践中使用的评分指南,并报告他们对每个病例的总体癌症可疑度。然后,我们比较了读者响应的结果,以衡量模型对他们工作流程和决策的影响。针对个体的实际癌症结果判断评分和可疑度水平,以测量敏感性、特异性和ROC曲线下面积(AUC)值。这些在有和没有辅助的情况下进行了比较。
使用相同界面进行这些研究的能力突出了其对完全不同的癌症评分系统的通用性,以及模型和辅助能力对不同患者群体的泛化能力。我们的研究结果表明,当放射科医生在临床评估中使用系统时,与不使用辅助系统时相比,他们正确识别没有可操作肺癌发现的肺部图像的能力(即特异性)绝对提高了5-7%。这可能意味着每筛查15-20名患者,可能有一名能够避免不必要的随访程序,从而减少他们的焦虑和医疗系统的负担。这反过来可以帮助提高肺癌筛查项目的可持续性,特别是随着更多人符合筛查资格。
通过合作转化为现实世界影响
系统结果证明了减少随访访问、减少焦虑以及降低肺癌筛查总体成本的潜力。为了将这项研究转化为现实世界的临床影响,我们正在与以下机构合作:DeepHealth,一家领先的AI驱动健康信息学提供商;以及Apollo Radiology International,印度领先的放射学服务提供商,探索将该系统纳入未来产品的途径。此外,我们希望通过开源用于读者研究的代码并纳入本博客中描述的见解,帮助其他研究如何最好地将ML模型结果集成到临床工作流程中的研究人员。我们希望这将有助于加速寻求为其AI模型进行读者研究的医学影像研究人员,并催化该领域的转化研究。
致谢
该项目的关键贡献者包括Corbin Cunningham、Zaid Nabulsi、Ryan Najafi、Jie Yang、Charles Lau、Joseph R. Ledsam、Wenxing Ye、Diego Ardila、Scott M. McKinney、Rory Pilgrim、Hiroaki Saito、Yasuteru Shimamura、Mozziyar Etemadi、Yun Liu、David Melnick、Sunny Jansen、Nadia Harhen、David P. Nadich、Mikhail Fomitchev、Ziyad Helali、Shabir Adeel、Greg S. Corrado、Lily Peng、Daniel Tse、Shravya Shetty、Shruthi Prabhakara、Neeral Beladia和Krish Eswaran。感谢Arnav Agharwal和Andrew Sellergren的开源支持,以及Vivek Natarajan和Michael D. Howell的反馈。还要衷心感谢在整个研究中通过图像解读和标注工作实现这项工作的放射科医生,以及Jonny Wong和Carli Sampson协调读者研究。