肺癌筛查中的计算机辅助诊断:AI模型与临床工作流整合

本文介绍谷歌开发的肺癌筛查辅助系统,该系统通过机器学习模型分析CT影像,输出癌症可疑度评级与病灶区域定位。研究通过美日两国的多中心读片试验证明,该系统可提升放射科医生7%的特异性,减少不必要的随访检查。

计算机辅助诊断在肺癌筛查中的应用

2024年3月20日 | 作者:Atilla Kiraly(软件工程师)与Rory Pilgrim(产品经理),谷歌研究院

引言

肺癌是全球癌症相关死亡的主要原因,2020年报告180万死亡病例。晚期诊断显著降低生存机会。通过计算机断层扫描(CT)进行肺癌筛查可提供肺部详细3D图像,早期检测潜在癌症迹象,已证明能将高危人群死亡率降低至少20%。在美国,筛查涉及年度扫描,某些国家或病例建议更频繁或更少扫描。

美国预防服务工作组最近将肺癌筛查建议扩大了约80%,预计将增加女性和种族及少数民族群体的筛查机会。然而,假阳性(即在无癌患者中错误报告潜在癌症)可能导致患者焦虑和不必要程序,同时增加医疗系统成本。此外,筛查大量个体的效率可能因医疗基础设施和放射科医生可用性而具有挑战性。

在谷歌,我们先前开发了用于肺癌检测的机器学习(ML)模型,并评估了它们自动检测和分类显示潜在癌症迹象区域的能力。性能已证明与专家在检测可能癌症方面相当。虽然它们实现了高性能,但在现实环境中有效传达发现对于实现其全部潜力是必要的。

为此,在《放射学AI》发表的“肺癌筛查中的辅助AI:美国和日本的回顾性多国研究”中,我们研究了ML模型如何有效向放射科医生传达发现。我们还引入了一个通用的以用户为中心的界面,帮助放射科医生利用此类模型进行肺癌筛查。该系统以CT成像为输入,使用四个类别(无疑似、可能良性、可疑、高度可疑)输出癌症可疑度评级以及相应的感兴趣区域。我们通过在美国和日本的随机读片研究,使用本地癌症评分系统(Lung-RADS V1.1和Sendai评分)和模拟现实设置的图像查看器,评估了系统在提高临床医生性能方面的效用。我们发现,在两个读片研究中,读者的特异性随着模型辅助而增加。为了加速进行类似ML模型研究,我们开源了处理CT图像并生成与放射科医生使用的图像存档和通信系统(PACS)兼容的图像的代码。

开发传达模型结果的界面

将ML模型集成到放射科医生工作流程中涉及理解其任务的细微差别和目标,以有意义地支持他们。在肺癌筛查的情况下,医院遵循各种国家特定指南,这些指南定期更新。例如,在美国,Lung-RADs V1.1分配字母数字评分以指示肺癌风险和随访建议。在评估患者时,放射科医生在工作站加载CT以读取病例,查找肺结节或病变,并应用设定指南确定随访决策。

我们的第一步是通过额外训练数据和架构改进(包括自注意力)改进先前开发的ML模型。然后,我们不针对特定指南,而是尝试了一种补充性的传达AI结果的方式,独立于指南或其特定版本。具体来说,系统输出提供可疑度评级和定位(感兴趣区域)供用户结合自己的特定指南考虑。界面产生与CT研究直接相关的输出图像,无需更改用户的工作站。放射科医生只需要查看一小部分额外图像。对其系统或与系统的交互没有其他更改。

辅助肺癌筛查系统输出示例。放射科医生评估的结果在发现可疑病变的CT体积位置可视化。总体可疑度显示在CT图像顶部。圆圈突出显示可疑病变,而方块显示同一病变从不同视角的渲染,称为矢状视图。

辅助肺癌筛查系统包含13个模型,具有与先前工作中使用的端到端系统类似的高级架构。模型相互协调,首先分割肺部,获得总体评估,定位三个可疑区域,然后使用该信息为每个区域分配可疑度评级。系统使用Google Kubernetes Engine(GKE)在Google Cloud上部署,该引擎拉取图像,运行ML模型,并提供结果。这允许可扩展性并直接连接到图像存储在DICOM存储中的服务器。

辅助肺癌筛查系统的Google Cloud部署概述以及服务于图像和计算结果的各个组件的定向调用流。图像使用Google Cloud服务提供给查看器和系统。系统在Google Kubernetes Engine上运行,拉取图像,处理它们,并将它们写回DICOM存储。

读片研究

为了评估系统在提高临床性能方面的效用,我们进行了两个读片研究(即设计用于评估临床性能的实验,比较专家在有和无技术辅助下的性能),使用12名放射科医生和预先存在的去标识化CT扫描。我们向6名美国基地和6名日本基地的放射科医生呈现了627个具有挑战性的病例。在实验设置中,读者分为两组,每组读取每个病例两次,有和无模型辅助。要求读者应用他们通常在临床实践中使用的评分指南,并报告每个病例的总体癌症可疑度。然后,我们比较了读者响应的结果,以衡量模型对其工作流程和决策的影响。评分和可疑度水平根据个体的实际癌症结果判断,以测量敏感性、特异性和ROC曲线下面积(AUC)值。这些与有和无辅助的情况进行比较。

多病例多读者研究涉及每个病例由每个读者审查两次,一次有ML系统辅助,一次无。在此可视化中,一名读者首先无辅助审查集合A(蓝色),然后在洗脱期后有辅助(橙色)。第二读者组通过首先有辅助读取同一组病例集合A遵循相反路径。读者随机分配到这些组以消除顺序效应。

使用相同界面进行这些研究的能力突出了其对完全不同的癌症评分系统的通用性,以及模型和辅助能力对不同患者群体的泛化。我们的研究结果表明,当放射科医生在临床评估中使用系统时,他们正确识别没有可操作肺癌发现的肺部图像的能力(即特异性)绝对增加了5-7%,与不使用辅助系统时相比。这可能意味着每筛查15-20名患者,可能有一名能够避免不必要的随访程序,从而减少他们的焦虑和医疗系统的负担。这反过来可以帮助提高肺癌筛查项目的可持续性,特别是随着更多人符合筛查资格。

在美国基地和日本基地的读片研究中,读者特异性随着ML模型辅助而增加。特异性值源自读者从可操作发现(发现可疑事物)与无可操作发现的评分,与个体的真实癌症结果比较。在模型辅助下,读者标记较少癌症阴性个体进行随访访问。癌症阳性个体的敏感性保持不变。

通过合作转化为现实世界影响

系统结果证明了减少随访访问、减少焦虑以及降低肺癌筛查总体成本的潜力。为了将这项研究转化为现实世界的临床影响,我们正在与以下机构合作:DeepHealth,一家领先的AI驱动健康信息学提供商;和Apollo Radiology International,印度领先的放射学服务提供商,探索将该系统纳入未来产品的途径。此外,我们希望通过开源用于读片研究的代码并纳入本博客中描述的见解,帮助其他研究如何最好地将ML模型结果集成到临床工作流程中的研究人员。我们希望这将帮助加速医学影像研究人员为其AI模型进行读片研究,并催化该领域的转化研究。

致谢

该项目的关键贡献者包括Corbin Cunningham, Zaid Nabulsi, Ryan Najafi, Jie Yang, Charles Lau, Joseph R. Ledsam, Wenxing Ye, Diego Ardila, Scott M. McKinney, Rory Pilgrim, Hiroaki Saito, Yasuteru Shimamura, Mozziyar Etemadi, Yun Liu, David Melnick, Sunny Jansen, Nadia Harhen, David P. Nadich, Mikhail Fomitchev, Ziyad Helali, Shabir Adeel, Greg S. Corrado, Lily Peng, Daniel Tse, Shravya Shetty, Shruthi Prabhakara, Neeral Beladia, 和 Krish Eswaran。感谢Arnav Agharwal和Andrew Sellergren的开源支持,以及Vivek Natarajan和Michael D. Howell的反馈。衷心感谢在整个研究中通过图像解释和注释努力使这项工作成为可能的放射科医生,以及协调读片研究的Jonny Wong和Carli Sampson。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计