Incomplete NVIDIA Patch to CVE-2024-0132 Exposes AI Infrastructure and Data to Critical Risks
摘要
趋势科技研究团队发现,NVIDIA在2024年9月针对关键漏洞(CVE-2024-0132)发布的安全更新并不完整,导致系统可能仍然容易受到容器逃逸攻击。此外,研究人员还发现了一个影响Linux系统上Docker的拒绝服务(DoS)漏洞。
利用这些漏洞可能使攻击者访问敏感主机数据,或通过耗尽主机资源造成重大运营中断。成功利用可能导致未经授权访问敏感主机数据、窃取专有AI模型或知识产权、严重的运营中断以及由于资源耗尽或系统不可访问导致的长时间停机。
使用NVIDIA容器工具包或Docker的AI、云或容器化环境组织直接受到影响,特别是那些使用默认配置或特定工具包功能的公司。部署AI工作负载或基于Docker的容器基础设施的企业可能面临风险。
趋势Vision One™提供了对可能利用该漏洞的攻击的可见性和检测能力。有关其他最佳实践和详细建议,请参阅下面提供的缓解指南。
漏洞详情
2024年9月,NVIDIA发布了多个更新来解决其NVIDIA容器工具包中的一个关键漏洞(CVE-2024-0132)。如果被利用,此漏洞可能暴露AI基础设施、数据或敏感信息。该漏洞的CVSS v3.1评分为9.0,所有客户被建议立即更新受影响的软件。
然而,进一步的研究发现该补丁并不完整。在2024年10月分析补丁时,我们发现了影响Linux上Docker的相关性能缺陷。这些问题可能使攻击者逃脱容器隔离,访问敏感主机资源,并导致严重的运营中断。
对CVE-2024-0132的分析发现了一个可能导致拒绝服务的问题 NVIDIA容器工具包中存在一个时间检查时间使用(TOCTOU)漏洞,该漏洞允许特制容器访问主机文件系统。对于1.17.3及更早版本,默认配置仍然容易受到攻击,而版本1.17.4需要明确启用allow-cuda-compat-libs-from-container功能。
此漏洞是在审查CVE-2024-0132补丁时发现的,并已在ZDI-25-087下披露。
| 产品 | 受影响版本 |
|---|---|
| nvidia_container_toolkit | • 1.17.3及更早版本 • 1.17.4需要启用功能 |
表1. 虽然早期版本的NVIDIA容器工具包容易受到攻击,但版本1.17.4需要启用功能才能被利用。
还有一个性能问题可能导致主机机器上的拒绝服务(DoS)漏洞。此问题影响Linux系统上的Docker。根据Docker安全团队的说法:
图1. 问题转达给Docker安全团队后的回应
Docker API作为特权接口。因此,任何具有API访问权限的用户实际上都拥有主机上的root级权限。目前尚不清楚此问题是否源自Docker的运行时或Linux内核处理挂载条目的方式。
拒绝服务绑定问题的利用方式
同样的性能问题也由moby和NVIDIA独立报告:
当使用(bind-propagation=shared)配置多个挂载创建新容器时,会建立多个父/子路径。但是,在容器终止后,相关的条目不会从Linux挂载表中删除。
这导致挂载表快速且无法控制地增长,耗尽可用的文件描述符(fd)。最终,由于fd耗尽,Docker无法创建新容器。
过大的挂载表导致严重的性能问题,阻止用户连接到主机(例如通过SSH)。
图2. 显示DoS问题的概念验证(PoC)
图3. 显示结果的截图——不再创建容器(顶部);CPU利用率异常增加(中部);由于性能问题用户无法连接主机机器(底部)
CVE-2025-23359的潜在利用示例
以下步骤概述了潜在攻击可能如何展开:
- 攻击者创建两个通过卷符号链接相互连接的恶意容器镜像
- 攻击者在受害者平台上运行这些镜像,直接或间接地(例如通过供应链和社会工程攻击)
- 这使得攻击者能够通过竞争条件获得对主机文件系统的访问权限
- 通过此访问权限,攻击者可以随后访问容器运行时Unix套接字,以root权限执行任意命令,即获得对受损系统的完全远程控制
缓解漏洞的安全最佳实践
为了有效缓解与NVIDIA容器工具包相关的漏洞(CVE-2024-0132和相关的Docker文件系统绑定问题),我们建议以下最佳实践:
- 限制Docker API访问和权限:仅限授权人员访问API。避免授予不必要的root级权限或权限升级,以最小化潜在暴露
- 禁用非必要功能:为减少攻击面,除非操作需要,否则明确禁用NVIDIA容器工具包1.17.4中引入的可选功能
- 实施容器镜像准入控制:在CI/CD管道中强制执行强大的准入控制策略。在部署到生产环境之前自动扫描和阻止被识别为易受攻击的容器镜像
- 监控Linux挂载表:定期检查Linux挂载表是否有异常增长,因为条目的快速增加可能表明存在主动利用尝试或DoS攻击准备
- 定期审计容器到主机的交互:定期审计容器到主机文件系统绑定、卷挂载和套接字连接。将这些交互严格限制在基本用例,应用强大的隔离策略以最小化风险
- 部署运行时异常检测:实施能够识别指示利用的异常行为的运行时监控工具,例如未经授权的主机文件系统绑定或不寻常的容器活动
- 进行补丁验证:立即验证所有应用的安全补丁。鉴于之前的不完整解决方案,补丁后的彻底验证对于确认有效的漏洞缓解至关重要
趋势Vision One™的主动安全
趋势Vision One™是唯一一个集中网络风险暴露管理、安全运营和强大分层保护的AI驱动企业网络安全平台。这种全面方法帮助您预测和预防威胁,加速整个数字资产的主动安全结果。凭借数十年的网络安全领导地位和行业首个主动网络安全AI——趋势Cybertron的支持,它提供了经过验证的结果:勒索软件风险降低92%,检测时间减少99%。安全领导者可以基准测试其安全状况并向利益相关者展示持续改进。借助趋势Vision One,您能够消除安全盲点,专注于最重要的事情,并将安全提升为创新的战略合作伙伴。
趋势Vision One通过以下方式提供保护和检测能力:
- 观察到的攻击技术(OAT):XSAE.F8306
- Docker根文件系统绑定和XSAE.F11714
- 通过docker.sock工作负载行为(WB)的Docker根文件系统绑定:
- 通过根文件系统绑定的可疑容器创建
- Docker根文件系统绑定
- 通过套接字进行根文件系统绑定的可疑容器创建
趋势科技还在趋势Vision One执行仪表板中添加了时间关键漏洞警报,该警报将随着预防和检测相关信息的可用性不断更新。
图4. 趋势Vision One OATS对漏洞的触发
图5. 趋势Vision One WB对漏洞的检测规则
图6. 趋势Vision One执行仪表板中的漏洞警报(顶部)以及在趋势Vision One容器安全中的显示方式(底部)
快速修补仍然是最有效的缓解措施,但在复杂或关键的生产环境中可能并不总是可行。趋势Vision One™云工作负载安全提供了必要的可见性和检测能力,例如检测主机文件系统绑定到容器和运行逃逸到主机文件系统的恶意容器。
此外,趋势Vision One™容器安全主动识别容器镜像中的漏洞、恶意软件和合规违规。对CVE-2024-0132及其失败补丁中新发现漏洞的检测能力已经可用,并直接集成到趋势Vision One™网络风险暴露管理中。
由于攻击者可以创建带有漏洞利用的恶意镜像,趋势的解决方案可以帮助在镜像推送到生产环境之前在管道中检测此漏洞。这样,如果检测到漏洞,容器安全(准入控制策略执行)可以阻止容器镜像部署到生产环境中。我们还在运行时检测此漏洞,确保客户在整个环境中对此安全问题具有完全的可见性。