大语言模型如何被攻破

通俗地说，人工智能已不再是边缘技术。它已成为现代业务的核心组成部分，从客服聊天机器人到复杂的数据分析。我们通常将这项技术核心的大型语言模型视为可信的黑匣子。但像任何软件一样，它们可能被篡改、操纵并转而攻击其创建者。了解AI模型可能被攻破的方式是构建安全弹性AI基础设施的第一步。

我将介绍三种主要方式，解释AI模型如何被攻破并使其以不可预测（或恶意！）的方式行事：

在模型文件中嵌入恶意可执行指令
使用投毒数据重新训练模型
使用“适配器”操纵模型行为

供应链攻击：特洛伊木马

AI社区依靠协作蓬勃发展，Hugging Face等平台使得下载和基于强大预训练模型进行构建变得容易。然而，这种开放生态系统创造了重要的新攻击面。对手不需要从头构建恶意模型；他们只需要诱骗您使用其受感染的版本。

模型文件中的有效载荷

要理解此威胁，了解AI模型文件实际是什么会有所帮助。它不仅仅是代码；它是一个数据文件，包含模型的“大脑”——由数百万个数字（您可能听说过它们被称为“参数”或“权重”）组成的复杂网络，组织成称为张量的结构。为了保存和共享这个“大脑”，必须通过称为序列化的过程将其打包成单个文件。当另一台计算机使用模型时，它会解包（反序列化）。可以把它想象成被压缩或变成批处理文件。

危险在于这种打包方式。像Python的pickle这样的旧格式不仅设计用于打包数据，还包括可执行指令。这种灵活性造成了巨大的安全漏洞。恶意行为者可以在模型文件中隐藏有害代码。当毫无戒心的用户加载模型时，他们的计算机不仅“解包”AI的大脑，还包括隐藏的指令，这些指令可能是从“窃取所有密码”到“安装勒索软件”的任何内容——这是数字等效的特洛伊木马。这就是为什么在加载pickle张量文件时应该始终保持警惕的一个充分理由。

虽然已经开发了像safetensors这样的更安全格式来减轻这种特定风险，但受感染模型文件的危险仍然是一个基本关切。

恶意适配器：LoRA威胁

为了使模型更加通用，开发人员通常需要针对特定任务调整其行为。旧方法是重新训练整个模型，这就像从头开始重建专业相机——极其昂贵且耗时。一种更新、更有效的方法是低秩适应或LoRA。

将基础AI模型视为高端数码相机。相机本身是复杂、强大的设备。LoRA文件就像在相机镜头上添加特殊滤镜。相机的核心机制保持不变，但通过添加小型轻量级滤镜，您可以立即改变其捕获图像的方式——偏光滤镜可以使天空看起来更戏剧化，或者柔焦滤镜可用于肖像。与相机相比，滤镜微小且廉价，您可以轻松更换为另一个。LoRA适配器对AI执行相同的操作，用通常小于原始模型大小1%的文件改变其输出。

这产生了新的供应链问题。恶意行为者可以分发看似良性且有用的LoRA（镜头滤镜），承诺以某种方式增强模型的能力，但当应用于可信的基础模型（相机）时，会注入隐藏后门、引入危险偏见或创建数据泄露触发器。传统安全检查在这里无用，因为基础模型保持不变且看起来完全安全。LoRA声称的“好处”可能确实存在——与有害部分一起搭载。只有在应用小型、容易被忽视的适配器时，该恶意逻辑才会激活。检测这些未经授权的修改需要新的专用工具，可以分析模型的结构和配置以查找篡改的迹象。

数据投毒：腐蚀真相来源

AI模型是其训练数据的反映。如果攻击者可以操纵该数据，他们可以以极其难以检测的方式从根本上扭曲模型的行为。

后门攻击

在后门攻击中，对手注入少量包含特定触发器的投毒数据。模型学会将此触发器与恶意操作相关联。例如：

用于访问控制系统的图像识别模型可能被投毒，包含随机个体的图像，所有这些图像都包含特定的、几乎不可见的水印。模型学会任何带有此水印的人都应被授予访问权限。
语言模型可能被后门，以在遇到特定的、不寻常的短语时产生有害内容或泄露机密信息。

模型在所有其他情况下表现正常，使得后门休眠且通过标准测试几乎不可能找到。只有在呈现秘密触发器时它才会激活。

直接模型妥协：未经授权的重新训练

这种方法比使用适配器更蛮力。如果攻击者获得对您训练模型的访问权限，他们可以通过直接更改模型文件的核心权重，故意重新训练或微调它以用于自己的目的。

例如，攻击者可以获取客户服务聊天机器人并重新训练它以微妙地将客户引导至竞争对手产品或网络钓鱼敏感财务信息。由于重新训练的模型是原始模型的直接演变，其行为乍一看可能显得合理，使得操纵难以发现，直到造成重大损害。这凸显了对训练模型工件实施严格访问控制和完整性监控的重要性，例如检查文件的哈希值以检测未经授权的更改。

结论：迈向安全AI生命周期

AI模型中的漏洞不是理论上的；它们是活跃且不断演变的威胁。从隐藏在模型文件中的恶意代码到由投毒数据创建的微妙后门，攻击面广泛且需要多方面的防御。

理解这些攻击之间的差异是关键。嵌入式张量文件有效载荷和未经授权的重新训练都涉及对核心模型文件的直接篡改。如果存在可信基线，这使得它们可以通过文件完整性监控（如检查文件的哈希值）检测到。然而，两者都可以在不对应用程序代码进行任何更改的情况下部署，在文件加载时执行其恶意逻辑。相比之下，从文件检查的角度来看，LoRA攻击更隐蔽，因为它使基础模型保持不变，使文件哈希检查无用。权衡是它通常需要在应用程序中进行可见的代码更改以加载恶意适配器，提供不同类型的审计跟踪。

保护AI供应链不再是可选的。组织必须超越基于来源信任模型，并采用“先验证，后信任”的方法。这包括：

静态分析：扫描模型文件和配置以查找篡改迹象或存在意外适配器。
数据完整性：实施严格的数据验证和清理管道以防御投毒攻击。
访问控制和监控：将训练模型视为关键知识产权，具有严格的访问控制和持续监控以检测未经授权的更改或异常行为。

为确保AI的安全和负责任使用，关键是以与传统网络安全相同的严谨和纪律对待AI安全。