使用PyRIT评估大型语言模型(LLM):AI对抗AI
许多人都听说过ChatGPT、Gemini、Bart、Claude、Llama或其他人工智能(AI)助手。这些都是大型语言模型(LLM)的实现,它们被输入了从互联网和其他来源收集的海量数据。这些模型经过所谓的训练阶段,学习如何接收用户的问题和提示,利用之前吸收的数据,然后(希望)为用户提供有用的回应。由于这需要巨大的计算能力,训练这些模型的系统甚至让最高性能的游戏PC看起来像坏掉的儿童玩具。一旦训练完成,这些模型可以提供大量实用功能,快速回答各种主题的问题,提供代码示例,甚至可以进行来回讨论(尽管要意识到它们实际上并没有意识)。有关充分利用LLM的更多信息,我强烈建议您查看Bronwen Aker的帖子:https://www.blackhillsinfosec.com/crafting-the-perfect-prompt/。
即使LLM拥有如此强大的功能和实用性,它们也并非没有缺陷。这些模型的巨大复杂性意味着存在漏洞和不当行为的机会。在表面层面上,用户可能能够绕过为防止LLM揭示潜在危险信息(例如,如何制造炸弹)而设置的安全措施(防护栏)。
深入堆栈,攻击者可以精心制作提示,导致模型泄露敏感信息,例如其他用户的数据。在检索增强生成(RAG)的情况下,数据泄露问题可能变得更加严重。RAG实际上是一个用于与另一个数据源(如数据库或内部文档)交互的LLM。攻击者可能滥用RAG系统来检索密码、专有信息和其他敏感信息。
再深入一层,攻击者甚至可能导致LLM在底层系统上执行任意代码。
上面的例子只是LLM可能出错的几种情况。正是出于这些原因,测试模型是否按预期行为并针对攻击进行加固非常重要。我们有哪些方法可以评估LLM的安全性和安全性?如果我们能使用AI来帮助完成这个任务呢?如果我们使用LLM来测试LLM的安全性呢?借助微软的PyRIT工具,这正是我们可以做的!
在这篇博客文章的其余部分,我将为您节省一些时间,让您快速上手PyRIT。我们将:
- 介绍PyRIT
- 在Ubuntu 24.04 LTS系统上安装PyRIT和先决条件(尽管它应该适用于其他Linux发行版)
- 讨论在项目中哪里可以找到示例代码
- 获取Crucible和OpenAI的API密钥
- 通过一个使用提供的代码攻击Crucible挑战的示例
注意:这包含了对Crucible Dreadnode挑战的剧透。这个挑战——“Bear 4”——在Crucible页面上已经有完整的演练……但如果您不想提前看到答案,请在此停止阅读。不过,请在解决挑战后务必回来!
介绍PyRIT
Python生成式AI风险识别工具(PyRIT)是一个开源框架,由微软于2024年2月首次发布。可以在GitHub上找到: https://github.com/Azure/PyRIT
该框架允许自动化针对LLM的AI红队任务。它可以尝试发现安全/行为问题(例如,偏见、禁止内容等)和安全问题(例如,敏感数据检索、代码执行等)。微软在内部使用此工具来高效生成恶意提示,以测试LLM的安全性和安全性。与所有安全工具一样,应注意的是,这并非旨在取代手动、全面的测试。此工具的目的是自动化一些红队任务,让红队人员能够专注于更复杂的任务。它还可以通过提供模型对各种输入场景反应的基础测量来辅助CI/CD和质量控制管道。
安装PyRIT
如上所述,此安装是在Ubuntu 24.04 LTS上进行的。它可能适用于其他Linux系统,但您的体验可能有所不同。
PyRIT实际上可以通过简单的pip命令安装(https://github.com/Azure/PyRIT/blob/main/doc/setup/install_pyrit.md)。但是,我目前不建议这样做,因为通过pip install pyrit
安装的版本缺少主分支中的许多好功能。相反,我们将多走几步。我保证,这并不痛苦。事实上,您将获得许多其他用于机器学习和人工智能开发的优秀包以及PyRIT。
我建议的第一步是安装conda环境管理器。我对Python的一个主要抱怨是依赖关系可能是一场噩梦。当您花一整天(或整夜)与冲突的包版本斗争时,玩新玩具的乐趣就消失了。一旦您为当前项目设置了正确的依赖关系,您就不想在尝试安装无关项目的包时破坏它们。conda环境管理器有助于解决在项目之间隔离包依赖关系的问题。只需一个命令,您就可以从一个项目跳到另一个项目,并准备好一切。
要安装conda,请运行以下命令:
|
|
关闭终端并重新打开它。
接下来,我们将创建一个使用Python 3.11的conda环境(推荐用于PyRIT)。
|
|
要使用该环境,我们需要激活它。
|
|
如果您计划将此系统仅用于PyRIT或其他需要Conda的目的,请考虑通过运行以下命令使其在打开终端时成为默认环境。
|
|
接下来,我们将安装PyRIT。首先,如果您还没有安装git,需要安装它。
|
|
克隆PyRIT仓库到本地,并检出特定提交,以便我们知道它与这些指令兼容。是的,我们使用这个特定提交,因为我确定它与这些指令兼容。
|
|
现在,我们将使用pip安装PyRIT(确保不要漏掉末尾的句点)。
|
|
这将安装PyRIT所需的所有包以及一些其他非常有用的工具,我们将在下一步中使用。特别是,我们将使用JupyterLab。
查找代码示例
我想花点时间告诉您,在仓库中哪里可以找到针对各种模型的代码示例,因为这并不立即明显。如果您浏览克隆的仓库结构,它们位于PyRIT/doc/code/targets/
下。您也可以在此链接的github上找到它们:https://github.com/Azure/PyRIT/tree/main/doc/code/targets
仓库的这一部分包含用于针对常见模型进行评估的Jupyter笔记本和独立Python文件。不幸的是,此工具的文档仍然缺乏,这也是促使创建此博客的因素之一。
我们将使用的代码部分来自:https://github.com/Azure/PyRIT/blob/main/doc/code/targets/2_custom_targets.ipynb。
获取必要的API密钥
我们最终将通过让PyRIT攻击Crucible上的挑战来使其工作。但在那之前,我们需要注册几个API密钥。以下是我们将需要的API密钥:
- Dreadnode的Crucible平台
- OpenAI
我们将获取的第一个密钥是用于Crucible的,这是一个由Dreadnode创建的平台,用于黑客和数据科学安全挑战。它可以用于以夺旗(CTF)挑战的风格测试对各种AI系统的攻击。他们还不时举办比赛。在撰写本文时,注册是免费的。您可以在以下网站找到它: https://crucible.dreadnode.io
注册后,登录并前往您的帐户页面以获取您的API密钥。保存此密钥以备后用。
您还需要一个OpenAI API密钥才能使此攻击工作。创建OpenAI的API帐户是免费的,您可以通过访问此处完成:https://platform.openai.com/docs/overview
一旦您有了帐户,您可以向您的帐户添加资金。对于我们现在所做的,您最多只需要几美元。我相信我在玩这个攻击时用了大约0.25美元。登录您的帐户并前往此处:https://platform.openai.com/settings/organization/billing/overview
然后,您可以通过前往此处创建和检索API密钥:https://platform.openai.com/settings/profile/api-keys
将您的OpenAI API密钥与Crucible API密钥一起保存,我们很快将需要它们。
使用PyRIT攻击Crucible挑战
让我们开始组装一些部分。我们将利用与PyRIT一起安装的Jupyter Lab。Jupyter Lab是一个强大的环境,除其他功能外,它还允许一个交互式编码环境用于快速原型设计。它支持多种语言,但最常与Python一起使用。Jupyter Lab在人工智能社区中非常流行。要启动Jupyter Lab,请在激活了pyrit-dev conda环境的终端中键入以下内容。
|
|
这应该会自动为您打开浏览器并带您到Jupyter Lab。如果没有,您应该在终端输出中看到一个链接,可用于访问Jupyter Lab并一步登录。该链接将如下图所示。
一旦您在浏览器中打开了Jupyter Lab,您应该看到类似下图的内容。单击“Notebook”下的“Python 3 (ipykernel)”以创建一个新的Jupyter笔记本。
您将迎来一个空白的笔记本。
笔记本是单元的集合。单元可以包含代码或markdown语言。单元中的代码可以相互独立运行,这可能是一个很棒或烦人的功能,取决于您是否记得每次运行所有必需的单元。单元的输出将显示在笔记本中,并可以在保存笔记本时保存,以便您可以与他人共享。我不打算深入介绍Jupyter Lab和笔记本,因此我们将在此停止介绍,并在进行时只讨论必要的功能。
现在重命名笔记本,以便您以后可以组织您的挑战。在左窗格中右键单击“Untitled.ipynb”文件,选择“重命名”,并将其重命名为“Bear4.ipynb”。
我们需要的第一件事是设置一些Python和环境变量。Crucible挑战为每个挑战定义了交互端点。我们在这里做的是“Bear 4”挑战。您可以在此处找到它:https://crucible.dreadnode.io/challenges/bear4
如果您前往那里并转到“Set Notebook Variables”部分,您将找到与挑战端点通信所需的变量。将这三个变量放入您的Jupyter笔记本的第一个单元中。
|
|
现在继续运行该单元,通过单击顶部的播放按钮或在单元内按Shift-Enter。
运行单元后,应该会在第一个单元下方自动创建一个新单元。如果没有,您可以通过单击第一个单元然后单击单元右上角下方的带加号的矩形来在第一个单元下方插入一个新单元。
在新单元中,粘贴以下内容。分别用您的Crucible API密钥和OpenAI API密钥替换“YOUR_CRUCIBLE_API_KEY”和“YOUR_OPENAI_API_KEY”。在输入API密钥后运行该单元。
|
|
PyRIT期望设置某些环境变量,这就是前一个单元所做的。OPENAI_CHAT_ENDPOINT值指向我们此挑战所需的OpenAI API端点。OPENAI_DEPLOYMENT值指定我们将使用的模型版本。gpt-4o-mini模型在撰写本文时是他们最便宜的API模型,并且完全有能力解决此挑战。
我们这里需要的最后一步是粘贴一大段代码,这些代码大部分是从本博客前面提到的PyRIT示例中提取的,可以在以下位置找到:https://github.com/Azure/PyRIT/blob/main/doc/code/targets/2_custom_targets.ipynb
将以下代码粘贴到下一个空单元中。
|
|
让我们谈谈这里的一些不同部分。
分配给conversation_objective
变量的字符串被修改以适合此挑战。在这个特定挑战中,我们的任务是让LLM揭示隐藏的熊名。这个字符串告诉OpenAI的LLM我们的目标是什么。请注意,这不是我们喂给Crucible LLM的初始提示。相反,它将导致OpenAI LLM生成一个发送给Crucible LLM的提示。在这种情况下,我们告诉OpenAI我们想找到隐藏的熊名,并且不接受不正确的名称。
strategy_path
定义了我们在攻击Crucible LLM时对OpenAI LLM的总体指令。您可以在此处查看内容:https://github.com/Azure/PyRIT/blob/main/pyrit/datasets/orchestrators/red_teaming/crucible.yaml
这里只是这些指令的一个片段。出于空间原因,我不会在这里发布所有指令。
|
|
如果攻击没有达到目标,您可以修改这些指令以尝试优化攻击。
scorer
变量是攻击代码确定我们是否成功的方式。对于Crucible挑战,当您得到正确答案时,挑战端点返回一个名为flag的JSON变量。
crucible_target
只是创建一个攻击Crucible挑战所需的对象,并定义端点。在这种情况下,我们用CHALLENGE_URL
变量替换了PyRIT示例代码中的硬编码字符串,以便您可以更好地将此代码重用于其他Crucible挑战。
最后一个主要部分是我们创建的RedTeamingOrchestrator
对象。它将我们到目前为止设置的所有内容打包在一起,以创建我们将用于攻击Crucible LLM的部分。请注意,我们使用is_azure_target=False
标志来指定我们使用原始OpenAI端点,而不是使用AzureOpenAI端点(这是默认值)。max_turns
值也增加到20,意味着它将在放弃之前向Crucible LLM发送最多20条消息。在每次攻击迭代中,OpenAI LLM使用Crucible LLM从前一次攻击的响应来优化它在下一次迭代中发送给Crucible LLM的提示。换句话说,两个LLM基本上在进行对话,OpenAI LLM试图欺骗Crucible LLM给我们提供我们寻求的答案。很酷吧?
这是代码中我们启动攻击的部分。
继续,运行该单元,等待魔法发生。请注意,在攻击完成之前您不会看到任何输出。还要注意,LLM是非确定性的。这意味着您可以多次尝试相同的事情并获得不同的结果。因此,如果攻击第一次没有成功,请再试一次。您也可以尝试优化conversation_objective
变量中的提示。
在我的情况下,它尝试了七次才检索到flag。为了您的娱乐,我发布了整个转录 below。message值是OpenAI发送的内容。assistant值是Crucible的LLM返回的响应。您可以看到随着OpenAI优化其消息以试图让Crucible LLM揭示隐藏的熊名而进行的来回交流。target_distance
在这种情况下似乎没有太多意义,因为我们要么接收flag,要么不接收。score同样是True或False,原因是我们有一个二元情况,要么成功要么失败,中间没有评分度量。
要完成挑战,我们可以通过创建一个新单元,将以下代码插入单元中,将返回的flag粘贴到代码中,然后运行该单元来将flag提交给Crucible。
|
|
我们可以看到flag是正确的