自适应提示注入挑战赛(LLMail-Inject)的发布
LLMail-Inject是一个模拟真实LLM集成邮件客户端的新挑战,专注于评估最先进的提示注入防御。参与者扮演攻击者角色向用户发送邮件,用户通过向LLMail服务提问(如“总结项目X的最新邮件”)触发模拟邮件数据库检索。攻击者邮件是否被包含取决于场景设计,而LLMail服务内置了多种工具。攻击者的目标是操纵LLM执行挑战设计中定义的特定工具调用,绕过提示注入防御。挑战包含多个场景,攻击者需在特定条件下从客户端获取邮件。得分最高的团队将获得总计1万美元的奖金。
该挑战在模拟环境中进行,成果不纳入Microsoft的Zero Day Quest计划。但由于环境接近真实,开发的提示注入技术可能适用于实际系统。建议参与者将所学应用于Zero Day Quest。
提示注入攻击(PIA)是什么?
针对大语言模型(LLM)的提示注入攻击中,攻击者创建旨在以意外方式操纵模型行为的输入(提示)。此类攻击利用模型遵循文本输入中嵌入指令的特性。攻击者通过输入数据嵌入潜在恶意指令,旨在绕过模型功能以执行非法命令、泄露敏感信息或操纵输出。理解和防御提示注入攻击对维护LLM系统的安全性和可靠性至关重要。
PIA如何工作?
提示注入攻击通过利用LLM的固有设计发挥作用。LLM被设计为遵循指令并根据接收的输入生成上下文合适且一致的响应。攻击者创建包含命令的输入,模型将其解释为响应生成过程的一部分并执行。这些命令可通过多种方式嵌入,包括简单指示、巧妙表述的问题、语句或模型未识别为插入指令的代码片段。例如,攻击者可能在看似无害的邮件消息中插入命令,诱导模型执行如非法数据访问或特定功能运行等操作。攻击成功依赖于模型缺乏输入嵌入指令的合法性上下文,因此开发者需实现检测和缓解此类操作输入的强大防御与验证机制。
LLMail-Inject的挑战场景和级别如何?
LLMail-Inject挑战基于检索设置和攻击者目标组成多个场景,总计40个级别。每个级别是检索增强生成(RAG)配置、LLM(GPT-4o mini或Phi-3-medium-128k-instruct)及特定防御机制的独特组合。LLMail-Inject的每个级别和场景旨在测试LLM抵抗快速注入攻击能力的各个方面,强调强大防御机制的重要性。
LLMail-Inject包含哪些防御?
提示注入攻击相对较新,但研究者已提出缓解影响的防御措施。LLMail-Inject挑战内置多种最先进防御,测试LLM对快速注入攻击的鲁棒性。包括:
- Spotlighting [1]:通过添加特殊分隔符、数据编码(如base64)或数据中每个令牌标记特殊先行令牌等方法,“标记”提供给LLM的数据而非指令,实施预防性防御。
- PromptShield [2]:设计用于检测提示注入的黑盒分类器,识别并缓解恶意提示。
- LLM-as-a-judge:此防御使用LLM评估提示以检测攻击,而非依赖训练分类。
- TaskTracker [3]:此防御基于分析模型内部状态检测任务漂移,在用户首次向LLM显示提示时和LLM处理外部数据时再次提取激活,然后对比这些激活集通过激活增量上的线性探针检测漂移。
- 所有组合:多个防御叠加的挑战变体,攻击需在单个提示中同时绕过所有防御。
如何参加?
参加LLMail-Inject挑战,请遵循以下步骤访问官方网站:
- 使用GitHub账户登录并创建团队。
- 开始游戏!可通过网站UI或竞赛API以编程方式提交。
- 使用API进行程序化提交时:
- 网站提供API文档,API密钥已添加到示例Python客户端。
- API密钥也可在用户配置文件页面查看。
- 为所有参与者提供良好体验,设有速率限制。网站提供如何设置环境和提交条目等入门信息。速率设置使参与者无论经验水平或偏好交互方式均可轻松参与贡献。
评分、获奖者和奖励
竞赛于2024年12月9日11:00(UTC)开始,2025年1月20日23:59(UTC)结束。此期间称为“条目期”。若上述结束日前至少4个团队未解决10%以上级别,可能延长挑战。请查看LLMail-Inject更新日程。
整个活动期间,最新积分榜与详细分数显示在此网站。挑战总奖金1万美元,分配如下:
- 第一名团队:4000美元
- 第二名团队:3000美元
- 第三名团队:2000美元
- 第四名团队:1000美元
获胜团队将在IEEE安全与可信机器学习会议(SaTML)2025与主办方共同展示。
参考
[1] Keegan Hines等人。《使用Spotlighting防御间接提示注入攻击》
[2] Azure AI宣布针对越狱和间接提示注入攻击的Prompt Shields
[3] Sahar Abdelnabi等人。《仍在轨道上!?用激活捕捉LLM任务漂移》
此挑战由以下人员赞助:
Aideen Fay*、Sahar Abdelnabi*、Benjamin Pannell*、Giovanni Cherubin*、Ahmed Salem、Andrew Paverd、Conor Mac Amhlaoibh、Joshua Rakita、Santiago Zanella-Beguelin、Egor Zverev、Mark Russinovich和Javier Rando
(*:主要主办者)