自适应提示注入挑战赛（LLMail-Inject）的发布

LLMail-Inject是一个模拟真实LLM集成邮件客户端的新挑战，专注于评估最先进的提示注入防御。参与者扮演攻击者角色向用户发送邮件，用户通过向LLMail服务提问（如“总结项目X的最新邮件”）触发模拟邮件数据库检索。攻击者邮件是否被包含取决于场景设计，而LLMail服务内置了多种工具。攻击者的目标是操纵LLM执行挑战设计中定义的特定工具调用，绕过提示注入防御。挑战包含多个场景，攻击者需在特定条件下从客户端获取邮件。得分最高的团队将获得总计1万美元的奖金。

该挑战在模拟环境中进行，成果不纳入Microsoft的Zero Day Quest计划。但由于环境接近真实，开发的提示注入技术可能适用于实际系统。建议参与者将所学应用于Zero Day Quest。

提示注入攻击（PIA）是什么？

针对大语言模型（LLM）的提示注入攻击中，攻击者创建旨在以意外方式操纵模型行为的输入（提示）。此类攻击利用模型遵循文本输入中嵌入指令的特性。攻击者通过输入数据嵌入潜在恶意指令，旨在绕过模型功能以执行非法命令、泄露敏感信息或操纵输出。理解和防御提示注入攻击对维护LLM系统的安全性和可靠性至关重要。

PIA如何工作？

提示注入攻击通过利用LLM的固有设计发挥作用。LLM被设计为遵循指令并根据接收的输入生成上下文合适且一致的响应。攻击者创建包含命令的输入，模型将其解释为响应生成过程的一部分并执行。这些命令可通过多种方式嵌入，包括简单指示、巧妙表述的问题、语句或模型未识别为插入指令的代码片段。例如，攻击者可能在看似无害的邮件消息中插入命令，诱导模型执行如非法数据访问或特定功能运行等操作。攻击成功依赖于模型缺乏输入嵌入指令的合法性上下文，因此开发者需实现检测和缓解此类操作输入的强大防御与验证机制。

LLMail-Inject的挑战场景和级别如何？

LLMail-Inject挑战基于检索设置和攻击者目标组成多个场景，总计40个级别。每个级别是检索增强生成（RAG）配置、LLM（GPT-4o mini或Phi-3-medium-128k-instruct）及特定防御机制的独特组合。LLMail-Inject的每个级别和场景旨在测试LLM抵抗快速注入攻击能力的各个方面，强调强大防御机制的重要性。

LLMail-Inject包含哪些防御？

提示注入攻击相对较新，但研究者已提出缓解影响的防御措施。LLMail-Inject挑战内置多种最先进防御，测试LLM对快速注入攻击的鲁棒性。包括：

Spotlighting [1]：通过添加特殊分隔符、数据编码（如base64）或数据中每个令牌标记特殊先行令牌等方法，“标记”提供给LLM的数据而非指令，实施预防性防御。
PromptShield [2]：设计用于检测提示注入的黑盒分类器，识别并缓解恶意提示。
LLM-as-a-judge：此防御使用LLM评估提示以检测攻击，而非依赖训练分类。
TaskTracker [3]：此防御基于分析模型内部状态检测任务漂移，在用户首次向LLM显示提示时和LLM处理外部数据时再次提取激活，然后对比这些激活集通过激活增量上的线性探针检测漂移。
所有组合：多个防御叠加的挑战变体，攻击需在单个提示中同时绕过所有防御。

如何参加？

参加LLMail-Inject挑战，请遵循以下步骤访问官方网站：

使用GitHub账户登录并创建团队。
开始游戏！可通过网站UI或竞赛API以编程方式提交。
使用API进行程序化提交时：
- 网站提供API文档，API密钥已添加到示例Python客户端。
- API密钥也可在用户配置文件页面查看。
为所有参与者提供良好体验，设有速率限制。网站提供如何设置环境和提交条目等入门信息。速率设置使参与者无论经验水平或偏好交互方式均可轻松参与贡献。

评分、获奖者和奖励

竞赛于2024年12月9日11:00（UTC）开始，2025年1月20日23:59（UTC）结束。此期间称为“条目期”。若上述结束日前至少4个团队未解决10%以上级别，可能延长挑战。请查看LLMail-Inject更新日程。

整个活动期间，最新积分榜与详细分数显示在此网站。挑战总奖金1万美元，分配如下：

第一名团队：4000美元
第二名团队：3000美元
第三名团队：2000美元
第四名团队：1000美元

获胜团队将在IEEE安全与可信机器学习会议（SaTML）2025与主办方共同展示。

参考

[1] Keegan Hines等人。《使用Spotlighting防御间接提示注入攻击》
[2] Azure AI宣布针对越狱和间接提示注入攻击的Prompt Shields
[3] Sahar Abdelnabi等人。《仍在轨道上！？用激活捕捉LLM任务漂移》

此挑战由以下人员赞助：
Aideen Fay*、Sahar Abdelnabi*、Benjamin Pannell*、Giovanni Cherubin*、Ahmed Salem、Andrew Paverd、Conor Mac Amhlaoibh、Joshua Rakita、Santiago Zanella-Beguelin、Egor Zverev、Mark Russinovich和Javier Rando
（*：主要主办者）

自适应提示注入挑战赛（LLMail-Inject）：突破LLM防御的实战演练

微软安全响应中心推出LLMail-Inject挑战赛，模拟真实LLM集成邮件客户端环境，测试参与者绕过先进提示注入防御的能力，总奖金1万美元，涉及40个不同防御场景的技术对抗。