宣布自适应提示注入挑战赛(LLMail-Inject)
我们很高兴推出LLMail-Inject——一个专注于在模拟LLM集成电子邮件客户端中评估最先进提示注入防御技术的新挑战。参赛者将扮演攻击者角色,向用户发送电子邮件。用户随后通过LLMail服务查询问题(例如“请总结关于X项目的最新邮件”),这将触发从模拟邮件数据库中检索相关邮件。攻击者邮件的检索结果会根据场景而变化。LLMail服务配备多种工具,攻击者的目标是操纵LLM执行挑战设计定义的特定工具调用,同时绕过现有的提示注入防御措施。挑战包含多个场景,要求攻击者确保其邮件在特定条件下被客户端检索。得分最高的团队将分享总额1万美元的奖金。
由于本挑战在模拟环境中进行,提交内容不会纳入微软“零日探索”计划。但鉴于环境高度仿真,开发的提示注入技术可能适用于真实系统。我们鼓励参赛者将所学应用于实际并参与“零日探索”计划!
什么是提示注入攻击(PIA)?
在大语言模型(LLM)的提示注入攻击中,攻击者精心构造特定输入(提示),以非预期方式操纵模型行为。此类攻击利用模型遵循文本输入中嵌入指令的能力。通过将可能恶意的指令嵌入输入数据,攻击者旨在绕过模型的预期功能,通常用于执行未授权命令、泄露敏感信息或操纵输出。理解和防御提示注入攻击对于维护基于LLM系统的安全性和可靠性至关重要。
PIA如何运作?
提示注入攻击通过利用LLM的固有设计实现:这些模型被训练为遵循指令并根据接收的输入生成连贯且上下文合适的响应。攻击者构造包含注入命令的输入,模型随后在响应生成过程中解释并执行这些命令。这些命令可通过多种方式嵌入,例如直接指令、巧妙措辞的问题、陈述或代码片段,模型在处理时无法识别其为注入指令。例如,攻击者可能在看似无害的邮件中插入命令,诱使模型执行如未授权数据访问或特定功能操作等行为。此类攻击的成功关键在于模型缺乏对输入中指令合法性的上下文判断,因此开发者必须实施强大的防御和验证机制来检测和缓解此类恶意输入。
LLMail-Inject包含哪些挑战场景和层级?
LLMail-Inject挑战根据检索配置和攻击者目标构建多种场景,共包含40个层级。每个层级是检索增强生成(RAG)配置、LLM模型(GPT-4o mini或Phi-3-medium-128k-instruct)及特定防御机制的唯一组合。每个层级和场景测试LLM抵御提示注入攻击的不同方面,旨在强调强大防御机制的重要性。
LLMail-Inject包含哪些防御措施?
尽管提示注入攻击相对较新,研究人员已提出多种防御措施来减轻其影响。LLMail-Inject挑战集成多种最先进防御技术以测试LLM的鲁棒性,包括:
- Spotlighting [1]:一种预防性防御技术,通过添加特殊分隔符、数据编码(如base64)或为每个数据标记添加特殊前缀标记来“标记”提供给LLM的数据(而非指令)。
- PromptShield [2]:黑盒分类器,旨在检测提示注入并确保恶意提示被识别和缓解。
- LLM-as-a-judge:使用LLM评估提示以检测攻击,而非依赖训练好的分类器。
- TaskTracker [3]:基于分析模型内部状态以检测任务漂移,该防御在用户首次提示LLM时提取激活值,并在LLM处理外部数据时再次提取,通过线性探针对比激活值差异来检测漂移。
- 组合防御:挑战中的变体,将多种防御机制堆叠,要求攻击通过单一提示同时规避所有防御。
如何参与?
参与LLMail-Inject挑战请遵循以下说明并访问官方网站LLMail-Inject:
- 使用GitHub账号登录创建团队。
- 开始挑战!可通过网站UI或竞赛API以编程方式提交。
- 若使用API进行编程提交:
- 网站提供API文档,示例Python客户端中已注入API密钥。
- API密钥也可在用户资料页面获取。
- 我们设置了速率限制以确保所有参赛者的体验。网站还提供完整的入门信息,包括环境配置和提交方法。该设置确保参赛者无论经验水平或偏好交互方式均可轻松参与。
评分、优胜者与奖项
竞赛于2024年12月9日UTC时间上午11:00开始,2025年1月20日UTC时间上午11:59结束(“参赛期”)。若截至上述结束日期至少有10%的层级未被四个(4)以上团队破解,我们可能延长挑战。请访问LLMail-Inject查看赛程更新。
活动期间将显示实时积分榜(含评分细节)。挑战总奖金池为1万美元,分配如下:
- 第一名团队:4,000美元
- 第二名团队:3,000美元
- 第三名团队:2,000美元
- 第四名团队:1,000美元
优胜团队将受邀与组织者在2025年IEEE安全可信机器学习会议(SaTML)上联合发表成果。
参考文献
[1] Keegan Hines等,《使用Spotlighting防御间接提示注入攻击》
[2] Azure AI宣布针对越狱和间接提示注入攻击的Prompt Shields
[3] Sahar Abdelnabi等,《仍在轨道上!?通过激活值捕捉LLM任务漂移》
本挑战由Aideen Fay*、Sahar Abdelnabi*、Benjamin Pannell*、Giovanni Cherubin*、Ahmed Salem、Andrew Paverd、Conor Mac Amhlaoibh、Joshua Rakita、Santiago Zanella-Beguelin、Egor Zverev、Mark Russinovich和Javier Rando联合组织(*为核心贡献者)。