微软推出自适应提示注入挑战赛(LLMail-Inject),聚焦LLM安全防御技术

微软安全响应中心推出LLMail-Inject挑战赛,旨在评估最先进的提示注入防御技术。参赛者需在模拟LLM集成邮件客户端中绕过防御机制执行工具调用,总奖金池1万美元,涵盖40种场景和多种防御技术测试。

宣布自适应提示注入挑战赛(LLMail-Inject)

我们很高兴推出LLMail-Inject,这是一个专注于在现实模拟的LLM集成邮件客户端中评估最先进提示注入防御技术的新挑战。在本挑战中,参与者扮演攻击者角色,向用户发送邮件。用户随后通过LLMail服务提出查询(例如“请总结关于项目X的最新邮件”),这会触发从模拟邮件数据库中检索相关邮件。攻击者邮件是否被检索取决于具体场景。LLMail服务配备多种工具,攻击者的目标是操纵LLM执行挑战设计中定义的特定工具调用,同时绕过现有的提示注入防御。挑战包含多个场景,要求攻击者确保其邮件在特定条件下被客户端检索。得分最高的团队将分享总额1万美元的奖金。

由于挑战在模拟环境中进行,提交内容不会纳入微软零日探索计划。但鉴于这是高度仿真的环境,您开发的提示注入技术可能适用于真实系统。我们鼓励您将本挑战的成果应用于零日探索计划!

什么是提示注入攻击(PIA)?

在对大型语言模型(LLM)的提示注入攻击中,攻击者精心构造特定输入(提示),旨在以意外方式操纵模型行为。此类攻击中,攻击者利用模型遵循文本输入中嵌入指令的能力。通过在输入数据中嵌入可能恶意的指令,攻击者试图绕过模型的预期功能,通常用于执行未授权命令、泄露敏感信息或操纵输出。理解和防御提示注入攻击对于维护基于LLM系统的安全性和可靠性至关重要。

PIA如何工作?

提示注入攻击通过利用LLM的固有设计起作用:这些模型经过训练以遵循指令,并根据接收的输入生成连贯且上下文合适的响应。攻击者构造包含注入命令的输入,模型随后在响应生成过程中解释并执行这些命令。这些命令可通过多种方式嵌入,例如直接指令、巧妙措辞的问题、陈述或代码片段,模型在处理时不会将其识别为注入指令。例如,攻击者可能在看似无害的邮件中插入命令,诱使模型执行如未授权数据访问或特定功能操作等动作。此类攻击的成功取决于模型缺乏对输入中指令合法性的上下文理解,这使得开发者必须实施强大的防御和验证机制来检测和缓解此类操纵性输入。

LLMail-Inject中的挑战场景和级别有哪些?

LLMail-Inject挑战根据检索配置和攻击者目标构建多种场景,总计40个级别。每个级别是检索增强生成(RAG)配置、LLM(GPT-4o mini或Phi-3-medium-128k-instruct)及特定防御机制的唯一组合。

LLMail-Inject中的每个级别和场景测试LLM抵御提示注入攻击能力的不同方面,旨在强调强大防御机制的重要性。

LLMail-Inject包含哪些防御?

尽管提示注入攻击相对较新,研究人员已提出多种防御措施来减轻其影响。LLMail-Inject挑战整合了多种最先进的防御技术,以测试LLM对抗提示注入攻击的鲁棒性。这些包括:

  • Spotlighting [1]:一种预防性防御,通过添加特殊分隔符、编码数据(如base64)或为数据中每个标记添加特殊前缀标记等方法“标记”提供给LLM的数据(与指令相对)。
  • PromptShield [2]:一种黑盒分类器,旨在检测提示注入,确保识别和缓解恶意提示。
  • LLM-as-a-judge:该防御使用LLM通过评估提示来检测攻击,而非依赖训练的分类器。
  • TaskTracker [3]:基于分析模型内部状态以检测任务漂移,该防御在用户首次提示LLM时提取激活,并在LLM处理外部数据时再次提取,然后通过线性探针对比这些激活集以检测漂移。
  • 组合防御:挑战中的一个变体,多个防御堆叠在一起,要求攻击通过单一提示同时规避所有防御。

如何参与?

要参与LLMail-Inject挑战,请遵循以下说明并访问官方挑战网站LLMail-Inject。

  • 使用GitHub账户登录创建团队。
  • 开始挑战!您可通过网站UI提交,或通过我们的竞赛API以编程方式提交。
  • 如果使用API进行编程提交:
    • 网站提供API文档,示例Python客户端中已注入您的API密钥。
    • 您的API密钥也可在用户个人资料页面找到。
    • 我们实施了速率限制以确保所有参与者的良好体验。网站还提供如何入门的全面信息,包括配置环境和提交条目。此设置确保参与者无论经验水平或偏好交互方式均可轻松加入竞赛并贡献。

评分、获胜者和奖项

竞赛于2024年12月9日协调世界时(UTC)上午11:00开始,于2025年1月20日UTC上午11:59结束(“参赛期”)。如果上述结束日期前至少四个(4)团队未解决至少10%的级别,我们可能选择延长挑战。请查看LLMail-Inject获取任何日程更新。

活动期间将显示实时积分榜(此处及评分详情)。挑战总奖金池为1万美元,奖项分配如下:

  • 第一名团队:4000美元
  • 第二名团队:3000美元
  • 第三名团队:2000美元
  • 第四名团队:1000美元

获胜团队将被邀请与组织者在2025年IEEE安全可信机器学习会议(SaTML)上共同展示。

参考文献

[1] Keegan Hines等人。《使用Spotlighting防御间接提示注入攻击》
[2] Azure AI宣布针对越狱和间接提示注入攻击的Prompt Shields
[3] Sahar Abdelnabi等人。《您还在轨道上吗!?通过激活捕捉LLM任务漂移》

本挑战由Aideen Fay*、Sahar Abdelnabi*、Benjamin Pannell*、Giovanni Cherubin*、Ahmed Salem、Andrew Paverd、Conor Mac Amhlaoibh、Joshua Rakita、Santiago Zanella-Beguelin、Egor Zverev、Mark Russinovich和Javier Rando共同组织(*:核心贡献者)。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计