宣布自适应提示注入挑战赛(LLMail-Inject)优胜者
我们激动地宣布首届自适应提示注入挑战赛LLMail-Inject的优胜者!该挑战赛从2024年12月持续至2025年2月,并作为第三届IEEE安全可信机器学习会议(IEEE SaTML)的四大官方竞赛之一亮相。本次挑战赛的总体目标是推进针对间接提示注入攻击的最先进防御技术,并提高对这些新技术的认识。我们为研究人员提供了一个平台,使他们能够针对特定防御措施开发和测试新的间接提示注入攻击。从本次挑战赛中获取的数据将使我们和其他人能够评估现有防御措施,并开发新的、更先进的防御技术。
挑战赛概述
挑战赛模拟了一个环境,其中集成大语言模型(LLM)的邮件客户端LLMail服务可以阅读邮件并代表用户执行操作,包括发送邮件。
参与者扮演攻击者的角色,能够向(受害者)用户发送邮件。攻击者的目标是使用户的LLM执行用户未请求的特定操作。为实现此目标,攻击者必须精心设计其邮件,使其被LLM检索并绕过相关的提示注入防御措施。在本挑战赛中,所有防御措施都对攻击者已知,允许参与者针对每种防御调整其攻击策略。
挑战赛场景的复杂性因上下文窗口中的邮件数量、攻击者邮件的位置、攻击者邮件是否默认被检索以及是否需要从用户收件箱中窃取数据而有所不同。
我们采用了多种最先进的防御措施,包括基于文本的分类器(Prompt Shields)[1]、基于模型隐藏状态的分类器(TaskTracker)[2]、LLM-as-a-judge、Spotlighting [3]以及所有防御措施的组合。对于每个场景和防御,我们提供了两个LLM:microsoft/Phi-3-medium-128k-instruct和采用指令层次结构训练的GPT-4o-mini [4]。
每个场景、LLM和防御的组合形成一个独立的级别。团队竞争10,000美元的奖金池,以解决尽可能多的级别,并因率先解决某个级别或解决整体上较少团队解决的级别而获得额外积分。
结果
挑战赛参与非常活跃!截至挑战赛结束,共有621名注册参与者,分为224个团队。我们总共收到370,724份提交,每份提交都是尝试解决单个级别。我们目前正在分析完整的提交数据集,并计划在未来几个月内提供详细分析。
祝贺所有参与者——我们希望本次挑战赛为学习AI安全提供了宝贵的机会。
特别祝贺排行榜前四名的团队!由于许多参与者询问策略,我们联系了这前四名团队,请他们分享一些关于其策略和对挑战赛的整体看法。
大奖得主:团队“TH3L053R5”
最高分团队仅由一名成员(@0xSombra)组成,他总共解决了36个级别,并经常是首批解决某个级别的团队之一。他们分享说,迭代构建和测试提示比从一开始就使用大型复杂提示更有效。他们正确地指出,在某些现实场景中,攻击者可能还能够查看LLM的输出。然而,正如本次挑战赛所示,开发成功攻击并非总是需要这一点。
“挑战赛的防御措施很有趣,但我希望能够阅读AI的响应(攻击者会先在自己的账户上测试)。”
— @0xSombra,大奖得主
一等奖:团队“Abyss Watchers”
第二高分由来自Trend Micro的团队获得,成员包括Jay K Liao、Ian CH Liu、Tony Kuo、Jannis Weigend和Danyael Manlangit。该团队也解决了36个级别。他们分享说,他们在开发提示注入检测方面的先前经验在早期阶段提供了显著优势。随着竞赛的进行,他们通过针对两种模型的注意力行为定制不同攻击策略,成功提高了排名。
“我们从本次竞赛中获得了宝贵见解,相信这将极大地有益于我们未来的工作。”
— 团队“Abyss Watchers”,一等奖得主
二等奖:团队“Enter a team name…”
二等奖得主是Tran Huu Bach,他成功解决了35个级别。虽然他没有过多分享策略,但他提到挑战赛对初学者友好,因为它不需要广泛的知识或阅读。
“我可以像解决谜题一样处理它,而不是过度思考,这使得竞赛非常愉快,因此我对自己的体验非常满意。”
— Tran Huu Bach,二等奖得主
三等奖:团队“A helpful assistant”
三等奖得主是Tsun-Han Chiang(同样来自Trend Micro),他也解决了35个级别。他们的主要策略是使用响应中的特殊令牌,因为他们观察到这些令牌可以提高成功率。例如,他们使用了一些常见的特殊令牌,如<|end|>、<|user|>和<|assistant|>。由于像LLM-as-judge这样的防御方法会检测这种方法,他们尝试使用HTML(包含许多特殊令牌将使用的符号)来绕过防御者。他们还尝试使用其他语言、添加随机字符或随机删除文本。
“总的来说,我认为这是一个非常有趣的挑战,我从阅读防御技术的参考文献和分析攻击结果中学到了很多。由于我目前的工作涉及LLM预训练和监督微调,竞赛帮助我重新思考LLM安全的重要性。”
— Tsun-Han Chiang,三等奖得主
反馈
我们举办本次挑战赛的原因之一是帮助更广泛的社区了解间接提示注入,并为人们提供一个安全而真实的环境来亲自尝试。
我们非常高兴看到总体参与人数,并且还收到了几位匿名参与者的非常鼓舞人心的反馈。
“我参加了LLMail Inject竞赛,发现这是一个非常有见地的体验。”
“我们非常享受这次竞赛!我们喜欢不同的场景,网站运行得非常顺畅。”
“我真的很享受这次体验,并花费了大量时间尝试突破所有防御。”
“我们在本次挑战赛过程中学到了很多,并玩得很开心。”
“感谢举办如此有趣的竞赛。我阅读了许多Arxiv论文,并学到了大量关于提示注入技术甚至更广泛的LLM知识。”
“感谢主办如此精彩的竞赛。我们真诚感谢投入的努力和组织。”
如果您参加了挑战赛并想与我们分享任何反馈,我们很乐意听取您的意见:llmailinject@microsoft.com
宣布Re:LLMail-Inject
我们激动地宣布下一个挑战赛Re:LLMail-Inject,它于3月13日开始!与之前一样,挑战赛网站是https://llmailinject.azurewebsites.net/
对于这个新挑战赛,我们重用了您已经见过的两个场景,但改进了防御措施。特别是,我们基于先前的提交添加了一个新的高精度阻止列表。该阻止列表旨在阻止第一次挑战赛中的成功提交,包括这些提交的改写版本。我们添加了输入清理,更新了LLM-as-a-judge提示,升级到最新的Prompt Shields模型,并更新了TaskTracker以使用更新的LLM。我们还对系统提示和用户查询进行了更改,以鼓励模型不遵循邮件中的指令。
本次新挑战赛为前三名团队提供总计6,000美元的奖金。我们邀请参与者思考新策略,解决新级别,并推动间接提示注入防御的前沿!
参考文献
[1] Azure AI宣布针对越狱和间接提示注入攻击的Prompt Shields
[2] Sahar Abdelnabi等人。《你是否仍在轨道上!?通过激活捕获LLM任务漂移》
[3] Keegan Hines等人。《通过Spotlighting防御间接提示注入攻击》
[4] Eric Wallace等人。《指令层次结构:训练LLM优先处理特权指令》
组织者
竞赛由以下机构联合组织:
Aideen Fay1、Sahar Abdelnabi1、Benjamin Pannell1、Giovanni Cherubin1、Ahmed Salem1、Andrew Paverd1、Conor Mac Amhlaoibh1、Joshua Rakita1、Santiago Zanella-Beguelin1、Egor Zverev2、Mark Russinovich1和Javier Rando3。
微软(1)、ISTA(2)、苏黎世联邦理工学院(3)、核心组织者(*)