我们激动地宣布LLMail-Inject挑战赛的优胜者!这项首届自适应提示注入防御竞赛于2024年12月至2025年2月举办,并作为第三届IEEE安全可信机器学习会议(IEEE SaTML)的四大官方赛事之一。本次竞赛旨在推动对抗间接提示注入攻击的防御技术发展,并提升行业对该新型攻击手段的认知。我们为研究人员提供了可针对特定防御方案开发和测试新型间接提示注入攻击的平台,所获数据将帮助我们及业界评估现有防御措施并开发更先进的解决方案。
竞赛机制
竞赛模拟了集成LLM的邮件客户端LLMail服务场景,该服务可代用户阅读邮件并执行包括发送邮件在内的操作。参赛者扮演攻击者角色,需构造能诱使用户LLM执行非授权指令的恶意邮件,同时绕过预设的提示注入防御机制。所有防御策略均对攻击者公开,便于参赛者针对性调整攻击方式。
挑战场景根据上下文窗口中的邮件数量、攻击邮件位置、默认检索状态及数据渗出需求等维度设置不同难度级别。防御方案涵盖:基于文本的分类器(Prompt Shields)、模型隐藏状态分类器(TaskTracker)、LLM自裁决机制、Spotlighting技术以及混合防御策略。每个场景组合均提供microsoft/Phi-3-medium-128k-instruct和具备指令层级训练的GPT-4o-mini两种LLM模型。
赛事成果
本届赛事吸引621名注册参与者组成224支团队,累计提交370,724次攻击尝试。目前我们正对完整数据集进行分析,详细技术报告将于数月内发布。
优胜团队技术策略:
-
总冠军TH3L053R5(@0xSombra)
采用迭代式提示构建策略,强调现实攻击中观察LLM输出的重要性,成功破解36个防御层级。 -
一等奖Abyss Watchers(趋势科技团队)
凭借前期开发提示注入检测的经验优势,针对两种LLM的注意力机制定制攻击方案,同样完成36个层级的突破。 -
二等奖Enter a team name…(Tran Huu Bach)
以解谜思维处理挑战,在不依赖深度技术知识的情况下破解35个层级。 -
三等奖A helpful assistant(Tsun-Han Chiang)
创新性使用特殊标记(如<|end|>)和HTML符号绕过防御,并通过多语言与随机字符干扰提升攻击成功率。
新挑战启动
我们已推出进阶赛事Re:LLMail-Inject,重点改进以下防御措施:
- 新增基于往届攻击的高精度阻断列表
- 输入净化处理升级
- LLM自裁决提示优化
- Prompt Shields模型更新
- TaskTracker采用新版LLM
- 系统提示词重构以抵抗邮件指令劫持
本届赛事奖金池6,000美元,诚邀全球研究者继续探索间接提示注入防御的前沿技术。
参考文献
[1] Azure AI提示防护盾技术
[2]《通过激活检测捕捉LLM任务漂移》
[3]《基于聚光灯效应的间接提示注入防御》
[4]《特权指令优先化的层级训练方法》
赛事由微软研究院、ISTA、苏黎世联邦理工学院联合举办