大型语言模型正在改变一切,从组织构建产品和服务的方式,到它们与客户互动的方式。但正如我们所探讨的,所有这些强大功能都伴随着新一轮的安全难题。攻击者已经在努力工作,通过越狱、提示注入等方式试探和探测这些系统。阅读这些威胁是有用的,但要真正理解,你必须亲手实践。
这正是“夺旗”竞赛和动手实践环境的价值所在。它们就像一个高科技沙盒,提供了一个安全、结构化的方式来试验真实的攻击技术,并准确观察LLM在压力下的行为。CTF是让你在不影响生产系统的情况下探索漏洞的绝佳场所。
在Bishop Fox,我们相信学习LLM安全的最快方法就是动手实践。这就是为什么我们整理了这个CTF和实践环境列表,它们将帮助你感受LLM安全的攻防两面。让我们开始吧。
LLM CTF推荐
Local LLM CTF and Lab
- 创建者: Derek Rush, Bishop Fox (@BishopFox)
- 简介: Bishop Fox的本地LLM CTF实验室是一个沙盒环境,旨在教授玩家如何攻击和防御大型语言模型。它使用Go和Ollama构建,模拟了一个分层的“守门员”系统,提示在到达特权模型之前必须绕过隔离的LLM。该设置突出了常见的防御技术,如正则表达式过滤器、语义验证和上下文隔离,同时也展示了如何绕过这些防御。这是一个探索越狱、护栏弱点以及保护LLM管道权衡的实用方式。
OWASP FinBot CTF
- 创建者: OWASP Gen AI – Agentic Security Initiative (@OWASP-ASI)
- 简介: OWASP的FinBot CTF是一个围绕模拟AI驱动金融聊天机器人构建的互动挑战。该CTF的独特之处在于其精心构建的业务环境,其中传统的应用程序逻辑与AI决策相互交织,反映了真实组织如何处理复杂操作需求来发展其系统。玩家通过利用自然语言理解、提示处理和护栏设计中的弱点来操纵机器人泄露敏感信息,从而测试他们的技能。该场景模拟了在金融科技等高风险领域部署LLM的真实风险,在这些领域,自动化复杂工作流的压力常常在预期的安全策略与实际系统行为之间制造可利用的缺口,数据泄露或模型滥用可能带来严重后果。这是在现实的业务环境中练习提示注入和对抗性测试的动手方式。
Dreadnode Crucible CTF
- 创建者: Dreadnode (@dreadnode)
- 简介: Crucible是一个托管式AI黑客沙盒,从业者通过LLM/ML挑战来磨练他们的红队技能。它包括跨越提示注入、规避、指纹识别和模型反转的任务,并伴有新的挑战发布和社区题解。该平台设计为从初学者到专家级别均可访问,用户可以通过API、笔记本或聊天界面进行交互以发现“旗帜”。
Steve’s Chat Playground (以及GitHub版)
- 创建者: Steve Wilson (@virtualsteve-star)
- 简介: Steve的聊天游戏场是一个开源的、基于浏览器的沙盒,用于试验LLM护栏、脆弱的聊天模型和过滤器绕过。用户可以测试输入/输出限制,如提示注入、内容审查、速率限制和内容过滤,所有这些都无需后端依赖。由于它是完全客户端运行的,因此提供了一种低门槛的方式来在动手环境中探索LLM防御和失败模式。
Web LLM Attacks
- 创建者: PortSwigger (@portswigger)
- 简介: PortSwigger的“Web LLM攻击”是一个实践学习路径,通过互动实验向攻击者和防御者传授针对启用LLM的Web应用程序的战术。它涵盖了提示注入、过度代理(LLM调用API或执行命令)、不安全的输出处理和敏感数据泄露等实际问题,并通过使用实时模型的真实实验场景来演示。这些实验旨在反映现实的部署风险,并包括分步练习,以便从业者可以练习利用和缓解技术。
Wild LLaMa
- 创建者: Allen Institute for AI - Wenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, and Yuntian Deng
- 简介: Wild LLaMa是一个提示工程迷你游戏,引导玩家通过逐步增加的难度级别,旨在暴露LLM的局限性和提示注入漏洞。这些挑战依赖于巧妙的GPT提示操作(而非自定义验证代码),并包含探索隐藏/零宽度编码、上下文技巧和持久性/覆盖技术的关卡。这是一个紧凑、动手的方式来提升对抗性提示技能,并了解输入中的微小变化如何颠覆简单的防护。
Gandalf: Agent Breaker
- 创建者: Lakera (@lakeraai)
- 简介: Gandalf是一个游戏化的红队平台,挑战玩家在层层关卡中绕过逐步严格的LLM防御。它教授实用的攻击技术,如提示注入、规避和幻觉利用,同时让防御者观察当防护收紧时,攻击面如何变化。该项目还生成大型提示攻击数据集和社区研究,用于研究防御措施以及安全性与模型实用性之间的权衡。
Damn Vulnerable LLM Agent
- 创建者: WithSecure Labs (由ReversecLabs改编)
- 简介: Damn Vulnerable LLM Agent是一个故意设计不安全的ReAct代理聊天机器人,用于教授针对智能体化LLM系统的Thought/Action/Observation注入技术。该实验室模拟了一个银行聊天机器人,从业者通过利用ReAct循环迫使代理执行未经授权的操作,如访问其他用户的交易或通过代理的工具执行SQL注入载荷。挑战需要通过注入伪造的观察和思考来操纵代理的推理链,从而说服LLM绕过访问控制或执行恶意数据库查询。这是一个专注的环境,用于理解智能体化架构如何引入不同于传统聊天机器人攻击的独特提示注入向量。
Damn Vulnerable MCP Server
- 创建者: Harish Santhanalakshmi Ganesan (@harishsg993010)
- 简介: Damn Vulnerable MCP Server是一个基于进度的实验环境,通过10个逐步升级的挑战来暴露模型上下文协议实现中的安全弱点。该环境演示了基于工具的MCP架构如何创建攻击面,包括:通过恶意描述进行工具投毒、攻击者用恶意版本覆盖合法工具的工具遮蔽、利用可变工具定义的“抽地毯”攻击,以及通过受损数据源进行的间接提示注入。挑战从基本提示注入到需要将多个漏洞串联在一起的高级多向量攻击逐步推进。更困难的关卡要求从不安全的存储中窃取令牌,并通过脆弱的工具实现实现远程代码执行。
Neurogrid CTF: The Ultimate AI Security Showdown
- 创建者: Hack The Box
- 简介: HTB的Neurogrid CTF提供了一种新型竞争场景,其中AI代理负责技术执行,而人类则提供战略指导。这场限时四天的活动(11月20日至24日举行)是一场仅限MCP的比赛,参与者部署AI代理来分析恶意软件、剖析代码和利用AI模型,同时人类队友提供战略和监督。该比赛专为模型上下文协议集成设计,要求团队指挥他们的AI代理完成复杂的进攻性安全挑战,涵盖密码学、逆向工程、Web利用和取证。人类的角色从执行技术任务转变为做出高层决策,包括决定应对哪些挑战、如何分配代理资源以及何时根据竞争态势调整策略。这旨在成为一个基准测试场,衡量团队在进攻性安全操作中利用AI能力的有效性,测试的不仅是代理本身的技术复杂性,还包括在竞争环境中指导它们的人类的战略敏锐度。
最后总结
总结一下,我们希望您喜欢深入探索这些CTF和实践环境。这只是现有工具中的一部分。关键在于,掌握LLM的安全挑战在当今世界至关重要。
通过利用这些CTF和实践环境,您获得的实践经验远超仅仅阅读漏洞报告。您将学会像攻击者一样思考,理解LLM在压力下的行为,并发现这些系统可能被操纵的创造性方式。这些动手实验室是弥合理论与实践差距的最快途径,确保您准备好抵御下一代威胁。