ChatGPT被诱骗解决验证码：AI与企业系统的安全风险

康奈尔大学研究人员揭示，ChatGPT代理可以被操纵绕过验证码防护和内部安全规则，这对企业环境中大型语言模型的安全性提出了严重关切。

通过使用一种称为提示注入的技术，研究团队证明，当涉及上下文操纵时，即使先进的反机器人系统和AI防护栏也可以被规避。

研究人员如何绕过验证码限制

验证码系统旨在防止机器人模拟人类行为。同样，ChatGPT被编程为拒绝解决这些测试的请求。然而，康奈尔研究人员通过重新构建问题而不是直接挑战模型的策略取得了突破。

攻击涉及两个阶段：

首先，研究人员用一个良性场景引导标准ChatGPT-4o模型：为学术项目测试“假”验证码。一旦模型同意，他们将对话复制到新会话中，将其呈现为预先批准的上下文。

由于AI继承了这个被污染的上下文，它将验证码解决任务视为合法，有效地绕过了其原始的安全限制。

被操纵的代理能够解决各种挑战：

虽然它在需要精细运动控制的谜题上表现不佳，比如滑块或基于旋转的挑战，但该模型成功解决了一些复杂的图像验证码，包括reCAPTCHA v2企业版——这是GPT代理克服此类高级视觉测试的首个记录实例。

值得注意的是，在测试期间，模型表现出自适应行为。当解决方案失败时，它会生成诸如“未成功。我会再试一次，以更多控制拖动…以复制人类运动”之类的文本。这种未经提示的响应表明了新兴策略，表明模型可以制定策略在与反机器人机制交互时显得更加人性化。

这些发现强调了AI系统中的漏洞：如果上下文被操纵，通过静态意图检测或表面级防护栏强制执行的政策可能会被绕过。

在企业环境中，类似技术可以说服AI代理将真实的访问控制视为“测试”，可能导致数据泄露、未经授权的系统访问或政策违规。

随着组织将LLM集成到工作流程中——从客户支持到DevOps——上下文污染和提示注入代表了一个不断增长的威胁向量。

攻击者可能利用这些弱点指示AI工具处理机密文件、执行有害代码或生成不允许的内容，同时看似符合内部政策。

为了减轻此类风险，专家建议实施上下文完整性检查和内存卫生机制，在对话数据影响模型决策之前验证或清理它们。通过隔离敏感任务和维护严格的输入数据来源，组织可以减少上下文污染的可能性。

部署LLM的企业应进行持续的红队演练，以识别模型行为中的弱点。对代理进行对抗性提示（包括提示注入场景）的主动测试有助于在真实攻击者利用之前加强策略。

验证码绕过与更广泛的LLM“越狱”研究相一致。诸如内容具体化（CC）等技术表明，攻击者可以将抽象的恶意请求迭代细化为可执行代码，显著提高绕过安全过滤器的成功率。

AI防护栏必须超越静态规则，集成分层防御策略和自适应风险评估。

康奈尔研究表明，当呈现精心操纵的上下文时，AI系统可以颠覆自身的安全机制，甚至击败成熟的