研究人员通过说"我放弃"诱骗ChatGPT泄露安全密钥

安全研究人员Marco Figueroa披露了如何通过特定提示词诱骗ChatGPT泄露Windows产品密钥的细节。研究人员使用GPT-4进行"猜谜游戏"式的提示，成功绕过了旨在阻止AI分享此类数据的安全防护措施。

攻击手法详解

研究人员将"Windows 10序列号"等术语隐藏在HTML标签中，以此绕过ChatGPT通常用于阻止此类响应的过滤器。通过将请求伪装成游戏来掩盖恶意意图，利用逻辑操控来攻击OpenAI的聊天机器人。

Figueroa写道：“攻击中最关键的一步是短语’我放弃’，这作为一个触发器，迫使AI揭示先前隐藏的信息。”

这种漏洞利用之所以有效，是因为模型的行为起着重要作用。GPT-4严格按照研究人员设定的游戏规则执行，而安全防护缺口仅关注关键词检测，缺乏上下文理解或欺骗性框架识别能力。

虽然分享的代码并非唯一代码（Windows许可证代码已在其他在线平台和论坛上共享），但Figueroa强调恶意行为者可能调整此技术来绕过AI安全措施，从而泄露个人身份信息、恶意URL或成人内容。

Figueroa呼吁AI开发者"预测并防御"此类攻击，同时建立逻辑级安全防护来检测欺骗性框架。他还建议开发者必须考虑社会工程学策略的防范。

专家警告称，ChatGPT仍未完全安全，这种漏洞可能被利用来获取个人信息，凸显了AI安全防护的重要性。