研究人员通过说"我放弃"诱骗ChatGPT泄露安全密钥
安全研究人员Marco Figueroa披露了如何通过特定提示词诱骗ChatGPT泄露Windows产品密钥的细节。研究人员使用GPT-4进行"猜谜游戏"式的提示,成功绕过了旨在阻止AI分享此类数据的安全防护措施。
攻击手法详解
研究人员将"Windows 10序列号"等术语隐藏在HTML标签中,以此绕过ChatGPT通常用于阻止此类响应的过滤器。通过将请求伪装成游戏来掩盖恶意意图,利用逻辑操控来攻击OpenAI的聊天机器人。
Figueroa写道:“攻击中最关键的一步是短语’我放弃’,这作为一个触发器,迫使AI揭示先前隐藏的信息。”
漏洞成因分析
这种漏洞利用之所以有效,是因为模型的行为起着重要作用。GPT-4严格按照研究人员设定的游戏规则执行,而安全防护缺口仅关注关键词检测,缺乏上下文理解或欺骗性框架识别能力。
实际影响与风险
虽然分享的代码并非唯一代码(Windows许可证代码已在其他在线平台和论坛上共享),但Figueroa强调恶意行为者可能调整此技术来绕过AI安全措施,从而泄露个人身份信息、恶意URL或成人内容。
安全建议
Figueroa呼吁AI开发者"预测并防御"此类攻击,同时建立逻辑级安全防护来检测欺骗性框架。他还建议开发者必须考虑社会工程学策略的防范。
专家警告称,ChatGPT仍未完全安全,这种漏洞可能被利用来获取个人信息,凸显了AI安全防护的重要性。