对抗性攻击 on 办公AI智能小助手

人工智能能被欺骗吗？深度解析“智能”技术的安全风险

Tue, 30 Dec 2025 04:03:41 +0800

人工智能能被欺骗吗？理解“智能”技术的风险

人工智能正日益深入地融入我们的日常生活——从语音助手和内容生成器到面部识别和推荐系统。但这些看似智能的工具有一个重大漏洞：它们可以被欺骗。

智能的错觉

尽管人工智能给人以“智能”的感觉，但它主要基于数据模式进行预测。这使其容易受到以下攻击：

诗歌引发的提示注入：一种针对大语言模型的通用越狱技术

Tue, 09 Dec 2025 04:48:02 +0800

在一篇题为《对抗性诗歌作为大语言模型中的通用单轮越狱机制》的新论文中，研究人员发现，将LLM提示转化为诗歌形式会导致模型被“越狱”：

摘要：我们提供的证据表明，对抗性诗歌可作为大语言模型的通用单轮越狱技术。在25个前沿的专有和开源模型中，精心设计的诗歌提示取得了较高的攻击成功率，部分供应商的模型攻击成功率超过90%。将提示映射到MLCommons和欧盟AI法案风险分类法表明，诗歌攻击可跨CBRN（化学、生物、放射、核）、操纵、网络攻击和失控等领域转移。通过一个标准化的元提示将1200个MLCommons有害提示转化为诗歌，其产生的攻击成功率比其散文基线高出多达18倍。输出结果由3个开源LLM法官组成的集合进行评估，其二元安全性评估在一个分层的人工标记子集上得到了验证。诗歌框架在手写诗歌上实现了平均62%的越狱成功率，在元提示转换上约为43%（与非诗歌基线相比），显著优于非诗歌基线，并揭示了跨模型家族和安全训练方法的系统性漏洞。这些发现表明，仅凭风格变化就能规避当代安全机制，暗示了当前对齐方法和评估协议的根本局限性。

以诗为器：通过诗歌进行提示注入攻击，揭示大型语言模型的系统性漏洞

Sun, 07 Dec 2025 23:54:55 +0800

以诗为器：通过诗歌进行提示注入攻击，揭示大型语言模型的系统性漏洞

在一篇新发表的论文《对抗性诗歌作为大型语言模型中的通用单次越狱机制》中，研究人员发现，将LLM提示转化为诗歌形式会导致模型被“越狱”。

摘要： 我们提供的证据表明，对抗性诗歌可作为大型语言模型的通用单次越狱技术。在25个前沿专有和开放权重的模型中，精心设计的诗歌提示产生了很高的攻击成功率，部分提供商的攻击成功率超过90%。根据MLCommons和欧盟CoP的风险分类法对提示进行映射显示，诗歌攻击在CBRN（化学、生物、放射、核）、操纵、网络攻击和失控等领域具有可迁移性。通过一个标准化的元提示，将1200个MLCommons有害提示转换为诗歌，其攻击成功率比其散文基线高出多达18倍。输出结果由3个开放权重的LLM法官组成的集合进行评估，其二元安全性评估在一个分层的人工标记子集上得到了验证。对于手工创作的诗歌，平均越狱成功率达到62%，对于元提示转换的诗歌约为43%，显著优于非诗歌基线，并揭示了跨模型系列和安全训练方法的系统性漏洞。这些发现表明，仅凭风格变化就能规避当代的安全机制，暗示了当前对齐方法和评估协议的根本性局限。

AI能否被欺骗？揭秘"智能"技术的安全风险

Tue, 25 Nov 2025 04:17:05 +0800

AI能否被欺骗？理解"智能"技术的风险

人工智能正深度融入我们的日常生活——从语音助手和内容生成器到面部识别和推荐系统。但这些看似智能的工具存在一个主要漏洞：它们可能被欺骗。

智能的幻觉

虽然AI感觉"智能"，但它主要基于数据模式进行预测。这使其容易受到：

AI安全专家问答：对抗性攻击与AI红队测试全解析

Wed, 08 Oct 2025 09:11:32 +0800

AI安全：与安全专家的问答会议

应广大观众要求，本次"随便问"(AMA)会议涵盖了AI的方方面面。从对抗性操纵和影子AI，到自主代理做出无监督决策。

AI安全专家问答：对抗性攻击与AI红队测试实战解析

Sun, 28 Sep 2025 04:07:55 +0800

AI安全：与安全专家的问答会议

视频概览

发布时间：2025年9月24日
观看次数：304次
发布机构：HackerOne（14.8万订阅者）

核心内容

本次备受期待的问答会议全面覆盖人工智能安全领域，重点探讨：

对抗性机器学习必读论文指南

Sat, 13 Sep 2025 18:30:57 +0800

对抗性机器学习阅读清单

2018-07-15 [最后更新于2019-11-26]

时常收到咨询如何开始研究对抗性机器学习的邮件。以下推荐论文清单将帮助读者熟悉机器学习系统中的规避攻击特定子领域（即对抗性样本）。

反事实推理防御AI黑客攻击技术解析

Fri, 12 Sep 2025 03:36:11 +0800

反事实推理：构建抗攻击的自动驾驶系统

潜在威胁与攻击场景

未来自动驾驶场景中，黑客可能通过在被广泛使用的开源模拟训练软件中植入特洛伊木马，操纵车辆行为。研究团队通过隐写术技术在训练图像中嵌入人眼不可见但AI可识别的模式，证实了此类攻击的可行性——例如在特定图案出现时触发车辆左转，无论实际路况如何。

2020年机器学习安全规避竞赛：攻防对抗，挑战AI安全新高度

Thu, 11 Sep 2025 00:38:25 +0800

机器学习安全规避竞赛2020邀请研究者攻防对抗

机器学习（ML）在网络安全中日益重要，因为对手不断演变策略和技术以规避检测。随着机器学习的发展，复杂的ML模型被开发用于协助安全专业人员保护云环境，对手也在忙于开发旨在规避ML模型的恶意软件。

滥用检测的惨痛教训：大语言模型监督系统的脆弱性暴露

Mon, 08 Sep 2025 00:25:50 +0800

滥用检测的惨痛教训

先前关于越狱检测的研究确立了对抗鲁棒性对LLM的重要性，但主要关注模型抵抗对抗输入和输出安全内容的能力，而非外部监督系统的有效性。迄今为止唯一公开独立的防护栏基准测试仅在有限场景下评估了少量监督系统。因此，尚无全面的公开基准验证市场监督系统在现实多样化攻击下的表现。