新型AI恶意软件概念验证可靠绕过微软Defender
担心黑客使用大型语言模型(LLM)编写强大恶意软件?通过针对性强化学习(RL)训练开源模型执行特定任务,已经实现了这一能力。
即将发布的安全规避工具将帮助红队和黑客持续绕过微软Defender for Endpoint。
自2023年11月以来,悲观预言家就预测未来大型语言模型将帮助黑客更快、大规模地开发恶意软件,其能力可能超越人类自身设计。这一未来尚未完全实现;迄今为止,黑客使用人工智能(AI)生成简单恶意软件和钓鱼内容,并辅助目标研究等补充任务。
但在今年拉斯维加斯的Black Hat会议上,Outflank的首席攻击专家负责人Kyle Avery将展示一个程序,看起来更接近大家所担心的:一个轻量级模型,旨在破坏微软旗舰终端检测与响应(EDR)软件。
技巧:强化学习
Avery指出,在年初左右,AI开发发生了一个重要的"转变",这激发了他的项目灵感。
如今最流行的大型语言模型主要是在无监督环境中训练的。开发者向模型输入大量广泛数据,简化来说,模型从中进行自己的推断和连接。
但去年12月,OpenAI发布了o1,这与之前的GPT模型不同。正如Avery所说:“当他们从GPT 3.5升级到4时,4在所有方面都比3.5更好。但o1独特之处在于它有一些优势——比如数学和编码特别强——但例如写作方面较差。他们没有提供大量关于[原因]的信息。”
事实证明这不是缺陷,而是设计选择。一个月后(并非OpenAI自愿),DeepSeek发布其模型R1,澄清了o1的不同之处。R1类似于o1,并且是开源的(OSS),附带技术论文详细说明其制作方法。
技巧在于使用可验证奖励的强化学习(RL)。开发者现在通过让模型进行大量可以自动验证或拒绝的预测,来训练模型在特定任务中表现出色。这解释了为什么它们在数学等有正确答案和错误答案的任务上比写作等主观任务好得多。
这激发了一个新的可能性:AI模型可以接受训练,专攻某一特定领域或甚至特定任务,比如规避安全软件。
如何构建LLM恶意软件
理论上,获取训练数据一直是开发恶意AI的主要障碍。如今流行的大型语言模型建立在数TB的文献、互联网数据等基础上。但恶意软件数量有限,任何黑客能获得的只是其中一小部分——不足以训练模型进行一致有效的自主恶意软件开发。
然而,根据Avery的说法,强化学习完全消除了这一要求。
Avery采用了一个通用开源模型——Qwen 2.5,将其放在带有微软Defender for Endpoint的沙箱中,并编写了一个程序来评分模型输出规避工具的接近程度。
“它肯定不能开箱即用地做到这一点,“他解释道。“也许一千次中有一次,它运气好,编写出一些能运行但不规避任何东西的恶意软件。因此当它这样做时,你可以奖励它生成功能正常的恶意软件。当你迭代进行时,它越来越一致地制作出能运行的东西,不是因为你展示了示例,而是因为它被更新为更可能进行导致工作恶意软件的思维过程。”
此时,模型可以创建恶意软件。为了使其专门用于规避微软Defender的特定目的,Avery插入了一个应用程序编程接口(API),允许查询和检索Defender生成的警报。模型被引导编写触发严重性越来越低的警报的恶意软件。
结果:可靠的EDR规避
最终,Avery的模型能够生成完全绕过微软Defender for Endpoint的恶意软件,成功率约为8%。换句话说,攻击者随意查询模型,可以合理预期在大约十几次尝试中产生完美规避的恶意软件。相比之下,他发现Anthropic的AI能做到同样的成功率不到1%,DeepSeek的不到0.5%。
值得注意的是,他的程序也比这些程序小几个数量级,使其可以在任何高端消费级显卡上舒适运行。而在达到8%成功率时停止训练程序的决定是任意的。他回忆道,在那一刻,“趋势是它会继续上升。我不知道。我确信它最终会趋于平稳。”
他报告说,在大约三个月的时间里,“我花了大约1500或1600美元制作这个,这不是疯狂的钱。所以是的,我认为在中短期内,尤其是在长期内,犯罪分子很可能会开始做这样的事情。”