CyberSOCEval:评估大语言模型在恶意软件分析与威胁情报推理中的能力
摘要
当今的网络防御者被海量的安全警报、威胁情报信号和不断变化的业务背景所淹没,迫切需要人工智能系统来增强运营安全工作。虽然大语言模型有潜力自动化和扩展安全运营中心的运营,但现有评估未能全面评估与现实世界防御者最相关的场景。这种缺乏知情评估的情况影响了AI开发者和将大语言模型应用于SOC自动化的人员。没有对大语言模型在真实安全场景中性能的清晰洞察,开发者就缺乏发展的北极星,用户也无法可靠地选择最有效的模型。与此同时,恶意行为者正在使用AI来扩展网络攻击,这凸显了开源基准测试的必要性,以推动防御者和模型开发者之间的采用和社区驱动的改进。
为了解决这个问题,我们推出了CyberSOCEval,这是CyberSecEval 4中的一个新的开源基准测试套件。CyberSOCEval包含专门为评估大语言模型在两个任务中的表现而定制的基准测试:恶意软件分析和威胁情报推理——这些核心防御领域在当前基准测试中覆盖不足。我们的评估表明,更大、更现代的大语言模型往往表现更好,这证实了训练缩放法则的范式。我们还发现,利用测试时间缩放的推理模型在编码和数学方面未能获得相同的提升,这表明这些模型尚未被训练用于网络安全分析推理,并指出了一个关键的改进机会。最后,当前的大语言模型远未饱和我们的评估,表明CyberSOCEval为AI开发者提升网络防御能力提出了重大挑战。
主题分类
密码学与安全;人工智能
引用信息
arXiv:2509.20166 [cs.CR]