动态大语言模型越狱评估:GuardVal全面安全测试框架

本文介绍GuardVal动态评估协议,通过生成和优化越狱提示来测试大语言模型的安全性,涵盖10个安全领域并分析不同模型的行为模式,为开发更安全的模型提供见解。

GuardVal:动态大语言模型越狱评估用于全面安全测试

摘要

越狱攻击揭示了大型语言模型(LLMs)的关键漏洞,导致其生成有害或不道德内容。由于LLMs的不断演变和有效探测其漏洞所需的复杂性,评估这些威胁尤其具有挑战性。当前的基准和评估方法难以完全应对这些挑战,导致在LLM漏洞评估中存在空白。本文回顾了现有的越狱评估实践,并确定了有效越狱评估协议的三个假设需求。为应对这些挑战,我们引入了GuardVal,一种新的评估协议,基于防御者LLM的状态动态生成和优化越狱提示,从而更准确地评估防御者LLMs处理安全关键情况的能力。此外,我们提出了一种新的优化方法,防止提示优化过程中的停滞,确保生成越来越有效的越狱提示,暴露防御者LLMs更深层次的弱点。我们将此协议应用于从Mistral-7b到GPT-4的多种模型,涵盖10个安全领域。我们的发现突出了模型之间的不同行为模式,提供了对其鲁棒性的全面视图。此外,我们的评估过程加深了对LLM行为的理解,为未来研究提供见解,并推动更安全模型的开发。

评论

24页

主题

机器学习(cs.LG);计算与语言(cs.CL);密码学与安全(cs.CR)

ACM分类

I.2.7;I.2.8

引用

arXiv:2507.07735 [cs.LG]
(或此版本的 arXiv:2507.07735v1 [cs.LG])

DOI

https://doi.org/10.48550/arXiv.2507.07735

提交历史

来自:Peiyan Zhang [查看电子邮件]
[v1] 2025年7月10日 星期四 13:15:20 UTC (866 KB)

全文链接

访问论文:
查看标题为“GuardVal: Dynamic Large Language Model Jailbreak Evaluation for Comprehensive Safety Testing”的PDF,作者:Peiyan Zhang 及其他三位作者
查看PDF
HTML(实验性)
TeX源
其他格式
查看许可证

当前浏览上下文

cs.LG

变更浏览方式

cs
cs.CL
cs.CR

参考文献与引用

NASA ADS
Google Scholar
Semantic Scholar

导出BibTeX引用

加载中…

书目工具

书目和引用工具

代码、数据、媒体

与此文章相关的代码、数据和媒体

演示

演示

相关论文

推荐器和搜索工具

关于arXivLabs

arXivLabs:与社区合作者进行的实验项目
arXivLabs是一个框架,允许合作者直接在我们的网站上开发和共享新的arXiv功能。
与arXivLabs合作的个人和组织都接受并认同我们的开放、社区、卓越和用户数据隐私的价值观。
arXiv致力于这些价值观,并只与遵守这些价值观的合作伙伴合作。
有一个能为arXiv社区增加价值的项目想法?了解更多关于arXivLabs的信息。

关于

帮助
联系arXiv
订阅arXiv邮件
版权
隐私政策
网络可访问性援助
arXiv运行状态
获取状态通知 via 电子邮件 或 Slack

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计