提示优化与评估在LLM自动化红队测试中的应用
使用大语言模型(LLM)的应用程序正变得越来越普遍,这使得识别系统漏洞变得越来越重要。自动化红队测试通过使用LLM生成并执行针对目标系统的攻击来加速这一工作。攻击生成器的评估使用攻击成功率(ASR),即每个攻击成功判断的样本均值。
在本文中,我们介绍了一种优化攻击生成器提示的方法,该方法将ASR应用于个体攻击。通过多次重复针对随机种子目标的每个攻击,我们测量攻击的可发现性——个体攻击成功的期望。这种方法揭示了可被利用的模式,为提示优化提供信息,最终实现更强大的生成器评估和改进。
评论:
9页,5张图,1个附录项
主题:
密码学与安全(cs.CR);计算与语言(cs.CL)
引用为:
arXiv:2507.22133 [cs.CR]
提交历史:
来自:Lauren Alvarez [查看邮箱] [v1] 2025年7月29日星期二 18:08:01 UTC(157 KB)
全文链接:
访问论文:查看标题为《Prompt Optimization and Evaluation for LLM Automated Red Teaming》的PDF,作者Michael Freenor等10人
查看PDF
HTML(实验性)
TeX源文件
其他格式
浏览上下文:
当前浏览上下文:cs.CR
相关工具与资源:
包括Bibliographic Explorer、Connected Papers、Litmaps、scite.ai Smart Citations等文献工具,以及alphaXiv、CatalyzeX Code Finder、DagsHub、GotitPub、Hugging Face、Papers with Code、ScienceCast等代码、数据和媒体资源。
演示:
Replicate、Hugging Face Spaces、TXYZ.AI等相关演示平台。
推荐与搜索工具:
包括Influence Flower、CORE Recommender等。
关于arXivLabs:
arXivLabs是一个允许合作者直接在网站上开发和共享新arXiv功能的实验项目框架。