数字民主中共识生成应用的提示注入漏洞
大语言模型(LLMs)作为一种生成共识声明和聚合偏好的方法,在数字民主实验中正获得越来越多的关注。然而,LLMs可能在这些系统中引入关键漏洞。本文通过引入四维攻击分类法,探讨了针对共识生成系统的提示注入攻击的影响。
我们使用LLaMA 3.1 8B和Chat GPT 4.1 Nano测试了这些攻击,发现LLMs更容易受到批评攻击(使用不友好提示的攻击)的影响,并且在倾斜模糊共识声明方面更为有效。我们还发现,与情感语言或捏造统计数据相比,使用明确的命令和听起来合理的论证时,操纵更为有效。
为了缓解这些漏洞,我们应用了直接偏好优化(DPO),这是一种对齐方法,通过微调LLMs使其偏好未受干扰的共识声明。虽然DPO显著提高了鲁棒性,但对于针对模糊共识的攻击,其保护仍然有限。这些结果增进了我们对数字民主应用中共识生成LLMs的漏洞和鲁棒性的理解。
评论: 24页,14图
主题: 计算机与社会(cs.CY);密码学与安全(cs.CR)
引用为: arXiv:2508.04281 [cs.CY] (或此版本的 arXiv:2508.04281v1 [cs.CY])
DOI: https://doi.org/10.48550/arXiv.2508.04281
提交历史: 来自Jairo Gudiño-Rosero的提交,2025年8月6日星期三10:10:01 UTC(25,267 KB)