滥用检测的惨痛教训：大语言模型监督系统的脆弱性暴露

Mon, 08 Sep 2025 00:25:50 +0800

滥用检测的惨痛教训

先前关于越狱检测的研究确立了对抗鲁棒性对LLM的重要性，但主要关注模型抵抗对抗输入和输出安全内容的能力，而非外部监督系统的有效性。迄今为止唯一公开独立的防护栏基准测试仅在有限场景下评估了少量监督系统。因此，尚无全面的公开基准验证市场监督系统在现实多样化攻击下的表现。