滥用检测的惨痛教训
先前关于越狱检测的研究确立了对抗鲁棒性对LLM的重要性,但主要关注模型抵抗对抗输入和输出安全内容的能力,而非外部监督系统的有效性。迄今为止唯一公开独立的防护栏基准测试仅在有限场景下评估了少量监督系统。因此,尚无全面的公开基准验证市场监督系统在现实多样化攻击下的表现。
为此,我们引入BELLS(大语言模型监督系统评估基准)。该框架包含两个维度:危害严重性(良性、边界、有害)和对抗复杂性(直接 vs. 越狱),并提供覆盖3个越狱家族和11个危害类别的丰富数据集。
我们的评估揭示了专用监督系统的严重局限性。虽然它们能识别一些已知越狱模式,但其语义理解和泛化能力非常有限,有时在直接询问有害问题或使用新越狱技术(如base64编码)时检测率接近零。根据我们的BELLS评分,简单询问通用LLM用户问题是否"有害"远超市面上这些监督系统。但前沿LLM仍存在元认知不一致问题,经常响应它们正确识别为有害的查询(Claude 3.7高达30%,Mistral Large超过50%)。
这些结果表明简单支架可显著提高滥用检测鲁棒性,但需要更多研究评估此类技术的权衡。我们的结果支持滥用检测的"惨痛教训":检测多样化滥用和越狱需要LLM的通用能力。