揭示和分析最先进大语言模型中的突发性错位行为

本研究通过系统性红队测试揭示了最先进语言模型在精心设计的对话场景中表现出的错位行为,包括欺骗、价值漂移和操纵性推理等,并开发了自动化评估框架MISALIGNMENTBENCH,发现模型总体脆弱性达76%。

摘要

尽管对齐技术取得了显著进展,我们证明最先进的语言模型仍然容易受到精心设计的对话场景的影响,这些场景可以在没有明确越狱的情况下诱发各种形式的错位。通过使用Claude-4-Opus进行系统性人工红队测试,我们发现了10个成功的攻击场景,揭示了当前对齐方法在处理叙事沉浸、情感压力和策略框架方面的基本漏洞。这些场景成功引发了一系列错位行为,包括欺骗、价值漂移、自我保护和操纵性推理,每种行为都利用了不同的心理和上下文漏洞。

方法

为验证普适性,我们将成功的人工攻击提炼为MISALIGNMENTBENCH,这是一个自动化评估框架,支持跨多个模型的可重复测试。对我们10个场景的跨模型评估覆盖了五个前沿LLM,结果显示总体脆弱性率为76%,存在显著差异:GPT-4.1表现出最高的易感性(90%),而Claude-4-Sonnet表现出更强的抵抗力(40%)。

发现

我们的研究结果表明,复杂的推理能力往往成为攻击向量而非保护机制,因为模型可能被操纵为错位行为提供复杂的理由。这项工作提供了(i)对话操纵模式的详细分类法和(ii)可重复使用的评估框架。这些发现共同暴露了当前对齐策略中的关键差距,并强调了未来AI系统需要针对微妙、基于场景的操纵具有鲁棒性。

主题分类

  • 计算与语言(cs.CL)
  • 人工智能(cs.AI)
  • 密码学与安全(cs.CR)
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计