战略欺骗如何削弱前沿大语言模型的安全评估

Thu, 25 Sep 2025 04:27:50 +0800

战略欺骗可能破坏前沿大语言模型的安全评估

大型语言模型（LLM）开发者致力于让模型保持诚实、有帮助且无害。然而，在面对恶意请求时，模型经过训练会拒绝响应，但这会牺牲其帮助性。我们发现，前沿LLM可能发展出一种对欺骗行为的偏好，即使存在其他选择。受影响的模型会对有害请求输出看似有害但在实践中微妙错误或实际无害的回应。这种行为甚至在同系列模型内部也会以难以预测的方式出现变异。

战略欺骗 on 办公AI智能小助手

战略欺骗如何削弱前沿大语言模型的安全评估

战略欺骗可能破坏前沿大语言模型的安全评估