论智能与判断的不可分割性:AI对齐中过滤机制的计算复杂性

本文探讨了大语言模型(LLM)在生成有害内容时的对齐挑战,重点研究了输入提示和输出过滤的计算复杂性。研究表明,设计独立于LLM内部结构的过滤机制存在根本性计算障碍,并论证了智能与判断的不可分割性。

随着大语言模型(LLM)的广泛应用,其可能生成有害内容的问题引发关注。本研究聚焦AI对齐中的过滤机制,重点分析输入提示(前过滤)和生成输出(后过滤)两种干预方式的计算可行性。

核心发现如下:

  1. 输入过滤的局限性:证明存在一类LLM,其无法被高效的前置提示过滤器防御——攻击者可构造对抗性提示,这些提示在计算复杂度上与良性提示无法区分,却能诱导模型输出有害内容。
  2. 输出过滤的不可行性:在特定自然场景下,后置输出过滤被证明是计算不可行的。所有分离结果均基于密码学硬度假设。

研究还形式化分析了其他缓解方案,揭示了更深层的计算障碍。结论表明:仅通过外部过滤机制(独立于模型架构与权重)无法实现安全性,尤其是仅依赖LLM黑盒访问时。基于技术结果,作者提出AI系统的智能与判断本质上是不可分割的

研究领域涉及人工智能(cs.AI)与密码学安全(cs.CR),为AI对齐提供了理论层面的关键限制证明。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计