论智能与判断的不可分割性：AI对齐中过滤机制的计算复杂性

随着大语言模型（LLM）的广泛应用，其可能生成有害内容的问题引发关注。本研究聚焦AI对齐中的过滤机制，重点分析输入提示（前过滤）和生成输出（后过滤）两种干预方式的计算可行性。

核心发现如下：

输入过滤的局限性：证明存在一类LLM，其无法被高效的前置提示过滤器防御——攻击者可构造对抗性提示，这些提示在计算复杂度上与良性提示无法区分，却能诱导模型输出有害内容。
输出过滤的不可行性：在特定自然场景下，后置输出过滤被证明是计算不可行的。所有分离结果均基于密码学硬度假设。

研究还形式化分析了其他缓解方案，揭示了更深层的计算障碍。结论表明：仅通过外部过滤机制（独立于模型架构与权重）无法实现安全性，尤其是仅依赖LLM黑盒访问时。基于技术结果，作者提出AI系统的智能与判断本质上是不可分割的。

研究领域涉及人工智能（cs.AI）与密码学安全（cs.CR），为AI对齐提供了理论层面的关键限制证明。