随着大语言模型(LLM)的广泛应用,其可能生成有害内容的问题引发关注。本研究聚焦AI对齐中的过滤机制,重点分析输入提示(前过滤)和生成输出(后过滤)两种干预方式的计算可行性。
核心发现如下:
- 输入过滤的局限性:证明存在一类LLM,其无法被高效的前置提示过滤器防御——攻击者可构造对抗性提示,这些提示在计算复杂度上与良性提示无法区分,却能诱导模型输出有害内容。
- 输出过滤的不可行性:在特定自然场景下,后置输出过滤被证明是计算不可行的。所有分离结果均基于密码学硬度假设。
研究还形式化分析了其他缓解方案,揭示了更深层的计算障碍。结论表明:仅通过外部过滤机制(独立于模型架构与权重)无法实现安全性,尤其是仅依赖LLM黑盒访问时。基于技术结果,作者提出AI系统的智能与判断本质上是不可分割的。
研究领域涉及人工智能(cs.AI)与密码学安全(cs.CR),为AI对齐提供了理论层面的关键限制证明。