人机对齐的内在障碍与实现路径

Sat, 06 Sep 2025 12:24:29 +0800

人机对齐的内在障碍与实现路径：基于一致性协议的复杂度分析

摘要

本研究将AI对齐形式化为一个称为ε-一致性的多目标优化问题，该框架以更少假设泛化了现有方法。在该问题中，一组智能体（包括人类）必须以至少δ的概率在m个候选目标上达成近似（ε）一致性。通过通信复杂度理论，我们证明了信息论下界：当m或1/ε足够大时，任何交互或理性都无法避免内在的对齐开销。这一障碍确立了对齐本身（而不仅是特定方法）的严格内在限制，阐明了关键的“没有免费午餐”原则：编码“所有人类价值”必然导致错位，要求未来方法必须通过共识驱动的目标缩减或优先级排序来显式管理复杂度。

人工智能对齐 on 办公AI智能小助手

人机对齐的内在障碍与实现路径

人机对齐的内在障碍与实现路径：基于一致性协议的复杂度分析

摘要