AI安全需要社会科学家
正确将先进AI系统与人类价值观对齐,需要解决许多与人类理性心理学、情感和认知偏差相关的不确定性。这些问题只能通过实验实证解决——如果我们想训练AI执行人类期望的行为,就必须深入研究人类本身。
人工智能对齐概述
长期人工智能安全的目标是确保先进AI系统可靠地与人类价值观保持一致——即它们可靠地执行人类期望的操作。人类价值观大致指的是人们在每个案例中选择某个选项而非另一个的原因,经过适当反思修正,并考虑不同群体间的差异。
由于难以用精确规则描述人类价值观,一种方法是将价值对齐视为另一个学习问题:通过向人类提出大量关于其偏好的问题,训练机器学习模型来学习人类价值观,并优化AI系统使其符合学习到的价值观。
如果人类能可靠且准确地回答所有关于价值观的问题,该方案中唯一的不确定性将存在于机器学习侧。但人类存在知识局限和推理能力限制,并表现出各种认知和伦理偏差。直接询问偏好(“你更喜欢A还是B?")可能不如针对偏好背后的推理进行提问(“鉴于论点S,你更喜欢A还是B?")准确。
辩论:学习人类推理
辩论方法要求两个AI代理就某个问题的正确答案进行辩论,然后将辩论记录展示给人类裁判进行评判。裁判决定哪位辩手提供了最真实、有用的信息,并宣布其为胜者。这定义了一个双人零和博弈,目标是让人类相信自己的答案是正确的。
人类作为裁判的能力关键问题
- 默认情况下人类作为裁判的技能水平如何?
- 能否区分优秀裁判和糟糕裁判?
- 裁判能力是否具有跨领域泛化性?
- 能否通过训练提升人类的裁判能力?
- 人类更擅长回答哪些类型的问题?
- 是否存在限制辩论形式以简化裁判的方法?
- 人类如何协作提高判断质量?
实验设计方案
合成实验:单像素图像辩论
作为人类+人类+人类辩论实验的原型,设计了图像内容辩论平台:两名辩手能看到完整图像,而裁判只能看到辩手标注的矩形区域。每名辩手最后只能向裁判揭示一个像素点,这是辩论中唯一不能撒谎的部分。
真实实验:领域专家辩论
寻找特定领域的专家作为辩手,选择其专业领域内的问题,并使用非专业人土作为裁判。为保证真实答案来源,可选择在该领域内有共识答案的问题。
挑战与机遇
乐观因素
- 工程与科学的区别:AI对齐更接近工程问题,可以主动干预
- 无需回答所有问题:可以识别无法回答的问题类型
- 相对准确性可能足够:不同辩论结构的相对比较结果
- 无需确定最佳对齐方案:缩小设计空间即可
担忧因素
- 需求之间的冲突:实验任务选择标准相互矛盾
- 需要衡量在最优辩手情况下的裁判质量
- 机器学习算法将不断演进
- 需要强大的跨领域泛化能力
- 哲学清晰度不足:人类价值观缺乏哲学一致性
合作呼吁
AI安全社区需要社会科学家来解决关于AI对齐算法的主要不确定性:人类是否会给出高质量的问题答案?这种不确定性难以通过传统机器学习实验解决,因为当前机器学习能力仍然有限。
我们建议用人类替代机器学习组件,至少在ML系统能够参与我们感兴趣的复杂辩论之前如此。如果您是对这些问题感兴趣的社会科学家,请与AI安全研究人员交流!许多机构正在开展安全研究工作,包括某中心、某机构和伯克利CHAI等。
本文基于人类认知研究与人工智能安全交叉领域的实证研究需求,探讨了通过社会科学方法解决价值对齐问题的可行路径。