AI预测回顾:你可能过度自信了
去年末,我发布了一篇文章,邀请读者对2027年和2030年AI技术的未来发展进行30项预测——从能否购买洗衣机器人,到领先AI实验室的估值预测,再到AI引发灾难的可能性估计。
但在设计问题时采用了特殊方式:没有直接询问“AI将解决多少数学定理”,而是要求提供90%置信区间的定理解决数量范围。本文将对人们的答案分布进行分析(现在评判正确性还为时过早)。以下是一个示例问题及其答案分布:
“在广泛认可的编程竞赛中,最佳现成AI系统的得分将优于X%到Y%的其他参赛者(90%置信区间)”
值得注意的是,无论2027年的实际结果如何,最多只有一半的人可能正确。尽管我要求人们提供90%置信区间,且任何人都可以给出[0,100]的范围,但许多人选择了非常狭窄的区间(更不用说某机构最近发布的o3模型可能已经达到90%以上得分)。
这种过度自信在所有问题中普遍存在,凸显了我日益增长的担忧:几乎所有人(甚至包括阅读我网站的读者!)都对技术发展方向表现出过度自信——无论是声称AGI即将到来导致全员失业,还是认为LLM永远无法完成有用工作且AI整体只是NFT式的泡沫。
逐问题分析
我提出了三十个问题,下面将依次分析其中几个最有趣的答案分布和回复。由于调查仅过去几个月,现在还不急于给出结论。或许到2026年,如果答案明确,我会开始提前解析部分问题。
AI实验室估值
“最有价值的AI实验室(如某机构、某中心等)估值将在X到Y亿美元之间(90%置信区间)” 该问题的答案差异极大(注意y轴为对数尺度)。有些人认为估值可能达到20万亿美元,而其他人则认为接近零。许多人对该问题的预测范围异常狭窄,至少部分人似乎对自己的预测极具信心,声称有90%把握认为最有价值的实验室估值正好在3000亿到5000亿美元之间。但这种范围是否过于狭窄?(不过我喜欢那个给出20亿到20万亿范围的人。)
竞争性编程
“最佳现成AI系统在广泛认可的编程竞赛中的得分将优于X%到Y%的参赛者(90%置信区间)” 这是最接近验证的问题。某机构的o3模型在CodeForces上已进入人类前1%。虽然尚未见其正式比赛,但如果2027年未能获得第一名反而会更令人惊讶(但“仅”进入前5%也不会意外。本应保持更宽误差范围!)最令人惊讶的是,有些人预测高端值低于前50%。即使在发布这些预测问题时,o1模型可能已经能在某些编程竞赛中进入前50%。因此他们的预测在提出时可能就已经错误。
成本每词
“性能至少相当于当前最先进系统的AI模型,生成100万输出词(约10本书)的成本在X到Y美元之间(90%置信区间)” 我认为这里人们过于悲观。仅看最近某中心发布的v3模型(虽未完全达到某机构4o或某中心3.5-sonnet水平),但成本仅为每百万token1美元。任何未将1美元纳入答案范围的人可能都会错误。引用某个我认同的回复:“过去两年LLM的训练和使用成本急剧下降,能力急剧提升。我认为会非常便宜。”我基本同意此观点,且惊讶于人们的平均猜测未能再降低5-10倍。
结论思考
这是关于“AI”的三部曲中的第2.5部分。第一篇文章中我讨论了如何运用最新模型推进自身研究;上次则邀请大家预测AI未来发展方向;本文正如所见,是对这些预测的总结。下次我计划通过讨论自己对AI未来的看法和担忧的风险来完结本系列。
如果你尚未进行预测,我真诚认为这是当下最能有效利用三十分钟的方式。并非因为我的问题特别出色,而是因为这个领域变化如此之快,保持谦逊态度并做出可证伪预测显得至关重要。如果你不喜欢上述问题,我鼓励你(公开地!)尽可能多地做出可证伪预测,让未来的自己能够检验过去的认知。
就此,下次我们将讨论我自己的预测。(希望一年后能开始以某种方式解析部分问题。)