为什么我认为Karpathy对AGI时间线的判断有误

本文探讨了AGI定义分歧对预测时间线的影响,指出应关注能够替代普通知识工作者的AI系统而非单纯大语言模型,分析了现有AI系统如何通过工程优化突破模型限制,并预测AGI可能在2028年前实现。

为什么我认为Karpathy对AGI时间线的判断有误

错误的AGI定义(在我看来)

普遍共识似乎是Karpathy认为AGI距离我们还有10年,因此Gary Marcus是正确的,而像我、Sholto和其他声称AGI将在几年内实现的人已经输掉了这场争论。

这个说法很吸引人,但我不认同。

这场关于AGI的辩论始终围绕着定义展开,而我认为Karpathy使用的定义正是他错误的原因。这个定义来自他在OpenAI工作时期:

一个能够完成任何经济价值工作,且表现达到或超过人类水平的AI。

OpenAI / Karpathy的AGI定义

我不认为这是最好的定义。作为一个纯粹的定义或计算机科学定义,我相当喜欢它,但我认为我们应该使用一个更实际、更直接关注对人类最重要事物的定义(而不是我们这些AI从业者)。

仅替代美国知识工作者就有10万亿美元的总可用市场,全球达到50万亿美元。

研究

我担心人类工作者被替代的问题,特别是人类知识工作。这就是为什么我从2023年开始使用这个定义(我相信Dwarkesh现在也在使用它):

一个能够替代普通知识工作者的AI系统。

对我来说,这个定义更好的原因有两个:

  • 它聚焦于这是一个AI系统,而不是系统的某个特定组成部分(比如模型)
  • 它为我们关心的事物提供了更直接的基准,即:公司是否真的在用这个系统替代工人?是或否?

系统部分至关重要

为什么“系统”与LLM的区别很重要?

对于纯LLM的局限性,我没有理由——也没有能力——不同意Karpathy的观点。他最近又用1000行代码写了一个LLM。他是真正的大师,我对LLM的了解只有他的0.00017%。

问题是AI系统不仅仅是LLM本身。它们不是裸露的神经网络。

当你访问chatgpt.com与GPT-5对话时,你不是在与基础神经网络交谈;你是在与一个AI系统交谈。

你是在与那个初始LLM经过大量额外支架和工程工作塑造和打磨后的结果交谈,目的是使其成为执行特定任务的最佳可能系统。在这种情况下,是作为聊天机器人/助手。

这种区别至关重要,因为替代人类工作也将通过组合、拼接在一起的系统来完成,这些系统比它们的组成部分强大许多倍。

为了替代项目经理或行政助理,构建人类工作者替代品的公司不会等待GPT-9或Gemini 7.5(可能)解决他们的问题。

RAG、扩展的上下文窗口和一般的上下文管理就是很好的例子。

人类工作者替代将通过AI产品/系统发生,这些系统绕过了纯LLM和单个模型智能的局限性。

Claude Code是一个绝佳的例子

粗略估计,Claude Code在推出时,在帮助开发人员编写代码方面比Opus(其最佳模型)好5倍左右。

而现在不到10个月,它已经比那时好了许多倍。天壤之别。

抛开技能本身实际上就是工作替代这一事实不谈。

是的,模型变得更好,但这不是造成差异的原因。差异来自于不断迭代改进,致力于改善AI与自身对话的方式。协调。上下文管理/工程。而现在他们刚刚添加了技能,将整个系统提升到了极致。

这正是将应用于人类工作替代的效率提升机制。当我们没有足够的上下文窗口来阅读公司的所有文档时,公司将会/已经发明了系统来做这件事。

当它们不够通用以匹配人类的灵活性时,它们将添加大量优秀的使用案例和能力——大致基于代理技能范式——以至于我们最终不会注意到,因为它将覆盖大部分情况。

足够好以替代糟糕工人的标准很低,而且没有提高

关于AI替代人类知识工作者的进展速度,最让我担心的不是AI系统改进的速度,而是标准如此之低。

我们文化中的很大一部分喜剧基于我们大约一半劳动力的完全无能。

  • 最糟糕的客户服务
  • 人们吹嘘自己工作做得多么少
  • 把做最低限度的工作当成一种运动
  • 人们绝对厌恶自己的工作
  • 即使是体面的工人也只是机械地打卡上下班

平庸是基线。几乎根据定义就是如此。

这就是价值数十亿美元的人类工作者替代初创公司所要竞争的——不是你所知道的前10%表现者。至少目前是这样。

这样想:在我们从Claude Code不存在,到它变得真正优秀,再到它现在拥有可共享的工作任务替代技能的时间里,底层50%的知识工作者提高了多少?

零。

自从ChatGPT问世以来,底层50%的知识工作者的能力提高了多少?

再次,0%。

人类工作替代的标准没有移动,而AI系统的能力正在疯狂增长。

但是等等,这只是针对底层50%,对吧?

你可能会反驳说这只是针对那些不太努力,或者不太聪明的人。

没错,但这不重要。

你、我、Dwarkesh和Karpathy都会没事的。那又怎样?我担心的是其他所有人。

或者,甚至是25%。谷歌统计的知识工作者总数超过10亿!

如果AI在未来5-10年内只吞噬最差的底层50%的知识工作者,我们仍然在谈论数亿个工作。

一半就是五亿人。而且我们已经确定这些是工作中最不称职的人,所以不——他们不会轻易转向另一个知识工作职位。

这就是为什么我在AGI问题上不同意Karpathy

这不是因为他关于LLM有严重局限性的观点错误。他没有错。但他关注的是错误的事情。

如果我们关心的是AI对人类近期和实际的影响,那么应该关注的不是纯LLM技术,也不是强化学习在实现持续学习方面的具体技术限制。

而是正在投入的数万亿美元,用于替代那些表现最差、可能永远不会比现在更好的人类工作者。

我想前10%的表现者会安全一段时间,但这并没有让我感觉好多少。

这些数万亿美元正被用于构建绕过LLM限制的支架解决方案,为我们提供刚好足够通用的AGI来开始替代人类。而且它只会从那里改进。

考虑到我们在Claude Code、Cursor和Codex等系统中看到的,这些系统显著放大了模型能力(而模型继续沿着自己的轴线改进),你真的想赌"足够好"的通用性不会在未来几年内实现吗?

我不会。

这就是为什么我认为AGI将在2028年之前到来(70%的概率),并在2030年之前到来(95%的概率)。

不是因为到那时Karpathy谈论的所有问题都会得到解决,而是因为无论如何这都不重要。

凭借数万亿美元的资金和数万亿美元的市场机会,我们几乎保证会以claude-code的方式超越数百万几乎不存在的员工的极低标准。

注释

另一个例子是当Sholto说,我们用于改进AI、进行AI工作和AI研究的AI管道都非常糟糕。它们基本上都是管道胶带、绳子和橡皮泥。过程的几乎每个部分都可以改进(转述)。

这是我自2023年初以来一直在谈论的更大观点的一部分,我称之为"绳子中的松弛"。有一千种不同的改进方式,它们共同构成了对整个系统改进的综合结果。问题是,我们不知道这一千个方面中的每一个有多少改进空间,但通常它们是乘性的!

所以可能是(请容我假设)在1000个管道中的第37个,我们将在未来两年内从13%的效率提高到14%。这不会有什么大作用。你乘以所有其他系统,也没什么大不了的。但也可能是,在1000个管道中的第349个,由于某个研究者在互联网上发布并现在所有大实验室都在使用的随机技巧,我们实际上将从12%的效率提高到87%的效率。突然之间,我们的整体AI能力爆炸性增长。

哦,顺便说一下,我认为Karpathy在播客中非常出色。我最喜欢的想法是,我们需要在生活中注入熵,尤其是随着年龄增长。因为就像模型崩溃一样,老年人也会崩溃。我真的很喜欢这个观点。我第二喜欢的想法是,进化不仅将神经网络权重编码到DNA中,还使用压缩来编码在更大脑中构建神经网络权重的机器。🧠💥

另一件值得说的是,Karpathy对技术的看法远不如回应中似乎暗示的那样悲观。他总体上非常乐观和看好。只是在那一集中讨论的是LLM的技术限制及其模拟人类智能的能力。

我在GDP增长问题上也不同意他的观点。我认为这是另一个没有考虑AI系统与LLM区别的例子,我认为由此产生的GDP增长限制将是缺乏足够的人来购买东西(那么为什么要生产更多?),而不是停滞在2%。我没有多想(也觉得没有资格这样做),但Dwarkesh的20%听起来不错。这取决于时间线。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计