AI的兆瓦与吉瓦级能耗
我们如今无法不谈能源问题。自从年初投入5000亿美元数据中心的Stargate项目浮出水面,我们就一直在讨论这个问题。自从那篇已成经典的"随机鹦鹉"论文发表以来,我们一直在讨论这个问题。而且,随着时间的推移,这只会成为一个更加突出的问题。
“随机鹦鹉"涉及两个问题:AI的能耗和生成式AI的基本性质;根据统计模式选择词序列。我一直希望这是两篇独立的论文,因为这样更容易在能源问题上持不同意见,而在鹦鹉问题上达成一致。对我来说,能源问题某种程度上是转移注意力的话题——但我越来越发现,这个转移注意力的话题不会消失,因为有太多拥有太多资金的人想要这些"鲱鱼”;太多人相信垄断能源(或垄断支付能源费用的能力)是主导地位的途径。
为什么在一个比我们现在生活的世界更好的世界里,能源问题会是转移注意力的话题?有几个相关的原因:
- 我一直假设第一代语言模型将非常低效,随着时间的推移,我们将开发更高效的算法
- 我还假设语言模型的经济学将类似于芯片代工厂或制药工厂:代工厂生产的第一块芯片成本几十亿美元,之后的一切都是每片一美分
- 我相信(现在比以往任何时候都更相信)从长远来看,我们将采用可以在本地运行的小型模型(700亿参数或更少),而不是在云端运行的具有数万亿参数的巨型模型
我仍然相信这些观点大体上是正确的。但这还不够。让我们逐一讨论,从效率开始。
更好的算法
几年前,我看到了相当多关于更高效模型的论文。我记得有很多关于修剪神经网络(消除对结果贡献很小的节点)和其他技术的文章。解决效率问题的论文仍在发表——最著名的是DeepMind最近的"混合递归"论文——但它们似乎没有那么常见了。这仅仅是轶事数据,也许应该被忽略。更重要的是,DeepSeek用他们的R1模型震惊了世界,他们声称训练成本大约是领先前沿模型的1/10。很多评论坚持认为DeepSeek在测量能耗方面不够透明,但自那以后,其他几家中国实验室发布了能力很强的模型,却没有看到吉瓦级的数据中心。更近期的是,OpenAI发布了两个规模(120B和30B)的gpt-oss,据报道训练成本要低得多。这不是第一次发生这种情况——我听说苏联开发了惊人的高效数据压缩算法,因为他们的计算机比我们落后十年。如果我们允许的话,更好的算法可以胜过更高的电费、更好的CPU和更多的GPU。
这幅图景有什么问题?图景很好,但很多叙述都是以美国为中心的,这扭曲了它。首先,它被我们"越大总是越好"的信念所扭曲:看看我们的汽车、SUV、房子。我们习惯于相信具有万亿参数的模型必须比仅有700亿参数的模型更好,对吧?花费1亿美元训练的模型必须比可以经济地训练的模型更好?这个神话深深植根于我们的心理中。其次,它被经济学扭曲了。“越大越好"是潜在垄断者谈论需要越来越大的数据中心时利用的神话,最好用税收美元资助。这是一个方便的神话,因为说服潜在竞争对手他们需要花费数十亿美元建设数据中心是一种有效的消除竞争的方式。
一个尚未充分探索的领域是为专门任务开发的极小模型。Drew Breunig写了关于Stockfish(世界领先的国际象棋程序)中的微型国际象棋模型:它小到可以在iPhone上运行,并取代了更大的通用模型。它彻底击败了Claude Sonnet 3.5和GPT-4o。他还写了关于2700万参数的分层推理模型(HRM),在ARC基准测试中击败了Claude 3.7等模型。Pete Warden的Moonshine在浏览器中进行实时语音到文本转录——与我见过的任何高端模型一样好。这些都不是通用模型。它们不会生成代码;它们不会写你的博客文章。但它们在所做的事情上非常有效。如果AI要实现其"消失在墙中"的命运,成为我们日常基础设施的一部分,我们将需要非常准确、非常专门的模型。我们必须摆脱"越大越好"的神话。
推理成本
模型的目的不是被训练;而是进行推理。这是一个过于简化的说法,但训练的一部分是进行数万亿次推理,并调整模型的数十亿参数以最小化误差。单个请求所需的工作量只占训练模型所需努力的极小部分。这一事实直接导致了芯片代工厂的经济学:处理第一个提示的能力花费数百万美元,但一旦投入生产,处理一个提示的成本只有几分之一美分。谷歌声称处理一个典型的文本提示到Gemini需要0.24瓦时,明显少于加热一杯咖啡的水所需能量。他们还声称,软件效率的提高导致过去一年能耗降低了33倍。
这显然不是全部故事:数百万人使用ChatGPT的提示加起来,以及使用具有扩展内部对话才能得出结果的较新"推理"模块的使用也是如此。同样,开车上班而不是骑自行车会使全球温度升高纳分度——但当你将纳分度乘以数十亿通勤者时,就是另一回事了。可以说,使用ChatGPT或Gemini的个人不是问题,但认识到数百万用户频繁使用AI服务可能很快发展成问题也很重要。不幸的是,效率的提高通常不会导致能源使用的减少,而是在相同的能源预算内解决更复杂的问题,这也是事实。我们可能在推理模型、图像和视频生成模型以及其他现在在财务上变得可行的应用中看到这一点。这个问题需要吉瓦级数据中心吗?不,不是那样,但这是一个可以证明建设吉瓦级数据中心合理性的问题。
有一个解决方案,但需要重新思考问题。告诉人们使用公共交通或自行车通勤是无效的(在美国),告诉人们不要使用AI也将是无效的。问题需要被重新思考:重新设计工作以消除通勤(O’Reilly是100%在家工作),重新思考我们使用AI的方式,使其不需要云端托管的万亿参数模型。这使我们来到本地使用AI。
保持本地化
我们使用GPT-、Claude-、Gemini-*和其他前沿模型所做的几乎所有事情都可以在本地运行的更小模型上同样有效地完成:在小型公司机房甚至笔记本电脑上。本地运行AI还可以保护您免受可用性、带宽、使用限制和泄露私人数据的问题。这是一个潜在垄断者不希望我们听到的故事。再次,这是轶事数据,但我在笔记本电脑上运行300亿参数范围的模型所得到的结果给我留下了深刻印象。我生成代码并得到大部分正确的代码,模型可以(通常)为我修复;我要求对博客和论文进行总结,并得到优秀的结果。Anthropic、谷歌和OpenAI在高度被操纵的基准测试中竞争十分之一个百分点,但我怀疑这些基准分数有多少实际意义。我很想看到关于Qwen3-30B和GPT-5之间差异的研究。
这对能源成本意味着什么?这还不清楚。如果人们在本地进行推理,就不需要用于推理的吉瓦级数据中心,但十亿用户在高性能笔记本电脑上进行推理的后果是什么?如果我给我的本地AI一个困难的问题,我的笔记本电脑会发热并运行风扇。它使用更多电力。而笔记本电脑不如为最小化电力使用而设计的数据中心高效。嘲笑吉瓦级是很容易的,但当你使用那么多电力时,最小化电力消耗可以节省大量资金。规模经济是真实存在的。就个人而言,我会赌笔记本电脑:计算300亿参数无疑比计算3万亿参数能源密集度低。但我不会屏息等待有人做这项研究。
这个问题的另一面涉及"推理"模型。所谓的"推理模型"有一个内部对话(并不总是对用户可见),模型在其中"规划"它将采取哪些步骤来回答提示。最近的一篇论文声称,较小的开源模型往往比大模型生成更多的推理令牌(比较的模型不同,多3到10倍),并且广泛的推理过程侵蚀了较小模型的经济性。推理令牌必须像任何用户生成的令牌一样被处理;这种处理会产生费用(论文讨论了这一点),而费用可能与电力直接相关。
虽然小模型生成更多推理令牌令人惊讶,但推理昂贵并不奇怪,我们需要考虑到这一点。推理是一种要使用的工具;当模型被要求解决数学问题时,它特别有用。当任务涉及查找事实、总结、写作或提出建议时,它的用处要小得多。它可以在软件设计等领域提供帮助,但对于生成代码可能是一个负担。在这些情况下,推理过程实际上可能变得误导——除了消耗令牌之外。决定如何有效使用模型,无论您是在本地还是在云端运行它们,都是我们面临的任务。
去使用巨型推理模型获取"最佳可能答案"总是一种诱惑,特别是当你知道你不需要最佳可能答案时。承诺使用较小的模型需要一些纪律——尽管很难争辩说使用前沿模型工作量更少。你仍然需要分析它们的输出并检查它们的结果。我承认:尽管我致力于较小的模型,但我倾向于坚持使用300亿参数范围的模型,避免10亿-50亿参数的模型(包括优秀的Gemma 3N)。我确信这些模型会给出好的结果,使用更少的电力,运行更快。但我仍在努力摆脱我的本能假设。
更大不一定更好;更多电力不一定是通往AI主导地位的途径。我们还不知道这将如何发展,但我会把赌注放在以效率为目标的本地运行的较小模型上。无疑会有一些应用需要大型前沿模型——也许是为训练较小模型生成合成数据——但我们真的需要理解哪里需要前沿模型,哪里不需要。我打赌它们很少需要。如果我们摆脱仅仅因为它存在就使用最新、最大前沿模型的欲望——无论它是否比300亿参数的模型更好地服务于你的目的——我们就不需要大多数那些巨型数据中心。不要被AI工业综合体所诱惑。