通用型AI无法扩展
Daemonic Dispatches Colin Percival的随想
通用型AI无法扩展
最近关于AI的讨论很多,科技行业特别关注一个关键点:模型训练的成本。据一些业内人士透露——以及英伟达的市值表现——AI训练所需的计算能力可能会颠覆整个半导体行业。这并不令人惊讶:通用型AI无法扩展。
从根本上说,训练一个规模为N的模型相当于在N维空间中进行爬山优化。您需要O(N)个输入,将它们通过模型运行,并在每个输入后稍微调整模型参数以接近期望响应。您需要O(N)个输入是因为如果少于这个数量,模型就会过拟合——本质上是记住特定的输入集而不是从中进行泛化——而对于每个输入,您需要执行O(N)计算,因为模型中有N个参数需要调整。最终结果:O(N²)计算量。
当然,AI领域还存在许多其他问题——最大的问题之一是生成足够的训练数据(对于象棋或围棋来说很容易,可以让AI自我对弈,但对于通用知识,您最终会耗尽教科书资源)——您可以通过投入更多资金暂时对抗扩展定律;但最终您无法战胜扩展性。结果只会是得不偿失。
那么解决方案是什么?不要做通用型AI。相反,我们需要转向使用专家AI池。不要使用单个规模为N的模型,而是将模型拆分为k个部分,每个部分在N/k个输入上进行训练。一个子模型学习所有医学知识;另一个学习所有现代艺术知识。您仍然有N个输入,但由于每个输入仅用于优化一组N/k参数,您的训练成本现在变为O(N²/k)。
是的,这样做会损失一些东西——您可能不会得到描绘多肽的现代艺术作品的幻觉。但是,就像人类一样,大多数查询可以由合适的专家回答;拥有一组专家比训练一个成本过高而无法有效训练的通用型AI更好。(甚至可以有一个“调度器”子模型,它足够了解如何识别应该将查询转交给哪位专家。)通过降低训练成本,您能够构建一个比通用模型更大——更智能——的模型集合。
专业化不仅仅适用于昆虫。它也适用于AI。
发布于2024-04-06 15:30 | 永久链接 | 4条评论