世界顶级AI公司加大世界模型研发投入
全球顶尖人工智能团队正在加强对"世界模型"的关注,这些模型能够更好地理解人类环境,为实现机器"超智能"寻找新途径。
谷歌DeepMind、Meta和英伟达等公司正试图通过开发旨在从视频和机器人数据(而不仅仅是语言)中学习来导航物理世界的系统,在AI竞赛中取得优势。
大语言模型进步放缓
这一推动正值人们对大语言模型(为OpenAI的ChatGPT等流行聊天机器人提供动力的技术)是否达到进展天花板的问题浮现之际。
尽管投入了巨额开发资金,但OpenAI、谷歌和埃隆·马斯克的xAI等公司发布的LLM之间的性能飞跃一直在放缓。
世界模型的巨大潜力
英伟达Omniverse和模拟技术副总裁Rev Lebaredian表示,世界模型的潜在市场可能巨大,几乎相当于全球经济的规模,因为它将技术带入物理领域,如制造业和医疗保健行业。
“世界基础模型的机会是什么?基本上…如果我们能制造出理解物理世界并在物理世界中运作的智能,那就是100万亿美元,“他说。
技术挑战与应用前景
世界模型使用真实或模拟环境的数据流进行训练。它们被视为推动自动驾驶汽车、机器人技术和所谓AI代理进步的重要步骤,但需要大量数据和计算能力来训练,并被认为是一个尚未解决的技术挑战。
这种对LLM替代方法的关注在最近几个月变得明显,几家AI团队在世界模型方面发布了一系列进展。
各公司最新进展
上个月,谷歌DeepMind预览了Genie 3,它逐帧生成视频并考虑过去的互动。以前,视频生成模型通常一次创建整个视频,而不是逐步创建。
Meta正试图通过在其V-JEPA模型上训练原始视频内容,复制儿童通过观察周围世界被动学习的方式。
其由Meta首席AI科学家Yann LeCun领导并专注于长期AI项目的Facebook人工智能研究实验室在6月发布了该模型的第二个版本,并一直在机器人上进行测试。
娱乐产业应用
世界模型的一个近期应用是在娱乐行业,它们可以创建互动和逼真的场景。由AI先驱李飞飞创立的初创公司World Labs正在开发一种从单张图像生成类似视频游戏的3D环境的模型。
与包括Lionsgate在内的好莱坞工作室有交易的视频生成初创公司Runway上个月推出了一款产品,使用世界模型创建游戏设置,实时生成个性化故事和角色。
数据收集挑战
为了构建这些模型,公司需要收集大量关于世界的物理数据。
旧金山-based Niantic已绘制了1000万个地点,通过包括《Pokémon Go》在内的游戏收集信息,该游戏有3000万月活跃用户与全球地图互动。
Niantic运营《Pokémon Go》九年,即使该游戏于6月出售给美国的Scopely后,其玩家仍然通过扫描公共地标贡献匿名数据,以帮助构建其世界模型。
未来展望
Niantic和英伟达都在努力通过让他们的世界模型生成或预测环境来填补空白。英伟达的Omniverse平台创建并运行此类模拟,协助这家4.3万亿美元科技巨头向机器人技术推进,并建立在视频游戏中模拟真实环境的长久历史上。
英伟达首席执行官黄仁勋断言,公司的下一个主要增长阶段将来自"物理AI”,新模型将彻底改变机器人技术领域。
像Meta的LeCun这样的人士表示,这种新一代AI系统为具有人类水平智能的机器提供动力的愿景可能需要10年才能实现。
但据AI专家称,这项尖端技术的潜在范围是广泛的。世界模型"为服务所有这些其他行业并放大计算机为知识工作所做的同样事情开辟了机会,“英伟达的Lebaredian说。