超越大语言模型:下一代AI架构JAPA解析

某中心AI首席科学家揭示大语言模型的根本局限性,提出基于联合嵌入预测架构(JAPA)的新型AI系统。该系统能理解物理世界、实现持续记忆和复杂推理,预计3-5年内实现小规模应用,十年内达到人类水平智能。

超越语言边界:构建理解物理世界的新型AI系统

某中心首席AI科学家在近期技术会议上指出,大语言模型(LLMs)存在根本性局限,认为其仅是"简单的推理方式"。真正的突破将来自能理解、推理并与复杂物理世界互动的系统。

当前AI的局限性

现有大语言模型基于token预测的方法存在本质缺陷。token通常代表有限的可能性集合(约10万个),适用于语言等离散数据。但物理世界是"高维且连续的"。

人类在生命最初几个月就获得"世界模型",能理解因果关系——例如从顶部推瓶子会翻转,从底部推则会滑动。这种对物理的直观理解很难用设计来预测离散token的系统复制。

联合嵌入预测架构(JAPA)的解决方案

JAPA不尝试像素级重建,而是专注于学习数据的"抽象表示":

  • 输入数据(如视频片段或图像)通过编码器产生抽象表示
  • 输入的延续或变换版本也通过编码器处理
  • 系统在"表示空间"(潜在空间)而非原始输入空间进行预测

这种方法避免了系统可能忽略输入并产生恒定、无信息表示的崩溃问题。

JAPA在推理和规划中的应用

对于能够推理和规划的代理系统,JAPA提供了强大机制。设想一个预测器,在观察当前世界状态后,能够预测"假设我采取想象行动后的下一个世界状态"。这允许规划一系列行动来实现期望结果,模仿人类固有的推理和规划方式。

某中心正在开发的VJA(视频联合嵌入预测架构)项目展示了JAPA的潜力。该系统通过测量预测误差,能够检测视频是否"物理上可能",标记物体自发出现或消失等"异常"事件。

实现高级机器智能的路径

专家估计可能在3-5年内小规模实现这种高级机器智能(AMI),十年左右达到人类水平AI。但关键瓶颈是数据——大语言模型需要海量文本训练,而4岁儿童仅通过视觉在16,000小时内处理等效数据量。

解锁AMI的关键在于发现大规模训练JAPA架构的"正确配方",就像当年需要时间找出训练深度神经网络和变换器的正确工程技巧组合一样。

开源与全球协作的重要性

开源AI平台对创新至关重要。某中心对开源的承诺源于相信它能培育繁荣的初创企业生态系统,让最多聪明人贡献构建基本功能。

开源AI对未来的关键性体现在:

  • AI助手多样性需求
  • 分布式训练模式
  • 专有数据上的微调能力

硬件推动下一次AI革命

实现AMI和复杂世界模型需要不断增长的计算能力。虽然GPU能力已有惊人进步,但在抽象空间中进行推理的计算成本意味着"我们需要尽可能多的硬件竞争"。

在特定"边缘计算"场景中,处理器内存一体化或模拟/数字处理器和内存技术显示出前景。生物视网膜提供了一个类比:它在传感器上处理大量视觉数据并进行压缩,然后发送到视觉皮层,这表明数据传输而非计算本身往往消耗最多能量。

未来展望:超级智能虚拟员工团队

最终愿景是AI系统成为增强人类能力的"强力工具"而非替代品。与未来AI的关系将是命令式的;人类将是"老板",拥有"为我们工作的超级智能虚拟员工团队"。这种协作未来将由开放研究和开源平台驱动,利用全球每个人的贡献,带来多样化的AI助手,增强日常生活。

本质上,AI的未来不是突然出现的单一黑箱实体,而是一个协作、迭代的过程,就像建造一个宏伟复杂的城市,每个建造者、建筑师和工程师都为共享蓝图贡献独特专业知识,最终形成充满活力和多样性的高级机器智能大都市。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计