Genie 3:世界模型的新前沿
今天宣布推出Genie 3,这是一个通用世界模型,能够生成前所未有的多样化交互环境。根据文本提示,Genie 3可以生成动态世界,用户可以以每秒24帧的速度实时导航,在720p分辨率下保持数分钟的一致性。
迈向世界模拟
在某研究机构,过去十多年来一直在模拟环境研究领域处于领先地位,从训练智能体掌握实时策略游戏,到为开放式学习和机器人技术开发模拟环境。这项工作推动了世界模型的开发,这些人工智能系统可以利用对世界的理解来模拟其各个方面,使智能体能够预测环境如何演变以及它们的行动将如何影响环境。
世界模型也是通向通用人工智能的关键垫脚石,因为它们可以在丰富的模拟环境无限课程中训练人工智能智能体。去年推出了首个基础世界模型Genie 1和Genie 2,它们可以为智能体生成新环境。还通过Veo 2和Veo 3模型继续推动视频生成的技术水平,这些模型表现出对直观物理的深刻理解。
这些模型在世界模拟的不同能力方面都标志着进步。Genie 3是第一个允许实时交互的世界模型,同时相比Genie 2提高了一致性和真实感。
能力
Genie 3的能力包括:
建模世界的物理特性
体验自然现象如水和光照,以及复杂的环境交互。
模拟自然世界
生成从动物行为到复杂植物生命的充满活力的生态系统。
建模动画和虚构
挖掘想象力,创造奇幻场景和富有表现力的动画角色。
探索地点和历史设置
超越地理和时间界限,探索地方和过去时代。
推动实时能力的前沿
在Genie 3中实现高度可控性和实时交互性需要重大的技术突破。在自回归生成每一帧的过程中,模型必须考虑随时间增长的前生成轨迹。例如,如果用户在一分钟后重新访问某个位置,模型必须参考一分钟前的相关信息。为了实现实时交互,这种计算必须每秒多次进行,以响应新用户输入。
长时程环境一致性
为了使人工智能生成的世界具有沉浸感,它们必须在长时程中保持物理一致性。然而,自回归生成环境通常比生成整个视频更困难,因为不准确性会随时间累积。尽管存在挑战,Genie 3环境在数分钟内保持基本一致,视觉记忆可追溯至一分钟前。
可提示的世界事件
除了导航输入,Genie 3还支持更富有表现力的基于文本的交互,称为可提示的世界事件。可提示的世界事件可以改变生成的世界,如改变天气条件或引入新对象和角色,增强导航控制的体验。这种能力还增加了反事实或"假设"场景的广度,可用于从经验中学习的智能体处理意外情况。
推动具身智能体研究
为了测试Genie 3创建的世界对未来智能体训练的兼容性,为最近版本的SIMA智能体(用于3D虚拟设置的通用智能体)生成了世界。在每个世界中,指示智能体追求一组不同的目标,它通过向Genie 3发送导航动作来实现这些目标。与任何其他环境一样,Genie 3不知道智能体的目标,而是根据智能体的动作模拟未来。
由于Genie 3能够保持一致性,现在可以执行更长的动作序列,实现更复杂的目标。预计这项技术将在推动通用人工智能和智能体在世界中发挥更大作用时发挥关键作用。
局限性
虽然Genie 3突破了世界模型的能力边界,但必须承认其当前的局限性:有限的动作空间、其他智能体的交互和模拟、真实世界位置的准确表示、文本渲染以及有限的交互持续时间。
责任
相信基础技术需要从一开始就深刻承诺责任。Genie 3的技术创新,特别是其开放端和实时能力,引入了安全和责任的新挑战。为了解决这些独特风险同时最大化效益,与负责任开发与创新团队密切合作。
某研究机构致力于以放大人类创造力的方式开发最佳模型,同时限制意外影响。在继续探索Genie的潜在应用时,宣布Genie 3作为有限研究预览,向少量学者和创作者提供早期访问。这种方法允许在探索这一新前沿时收集关键反馈和跨学科观点,并继续建立对风险及其适当缓解措施的理解。期待与社区进一步合作,以负责任的方式开发这项技术。
后续步骤
相信Genie 3是世界模型的重要时刻,它们将开始对人工智能研究和生成媒体的许多领域产生影响。为此,正在探索如何将来向更多测试者提供Genie 3。Genie 3可以为教育和培训创造新机会,帮助学生学习和专家获得经验。它不仅可以提供广阔的空间来训练如机器人和自主系统的智能体,还可以评估智能体的性能并探索其弱点。在每一步中,都在探索工作的影响,并为其安全负责任地开发以造福人类。