关键要点
- Emu3.5是一种新型的多模态世界模型,能够原生地预测视觉和语言的下一个状态,非常适合创建视觉指南和故事。
- Emu3.5可以创建视觉指南,一步步引导你完成复杂的过程。
- 在由NVIDIA H200驱动的Gradient GPU Droplet上运行Emu3.5,只需几分钟即可开始!
Emu3.5:视觉引导流程概述
Emu3.5的最大创新在于其策略。这个独特的模型,其核心是一个“大规模多模态世界模型,能够原生地预测交织的视觉和语言的下一个状态”(来源)。这意味着该模型能够动态预测图像和文本生成过程中的下一步,创造出类似故事叙述或视觉引导的能力。为了实现这一点,该模型本身就是一个强大的LLM、有效的图像生成器和强大的any-to-any(图像编辑)模型。
该模型在一个庞大的预训练数据集上进行训练,该数据集整合了四个主要组成部分:
- 交织的视觉-语言数据:在视频的每个阶段都穿插有文本描述的视频。
- 视觉-文本对:图像与详细文本说明配对。
- any-to-image数据:一组图像,其标题准确描述了图像的更改。
- 纯文本数据:用于LLM训练的文本数据。
该模型在这份数据上主要分四个阶段进行训练:S1(阶段1),模型在10万亿个token上进行预训练;S2,模型进一步在3万亿个token上训练,以完善模型的能力(图像分辨率、模型准确性等);以及一个监督式微调后训练阶段,模型被训练来完成各种多模态任务,如any-to-any和视觉引导。最后,还有一个强化学习阶段,模型被进一步优化以达到人类标准的泛化能力、任务特定性和统一性(用单一模型完成不同任务的能力)。
在Gradient GPU Droplet上开始使用Emu3.5
要开始使用Emu3.5,我们需要足够的GPU计算资源。我们建议至少使用一块NVIDIA H200来运行此模型。请按照本教程的分步说明,在GPU Droplet上设置运行AI/ML技术的环境。
一旦你的GPU Droplet启动完毕,并且你已经通过SSH在本地机器上访问了它,请转到下一部分。
Emu3.5视觉引导Gradio演示
现在在我们的GPU Droplet中,我们可以通过将以下脚本粘贴到远程终端来设置Emu3.5:
|
|
这段代码块需要几分钟来运行,但它会为你设置运行Emu3.5所需的一切。一旦设置代码完全运行完毕,我们就可以启动演示。然后可以使用以下命令运行预制的演示:
|
|
对于本演示,我们将运行后者。一旦它启动,使用你的VS Code/Cursor应用程序的简单浏览器在你本地的浏览器中查看输出的URL,如设置教程中所述。
现在,让我们看一下应用页面。在这里,我们有两个选项,由中间的“Generation Mode”选项显示。选择“howto”进行视觉引导。接下来,我们可以输入我们想要模型展示如何完成的任务。例如,我们要求模型向我们展示如何在加利福尼亚淘金热中淘金。模型输出了一个5步流程,展示了如何在溪流和河流中淘金,如下图所示。
正如我们所看到的,指令细节丰富,照片对当前任务也很有信息量。我们还让模型尝试了其他各种问题,例如展示如何装订一本书,以及如何3D建模和打印一个可动人偶,都取得了巨大成功。总体而言,视觉引导模型表明,基于LLM的指令生成在Emu3.5中非常有效。
功能较少但更有趣的是,该模型也是一个出色的故事讲述者。我们要求模型讲述一个关于传统的龙与地下城小队在现代沃尔玛超市迷路的故事,并对模型想象角色的行为方式感到高兴。
最后,我们想看看另一个演示,即图像生成和编辑演示。看看上面的例子。我们要求模型将一个2D卡通恐龙图画变成一个逼真的3D表现。模型成功了,几乎没有伪影或原始2D性质的证据。这只是模型图像编辑能力的一个例子。总体而言,我们发现它比我们在图像编辑综述中涵盖的许多模型(甚至是Qwen Image Edit)更具多功能性和能力。
结语
Emu3.5或许是近期图像生成领域最具创新性的发布。利用图像和文本创建交织的故事和指南的能力,是将LLM和计算机视觉技术结合以解决实际问题的真正进步。不仅如此,Emu3.5本身也是一个强大的图像生成器和编辑器。我们建议使用此模型在你自己的指南和图像编辑任务上,超越所有可用的竞争模型范式。