如何运行HunyuanVideo 1.5
从文本或静态图像生成视频是深度学习技术真正令人惊叹和独特的应用之一。无论是天马行空的幻想还是平凡的活动,现在我们只需敲击几下键盘就能看到它的动态呈现。
视频具有图像所没有的魔力,它赋予了一种真实感,这在以往的技术中很难捕捉,即使使用先进的CGI也是如此。对于图像生成器,我们几乎可以创造出任何能想到的东西,并且通过像Photoshop这样的工具花费时间和精力可以做得更好。从这个意义上说,视频生成器则更加通用,能够为动态而非静态的独特主体创造出复杂的变化、运动和效果。
在本文中,我们希望介绍开源深度学习模型中视频生成领域最新的技术成果:HunyuanVideo 1.5。这个模型于上周晚些时候发布,其性能与闭源模型如Wan2.5和Sora 2不相上下,并且没有闭源模型可能带来的限制使用或访问的问题。
借助DigitalOcean的Gradient GPU Droplets,可以轻松地使用流行的ComfyUI和DiffSynth-Studio工具运行HunyuanVideo 1.5。在本文中,我们将探讨HunyuanVideo的强大之处,然后展示如何在Gradient上运行该模型。为了演示,我们将逐步讲解在使用NVIDIA H200驱动的GPU Droplet上运行该模型所需的所有步骤。
前提条件
- 能够访问NVIDIA GPU Droplet
关键要点
- HunyuanVideo 1.5是一套包含文本到视频、图像到视频和视频超分辨率功能的模型套件,性能与最佳闭源模型(如Wan2.5和Sora 2)不相上下。
- 该模型仅有83亿参数,能够在消费级GPU上高效地进行推理。
- 借助由NVIDIA H200驱动的Gradient GPU Droplets,我们可以在几分钟内生成720p的视频。
HunyuanVideo 1.5
HunyuanVideo 1.5是一个轻量级但功能强大的视频生成系统,仅使用83亿参数就能提供最先进的视觉质量和运动连贯性,从而在消费级GPU上实现高效推理。其卓越性能源于几个关键组成部分:严格的数据筛选、融合了选择性滑动瓦片注意力(SSTA)的先进DiT架构、通过字形感知文本编码增强的双语能力、渐进式的预训练和后训练策略,以及高效的视频超分辨率模块。这些元素共同构成了一个统一的框架,支持跨多种时长和分辨率的高质量文本到视频和图像到视频生成。
训练
HunyuanVideo 1.5的训练有两个关键特点:严格的数据筛选和使用Muon优化器。在数据采集阶段,他们优先考虑数据多样性和质量。他们从各种视频渠道获取数据,然后将数据分割成2-10秒的片段以优化训练效率。之后,他们对数据进行筛选,以确保视觉质量、美感以及视频边框等基本特征。
为了给视频添加字幕,他们采用了与HunyuanImage 3.0相同的过程,涉及“(1)用于结构化图像描述的分层模式,(2)用于多样化数据增强的组合合成策略,以及(3)专门用于事实基础验证的智能体”。这共同构成了一个强大系统,能够高效地为后续训练中的每个视频生成字幕。
最后,我们来到了实际的训练阶段。他们分三个阶段进行训练。首先,他们训练文本到图像(t2i)任务,分别在256p和512p分辨率下进行。t2i训练使模型能够学习文本和图像之间的语义对齐。他们发现这有效地改进了模型训练,加速了后续文本到视频(t2v)和图像到视频(i2v)阶段的收敛和性能。
在预训练期间,他们采用混合训练方法,以1:6:3的比例整合T2I、T2V和I2V任务,平衡语义深度和视频特定建模。优先使用大规模T2I数据集来丰富模型对视觉语义的理解并扩展生成多样性,而T2V和I2V任务则确保强大的视频特定能力。采用了结构化的多阶段渐进策略(见表2中的阶段III到VI),从256p分辨率、16 fps开始,逐渐提升到480p和720p、24 fps,视频时长涵盖2到10秒。这种时空分辨率的逐步提高促进了稳定收敛,并增强了模型生成细节丰富、连贯视频输出的能力。在后训练阶段,他们实施了一系列交织的阶段,包括继续训练、强化学习和监督微调,分别应用于i2v和t2v任务。最终,这些阶段产生了最终的i2v和t2v模型。
架构
上图展示了统一的扩散变换器架构。这概述了模型在推理过程中生成图像的路径。例如,“对于I2V任务,参考图像通过两种互补策略整合到模型中:(1)基于VAE的编码,其中图像潜在表示沿着通道维度与噪声潜在表示连接,以利用其卓越的细节重建能力;以及(2)基于SigLip的特征提取,其中语义嵌入被顺序连接,以增强语义对齐并加强I2V生成中对指令的遵循。引入了一个可学习的类型嵌入来明确区分不同类型的条件。”
变分自编码器(VAE)是一种“为联合图像-视频编码而设计的因果3D变换器架构,实现了(16 \times)的空间压缩比和(4 \times)的时间压缩比,潜在通道维度为32”。文本编码器是一个多模态LLM(MLLM),利用Qwen 2.5 VL作为多模态编码器。Glyph ByT5的进一步集成增强了模型理解和渲染不同语言文本的能力。最后,他们还使用SigLip将图像和文本对齐到一个共享的表示空间中,用于零样本图像分类和图像-文本检索等任务。
为了跨多种模态处理所有这些数据,他们使用了一种新颖的注意力机制,称为选择性和滑动瓦片注意力(SSTA)。“SSTA算法包含四个关键步骤:3D块划分、选择性掩码生成、STA掩码生成和块稀疏注意力。他们提出了一个用于稀疏注意力机制的工程化加速工具包,利用ThunderKittens框架高效实现flex_block_attention算法。”
如何在Gradient GPU Droplet上运行HunyuanVideo 1.5
要开始在Gradient GPU Droplet上运行HunyuanVideo 1.5,我们建议按照本教程操作。它将概述启动GPU Droplet并配置SSH访问所需的所有步骤,然后讨论如何设置VS Code/Cursor以使用Simple Browser功能,在本地浏览器中访问运行在你云端机器GPU上的ComfyUI。我们推荐在本教程中使用NVIDIA H200 GPU。
按照教程启动GPU Droplet后,使用SSH从本地终端访问它。切换到您选择的工作目录,然后将以下代码粘贴到终端中。它将克隆ComfyUI仓库,下载所需模型,并运行ComfyUI启动命令。
|
|
然后,将终端输出的URL值复制并粘贴到VS Code或Cursor的Simple Browser中。接着点击右上角的箭头按钮,在你的浏览器中打开ComfyUI。之后,从ComfyUI示例页面下载工作流JSON文件(或点击此处获取文本到视频工作流,点击此处获取图像到视频工作流),并在ComfyUI中打开它。如果一切正常,你应该会看到类似下面的界面:
现在,你可以通过输入提示词开始生成视频。更改高度、宽度、步数和帧数值可以对输出进行额外调整。此工作流还包括视频超分辨率放大功能,只需“绕过”工作流下半部分所有紫色模糊处理的模块即可。如果你运行该工作流,应该会得到以下视频输出:
我们可以看到,即使在原始视频缩小的GIF版本中,质量也非常出色。总的来说,这是一个用于生成各种风格视频的绝佳模型,包括3D、动画、写实等等。在H200上,它可以在几分钟内生成这些视频。我们强烈推荐使用ComfyUI来生成HunyuanVideo 1.5的视频。
结语
HunyuanVideo 1.5是一个出色的视频模型,在纯视频生成能力方面可与Sora 2等模型媲美。得益于创新的训练策略,我们期待未来的发布将对开源视频生成领域产生更加深远的影响。我们鼓励大家今天就到Gradient上尝试这个模型!