在DigitalOcean GPU Droplet上运行Z-Image-Turbo的完整指南

本教程详细介绍了如何在DigitalOcean的Gradient GPU Droplet上部署和运行最新的开源文本到图像模型Z-Image-Turbo。通过ComfyUI界面,利用NVIDIA H200 GPU,仅需6秒即可生成2048x2048像素的高质量图像。

Stable Diffusion 1.5、Stable Diffusion XL和Flux.1是有史以来最重大的文本到图像深度学习模型发布,这绝非偶然。它们有两个共同点:多功能性和小体积。多功能性确保了所有用例的用户都能充分利用这些模型,从超写实到动漫再到绘画风格。小体积确保了它可以在消费级GPU上以合理的速度运行,这使得这些模型比竞争对手传播得更快。正因如此,这些模型像链式反应一样出现在公众面前,其影响至今仍在持续。

Z-Image-Turbo是最新完美达到这些标准的模型。这个来自阿里巴巴通义-MAI团队的多功能模型是真正的下一代开源文本到图像模型,似乎结合了Black Forest Labs Flux.1模型系列惊人的提示遵循能力和Stable Diffusion XL惊人的多功能性。

我们欣喜地看到这个版本在开源社区中起飞,并希望向您展示如何在DigitalOcean上运行这个模型。在这个快速教程中,我们将一步步指导您如何使用ComfyUI在DigitalOcean Gradient GPU Droplet上运行Z-Image-Turbo。通过利用DigitalOcean的NVIDIA H200 GPU,我们可以在短短6秒内生成单张2048x2048像素的图像!

请继续阅读以获取详细信息!

关键要点

  • 在NVIDIA H200上运行Z-Image-Turbo,借助DigitalOcean Gradient Cloud变得轻而易举。
  • Z-Image-Turbo是文本到图像生成开源技术的下一代产品。
  • ComfyUI现在就可以运行Z-Image-Turbo Pipeline!

设置GPU Droplet

要开始使用Z-Image-Turbo,我们需要足够的GPU计算资源。DigitalOcean平台上的任何GPU都能充分运行Z-Image-Turbo,这证明了该模型的出色程度,但这并不意味着我们应该限制自己。更快的速度可以带来更好的实验效果和更多样化的输出结果。因此,我们建议至少使用单个NVIDIA H200来运行此模型。请按照此教程的分步说明,设置您的环境以在GPU Droplet上运行AI/ML技术。

一旦您的GPU Droplet启动完毕,并且您已通过本地机器的SSH访问到它,就可以进入下一部分。

设置ComfyUI

要真正开始生成图像,我们需要设置ComfyUI。ComfyUI是最受欢迎的开源图像生成工具,文本到图像深度学习模型(t2i)的成功通常依赖于其在ComfyUI平台上的普及。

为了让入门变得简单,我们将提供一个简短的脚本,该脚本将获取启动ComfyUI所需的一切,安装必要的软件包,下载模型文件,然后运行UI。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
apt install python3-venv python3-pip
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
cd models/text_encoders
wget https://huggingface.co/Comfy-Org/z_image_turbo/resolve/main/split_files/text_encoders/qwen_3_4b.safetensors
cd ../vae
wget https://huggingface.co/Comfy-Org/z_image_turbo/resolve/main/split_files/vae/ae.safetensors
cd ../diffusion_models
wget https://huggingface.co/Comfy-Org/z_image_turbo/resolve/main/split_files/diffusion_models/z_image_turbo_bf16.safetensors
cd ../../
python main.py

完成此操作后,从终端获取输出URL,并将其输入到您已附加SSH的Cursor或VS Code窗口的简单浏览器中。可以通过按下command+p(或相应系统的快捷键)并输入"simple browser",然后输入URL来完成。然后,我们可以点击窗口右上角的箭头按钮,在本地浏览器窗口中打开ComfyUI。

使用ComfyUI生成图像

使用下图嵌入的模板来打开用于使用Z-Image-Turbo生成图像的正确模式。

此模式的json架构也可以在此处找到。

完成后,点击运行按钮即可生成上述图像的副本!然后,我们可以编辑提示词、图像宽度和高度以及种子,以修改pipeline的输出。

在上图中,我们可以看到使用ComfyUI和Z-Image-Turbo生成的一系列示例。正如我们所见,该模型具备出色的提示遵循能力、文本生成能力、风格运用能力以及对角色的识别能力。显然,这是我们所见过的功能最强大、最多样化的图像生成模型。

结束语

Z-Image-Turbo是一项真正的成就。它是自Flux.1发布以来开源图像生成领域最伟大的进步,并且可以说是一个更伟大的模型。我们迫不及待地期待用于微调的Z-Image-Base和用于图像编辑的Z-Image-Edit的发布。阿里巴巴确实完成了一项出色的工作,我们鼓励大家今天就使用DigitalOcean Gradient的GPU Droplets来尝试Z-Image-Turbo!

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计