携手Black Forest Labs将FLUX.2 [dev]引入Workers AI:功能强大的开源图像生成模型

本文介绍了Cloudflare Workers AI平台与Black Forest Labs合作推出的开源图像生成模型FLUX.2 [dev]。它具备物理世界理解、多语言支持、突破性的角色一致性技术,以及通过JSON提示和HEX代码实现的精细控制能力,并提供了详细的API调用示例。

携手Black Forest Labs,将FLUX.2 [dev] 引入 Workers AI

最近几个月,随着谷歌的Nano Banana和OpenAI图像生成模型的兴起,我们看到闭源图像生成模型取得了飞跃。今天,我们很高兴地宣布,一个开放权重的新竞争者随着Black Forest Lab的FLUX.2 [dev]的发布而回归,并且可在Cloudflare的推理平台Workers AI上运行。

FLUX.2 模型介绍

我们一直是Black Forest Lab FLUX图像模型自早期版本以来的忠实粉丝。我们托管的FLUX.1 [schnell]版本因其逼真的输出和高保真的生成效果,是我们模型目录中最受欢迎的模型之一。因此,当有机会托管其新模型的授权版本时,我们立刻抓住了机会。

FLUX.2模型继承了FLUX.1的所有优点并加以强化,能够生成更加真实、有根据的图像,并增加了像JSON提示这样的自定义支持。

我们在Workers AI上托管的FLUX.2版本有一些特定的模式,例如使用多部分表单数据来支持输入图像(最多4张512x512的图像),并输出高达400万像素的图像。多部分表单数据格式允许用户在发送典型模型参数的同时,向我们发送多个图像输入。请查看我们的开发者文档变更日志公告,了解如何使用FLUX.2模型。

FLUX.2的特别之处:物理世界基础、数字世界资产和多语言支持

FLUX.2模型对物理世界有更鲁棒的理解,允许你将抽象概念转化为逼真的现实。它擅长生成逼真的图像细节,并始终如一地输出精确的手部、面部、织物、标识和小物件,这些往往是其他模型容易忽略的。它对物理世界的了解还能生成逼真的光照、角度和深度感知。

图1. 使用FLUX.2生成的图像,描绘了巴黎一家咖啡馆的精确光照、阴影、反射和深度感知

这种高保真输出使其成为需要卓越图像质量的应用的理想选择,例如创意摄影、电子商务产品拍摄、营销视觉设计和室内设计。因为它能理解上下文、色调和趋势,该模型允许你从简短提示中创建引人入胜且具有编辑质量的数字资产。

除了物理世界,该模型还能生成高质量的数字资产,例如设计着陆页或生成详细的信息图。它还能自然地理解多种语言,因此结合这两个特性——我们可以从一个法语提示中得到一个精美的法语着陆页。

角色一致性——解决“随机漂移”问题

FLUX.2提供具有最先进角色一致性的多参考编辑功能,确保任务中的身份、产品和风格保持一致。在生成式AI的世界里,获得高质量的图像很容易。然而,获得完全相同的角色或产品两次一直是难点。这种现象被称为“随机漂移”,即生成的图像逐渐偏离原始源材料。

图2. 随机漂移信息图(使用FLUX.2生成)

FLUX.2的突破之一是多参考图像输入,旨在解决这种一致性的挑战。你将能够改变图像的背景、光照或姿势,而不会意外改变模特的面孔或产品的设计。你还可以引用其他图像或将多个图像组合在一起,创造出新的内容。

在代码层面,Workers AI通过多部分表单数据上传支持多参考图像(最多4张)。图像输入是二进制图像,输出是base64编码的图像:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
curl --request POST \
  --url 'https://api.cloudflare.com/client/v4/accounts/{ACCOUNT}/ai/run/@cf/black-forest-labs/flux-2-dev' \
  --header 'Authorization: Bearer {TOKEN}' \
  --header 'Content-Type: multipart/form-data' \
  --form 'prompt=take the subject of image 2 and style it like image 1' \
  --form input_image_0=@/Users/johndoe/Desktop/icedoutkeanu.png \
  --form input_image_1=@/Users/johndoe/Desktop/me.png \
  --form steps=25
  --form width=1024
  --form height=1024

我们也通过Workers AI Binding支持此功能:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
const image = await fetch("http://image-url");
const form = new FormData();

const image_blob = await streamToBlob(image.body, "image/png");
form.append('input_image_0', image_blob)
form.append('prompt', 'a sunset with the dog in the original image')

const resp = await env.AI.run("@cf/black-forest-labs/flux-2-dev", {
    multipart: {
        body: form,
        contentType: "multipart/form-data"
    }
})

为真实世界用例而构建

最新的图像模型标志着向功能性商业用例的转变,超越了简单的图像质量改进。FLUX.2使您能够:

  • 创建广告变体:使用完全相同的演员生成50个不同的广告,他们的脸不会在帧之间变形。
  • 信任您的产品照片:将您的产品放在模特身上,或者放入海滩场景、城市街道或工作室桌面上。环境会改变,但您的产品保持精确。
  • 构建动态编辑内容:制作完整的时尚大片,其中模特在每一个镜头中看起来都一模一样,无论角度如何。

精细控制——JSON提示、HEX代码及更多!

FLUX.2模型通过允许用户通过JSON提示和指定特定十六进制代码等工具来控制图像中的小细节,实现了另一项进步。

例如,您可以发送以下JSON作为提示(作为多部分表单输入的一部分),生成的图像将严格按照提示执行:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
{
  "scene": "A bustling, neon-lit futuristic street market on an alien planet, rain slicking the metal ground",
  "subjects": [
    {
      "type": "Cyberpunk bounty hunter",
      "description": "Female, wearing black matte armor with glowing blue trim, holding a deactivated energy rifle, helmet under her arm, rain dripping off her synthetic hair",
      "pose": "Standing with a casual but watchful stance, leaning slightly against a glowing vendor stall",
      "position": "foreground"
    },
    {
      "type": "Merchant bot",
      "description": "Small, rusted, three-legged drone with multiple blinking red optical sensors, selling glowing synthetic fruit from a tray attached to its chassis",
      "pose": "Hovering slightly, offering an item to the viewer",
      "position": "midground"
    }
  ],
  "style": "noir sci-fi digital painting",
  "color_palette": [
    "deep indigo",
    "electric blue",
    "acid green"
  ],
  "lighting": "Low-key, dramatic, with primary light sources coming from neon signs and street lamps reflecting off wet surfaces",
  "mood": "Gritty, tense, and atmospheric",
  "background": "Towering, dark skyscrapers disappearing into the fog, with advertisements scrolling across their surfaces, flying vehicles (spinners) visible in the distance",
  "composition": "dynamic off-center",
  "camera": {
    "angle": "eye level",
    "distance": "medium close-up",
    "focus": "sharp on subject",
    "lens": "35mm",
    "f-number": "f/1.4",
    "ISO": 400
  },
  "effects": [
    "heavy rain effect",
    "subtle film grain",
    "neon light reflections",
    "mild chromatic aberration"
  ]
}

更进一步,我们可以要求模型通过提供特定的十六进制代码(如#F48120)将强调光重新着色为Cloudflare橙色。

立即试用!

最新的FLUX.2 [dev]模型现已在Workers AI上可用——您可以通过我们的开发者文档开始使用该模型,或在我们的多模态游乐场中进行测试。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计