联手Black Forest Labs,将先进图像生成模型FLUX.2 [dev]引入Workers AI平台

Cloudflare宣布与Black Forest Labs合作,在其Workers AI推理平台上推出开源模型FLUX.2 [dev]。文章详细介绍了该模型在物理世界理解、数字资产生成、多语言支持、角色一致性控制以及JSON提示等高级功能,并提供了具体的API调用代码示例。

与Black Forest Labs合作,将FLUX.2 [dev]引入Workers AI

在最近几个月,我们看到闭源图像生成模型随着Google的Nano Banana和OpenAI图像生成模型的崛起而取得了巨大飞跃。今天,我们很高兴地分享,一位新的开源竞争者随着Black Forest Lab的FLUX.2 [dev]的发布而回归,并且可以在Cloudflare的推理平台Workers AI上运行。您可以在BFL关于其新模型发布的博客文章中阅读有关此新模型的更多详细信息。

自从Black Forest Lab最早的FLUX图像模型版本以来,我们一直是其忠实粉丝。我们托管的FLUX.1 [schnell]版本因其逼真的输出和高保真度生成而成为我们目录中最受欢迎的模型之一。当需要托管其新模型的许可版本时,我们立刻抓住了这个机会。FLUX.2模型继承了FLUX.1的所有最佳特性并进行了增强,能生成更加真实、符合物理世界的图像,并增加了如JSON提示等定制化支持。

我们在Workers AI上托管的FLUX.2版本有一些特定的模式,例如使用多部分表单数据来支持输入图像(最多4张512x512图像),以及输出图像最高可达400万像素。多部分表单数据格式允许用户随典型的模型参数一起发送多个图像输入。请查看我们的开发者文档更新日志公告,了解如何使用FLUX.2模型。

是什么让FLUX.2如此特别?物理世界基础、数字世界资产和多语言支持

FLUX.2模型对物理世界有更深刻的理解,使您能够将抽象概念转化为逼真的现实。它擅长生成逼真的图像细节,并能始终如一地生成准确的手、面部、织物、标识和小物体,这些通常是其他模型容易忽略的。它对物理世界的理解还能生成逼真的光照、角度和深度感知。

图1. 使用FLUX.2生成的图像,展示了巴黎一家咖啡馆中准确的光照、阴影、反射和深度感知。

这种高保真输出使其成为需要卓越图像质量的应用的理想选择,例如创意摄影、电子商务产品拍摄、营销视觉效果和室内设计。因为它能理解上下文、色调和趋势,该模型允许您通过简短的提示创建引人入胜且具有编辑质量的数字资产。

除了物理世界,该模型还能够生成高质量的数字资产,例如设计登录页面或生成详细的信息图表(见下文示例)。它还能够自然地理解多种语言,因此结合这两个功能——我们可以从一个法语提示中得到一个精美的法语登录页面。

Générer une page web visuellement immersive pour un service de promenade de chiens. L’image principale doit dominer l’écran, montrant un chien exubérant courant dans un parc ensoleillé, avec des touches de vert vif (#2ECC71) intégrées subtilement dans le feuillage ou les accessoires du chien. Minimiser le texte pour un impact visuel maximal.

角色一致性——解决随机漂移问题

FLUX.2提供了具有最先进角色一致性的多参考图像编辑功能,确保任务中的身份、产品和风格保持一致。在生成式AI的世界里,获得高质量的图像很容易。然而,两次获得完全相同的角色或产品一直是个难题。这种现象被称为"随机漂移",即生成的图像逐渐偏离原始源材料。

图2. 随机漂移信息图表(使用FLUX.2生成)

FLUX.2的突破之一是其多参考图像输入功能,旨在解决这种一致性挑战。您将能够更改图像的背景、光照或姿势,而不会意外改变模特的面部或产品的设计。您还可以参考其他图像或将多个图像组合在一起以创建新的东西。

在代码中,Workers AI通过多部分表单数据上传支持多参考图像(最多4张)。图像输入是二进制图像,输出是base64编码的图像:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
curl --request POST \
  --url 'https://api.cloudflare.com/client/v4/accounts/{ACCOUNT}/ai/run/@cf/black-forest-labs/flux-2-dev' \
  --header 'Authorization: Bearer {TOKEN}' \
  --header 'Content-Type: multipart/form-data' \
  --form 'prompt=take the subject of image 2 and style it like image 1' \
  --form input_image_0=@/Users/johndoe/Desktop/icedoutkeanu.png \
  --form input_image_1=@/Users/johndoe/Desktop/me.png \
  --form steps=25
  --form width=1024
  --form height=1024

我们也通过Workers AI Binding支持此功能:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
const image = await fetch("http://image-url");
const form = new FormData();

const image_blob = await streamToBlob(image.body, "image/png");
form.append('input_image_0', image_blob)
form.append('prompt', 'a sunset with the dog in the original image')

const resp = await env.AI.run("@cf/black-forest-labs/flux-2-dev", {
    multipart: {
        body: form,
        contentType: "multipart/form-data"
    }
})

为真实世界用例打造

最新的图像模型标志着向功能性商业用例的转变,超越了简单的图像质量改进。FLUX.2使您能够:

  • 创建广告变体:使用完全相同的演员生成50种不同的广告,而他们的脸不会在画面之间变形。
  • 信任产品拍摄:将您的产品放在模特身上,或放入海滩场景、城市街道或工作室桌子中。环境发生变化,但您的产品保持准确。
  • 构建动态编辑内容:制作一整组时尚大片,无论角度如何,模特在每张照片中都看起来一模一样。

图3. 将超大号连帽衫和运动裤广告照片(用FLUX.2生成)与Cloudflare的logo结合,以创建具有一致面部、织物和场景的产品渲染。**注意:我们也提示使用白色Cloudflare字体,而不是原始的黑色字体。

精细控制——JSON提示、HEX代码及更多!

FLUX.2模型的另一项进步是允许用户通过JSON提示和指定特定十六进制代码等工具来控制图像中的小细节。

例如,您可以发送这样的JSON作为提示(作为多部分表单输入的一部分),生成的图像会完全遵循提示:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
{
  "scene": "A bustling, neon-lit futuristic street market on an alien planet, rain slicking the metal ground",
  "subjects": [
    {
      "type": "Cyberpunk bounty hunter",
      "description": "Female, wearing black matte armor with glowing blue trim, holding a deactivated energy rifle, helmet under her arm, rain dripping off her synthetic hair",
      "pose": "Standing with a casual but watchful stance, leaning slightly against a glowing vendor stall",
      "position": "foreground"
    },
    {
      "type": "Merchant bot",
      "description": "Small, rusted, three-legged drone with multiple blinking red optical sensors, selling glowing synthetic fruit from a tray attached to its chassis",
      "pose": "Hovering slightly, offering an item to the viewer",
      "position": "midground"
    }
  ],
  "style": "noir sci-fi digital painting",
  "color_palette": [
    "deep indigo",
    "electric blue",
    "acid green"
  ],
  "lighting": "Low-key, dramatic, with primary light sources coming from neon signs and street lamps reflecting off wet surfaces",
  "mood": "Gritty, tense, and atmospheric",
  "background": "Towering, dark skyscrapers disappearing into the fog, with advertisements scrolling across their surfaces, flying vehicles (spinners) visible in the distance",
  "composition": "dynamic off-center",
  "camera": {
    "angle": "eye level",
    "distance": "medium close-up",
    "focus": "sharp on subject",
    "lens": "35mm",
    "f-number": "f/1.4",
    "ISO": 400
  },
  "effects": [
    "heavy rain effect",
    "subtle film grain",
    "neon light reflections",
    "mild chromatic aberration"
  ]
}

更进一步,我们可以要求模型将点缀光重新着色为Cloudflare橙色,只需为其提供特定的十六进制代码,如 #F48120。

今天就试试吧!

最新的FLUX.2 [dev]模型现已在Workers AI上提供——您可以通过我们的开发者文档开始使用该模型,或在我们的多模态游乐场中测试。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计