携手Black Forest Labs,在Workers AI平台上引入FLUX.2 [dev]模型

Cloudflare宣布与Black Forest Labs合作,在其Workers AI推理平台上推出开源的FLUX.2 [dev]图像生成模型。该模型在物理世界理解、角色一致性、多语言支持和JSON提示词等方面有显著突破,并支持通过multipart/form-data格式上传多张参考图像,适用于广告创意、电商、营销等多种商业场景。

与Black Forest Labs合作,将FLUX.2 [dev]引入Workers AI

近几个月来,随着谷歌Nano Banana和OpenAI图像生成模型的兴起,闭源图像生成模型取得了飞跃。今天,我们很高兴分享,一个新的开源权重竞争者回来了——Black Forest Lab的FLUX.2 [dev]已发布,并可在Cloudflare的推理平台Workers AI上运行。

我们一直是Black Forest Lab的FLUX图像模型从最初版本以来的忠实粉丝。我们托管的FLUX.1 [schnell]因其照片级真实输出和高保真生成而成为我们模型目录中最受欢迎的模型之一。因此,当有机会托管他们新模型的授权版本时,我们立刻抓住了机会。FLUX.2模型继承了FLUX.1的所有优点并加以强化,能生成更加真实、有根据的图像,并增加了如JSON提示等自定义支持。

我们Workers AI托管的FLUX.2版本有一些特定的模式,例如使用multipart表单数据来支持输入图像(最多4张512x512图像),并输出高达400万像素的图像。multipart表单数据格式允许用户随标准模型参数一起发送多个图像输入。请查看我们的开发者文档更新日志公告,了解如何使用FLUX.2模型。

FLUX.2有何特别之处?物理世界理解、数字资产和多语言支持

FLUX.2模型对物理世界有更强大的理解力,能将抽象概念转化为照片级的现实。它擅长生成真实的图像细节,并能稳定地输出准确的手部、面部、织物、标志和小物体——这些往往是其他模型容易出错的地方。它对物理世界的认知还能生成逼真的光照、角度和深度感知。

这种高保真输出使其成为需要卓越图像质量的应用的理想选择,例如创意摄影、电子商务产品拍摄、营销视觉效果和室内设计。由于它能理解上下文、色调和趋势,该模型允许你通过简短的提示创建引人入胜且具有社论质量的数字资产。

除了物理世界,该模型还能够生成高质量的数字资产,例如设计着陆页或生成详细的信息图表(见下例)。它还能自然理解多种语言,因此结合这两个特点——我们可以从一个法语提示中得到一个精美的法语着陆页。

Générer une page web visuellement immersive pour un service de promenade de chiens. L’image principale doit dominer l’écran, montrant un chien exubérant courant dans un parc ensoleillé, avec des touches de vert vif (#2ECC71) intégrées subtilement dans le feuillage ou les accessoires du chien. Minimiser le texte pour un impact visuel maximal.

角色一致性——解决“随机漂移”问题

FLUX.2提供具有最先进角色一致性的多参考图像编辑功能,确保在执行任务时身份、产品和风格保持一致。在生成式AI的世界里,获得一张高质量的图像很容易。然而,要两次获得完全相同的人物或产品一直是难点。这种现象被称为“随机漂移”,即生成的图像会逐渐偏离原始源材料。

FLUX.2的突破之一是其多参考图像输入功能,旨在解决这一一致性挑战。你将能够改变图像的背景、光照或姿势,而不会意外改变模特的面部或产品的设计。你还可以参考其他图像或将多个图像组合在一起,创造出新的东西。

在代码层面,Workers AI通过multipart form-data上传支持多参考图像(最多4张)。图像输入是二进制图像,输出是base64编码的图像:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
curl --request POST \
  --url 'https://api.cloudflare.com/client/v4/accounts/{ACCOUNT}/ai/run/@cf/black-forest-labs/flux-2-dev' \
  --header 'Authorization: Bearer {TOKEN}' \
  --header 'Content-Type: multipart/form-data' \
  --form 'prompt=take the subject of image 2 and style it like image 1' \
  --form input_image_0=@/Users/johndoe/Desktop/icedoutkeanu.png \
  --form input_image_1=@/Users/johndoe/Desktop/me.png \
  --form steps=25
  --form width=1024
  --form height=1024

我们也通过Workers AI Binding支持此功能:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
const image = await fetch("http://image-url");
const form = new FormData();

const image_blob = await streamToBlob(image.body, "image/png");
form.append('input_image_0', image_blob)
form.append('prompt', 'a sunset with the dog in the original image')

const resp = await env.AI.run("@cf/black-forest-labs/flux-2-dev", {
    multipart: {
        body: form,
        contentType: "multipart/form-data"
    }
})

为真实世界用例而构建

这款最新的图像模型标志着向功能性商业用例的转变,超越了单纯的图像质量改进。FLUX.2使您能够:

  • 创建广告变体:使用完全相同的演员生成50种不同的广告,而其面部不会在画面之间发生变形。
  • 信任产品拍摄:将您的产品置于模特身上,或放入海滩场景、城市街道或摄影棚桌面。环境变化,但您的产品保持准确。
  • 构建动态社论内容:制作完整的时尚大片,其中模特在每一个镜头中都看起来完全一致,无论角度如何。

精细化控制——JSON提示、HEX代码等更多功能!

FLUX.2模型的另一项进步是允许用户通过JSON提示和指定特定十六进制代码等工具来控制图像中的小细节。 例如,你可以发送这样的JSON作为提示(作为multipart表单输入的一部分),生成的图像将完全遵循该提示:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
{
  "scene": "A bustling, neon-lit futuristic street market on an alien planet, rain slicking the metal ground",
  "subjects": [
    {
      "type": "Cyberpunk bounty hunter",
      "description": "Female, wearing black matte armor with glowing blue trim, holding a deactivated energy rifle, helmet under her arm, rain dripping off her synthetic hair",
      "pose": "Standing with a casual but watchful stance, leaning slightly against a glowing vendor stall",
      "position": "foreground"
    },
    {
      "type": "Merchant bot",
      "description": "Small, rusted, three-legged drone with multiple blinking red optical sensors, selling glowing synthetic fruit from a tray attached to its chassis",
      "pose": "Hovering slightly, offering an item to the viewer",
      "position": "midground"
    }
  ],
  "style": "noir sci-fi digital painting",
  "color_palette": [
    "deep indigo",
    "electric blue",
    "acid green"
  ],
  "lighting": "Low-key, dramatic, with primary light sources coming from neon signs and street lamps reflecting off wet surfaces",
  "mood": "Gritty, tense, and atmospheric",
  "background": "Towering, dark skyscrapers disappearing into the fog, with advertisements scrolling across their surfaces, flying vehicles (spinners) visible in the distance",
  "composition": "dynamic off-center",
  "camera": {
    "angle": "eye level",
    "distance": "medium close-up",
    "focus": "sharp on subject",
    "lens": "35mm",
    "f-number": "f/1.4",
    "ISO": 400
  },
  "effects": [
    "heavy rain effect",
    "subtle film grain",
    "neon light reflections",
    "mild chromatic aberration"
  ]
}

更进一步,我们可以通过指定特定的十六进制代码(如#F48120),要求模型将重点照明重新着色为Cloudflare橙色。

立即试用!

最新的FLUX.2 [dev]模型现已在Workers AI上可用——您可以通过我们的开发者文档开始使用该模型,或在我们的多模态游乐场中进行测试。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计