联手Black Forest Labs,将FLUX.2 [dev]引入Workers AI图像生成平台

Cloudflare宣布与Black Forest Labs合作,在其Workers AI平台上推出FLUX.2 [dev]开放权重图像生成模型。该模型在物理世界理解、数字资产生成、多语言支持及角色一致性方面有显著突破,并支持JSON提示、多部分表单数据输入等高级控制功能。

与Black Forest Labs合作,将FLUX.2 [dev]引入Workers AI

最近几个月,我们看到谷歌的Nano Banana和OpenAI图像生成模型的兴起,推动闭源图像生成模型向前迈进了一大步。今天,我们很高兴地宣布,一个新的开放权重竞争者随着Black Forest Lab的FLUX.2 [dev]的发布而归,并且可以在Cloudflare的推理平台Workers AI上运行。

我们一直是Black Forest Lab的FLUX图像模型最早版本的忠实粉丝。我们托管的FLUX.1 [schnell]版本因其逼真的输出和高保真的生成效果,是我们目录中最受欢迎的模型之一。当有机会托管他们新模型的授权版本时,我们立刻抓住了这个机会。FLUX.2模型继承了FLUX.1的所有最佳特性并加以强化,能生成更加真实、有根据的图像,并增加了如JSON提示等自定义支持。

我们在Workers AI上托管的FLUX.2版本有一些特定的模式,例如使用多部分表单数据来支持输入图像(最多4张512x512的图像),并输出最高达400万像素的图像。多部分表单数据格式允许用户与典型的模型参数一起发送多个图像输入。请查看我们的开发者文档更新日志公告,以了解如何使用FLUX.2模型。

FLUX.2有何特别之处?物理世界基础、数字世界资产和多语言支持

FLUX.2模型对物理世界有更稳健的理解,使您能够将抽象概念转化为逼真的现实。它擅长生成逼真的图像细节,并始终如一地准确呈现手部、面部、织物、徽标和其他模型经常遗漏的小物体。它对物理世界的了解还能生成逼真的光照、角度和深度感。

这种高保真输出使其成为需要卓越图像质量的应用程序的理想选择,例如创意摄影、电子商务产品拍摄、营销视觉和室内设计。由于它能理解上下文、色调和趋势,该模型允许您从简短的提示中创建引人入胜且具有社论质量的数字资产。

除了物理世界,该模型还能生成高质量的数字资产,例如设计着陆页或生成详细的信息图表。它还能够自然地理解多种语言,因此结合这两个特性——我们可以从法语提示中得到一个漂亮的法语着陆页。

角色一致性——解决“随机漂移”问题

FLUX.2提供了具有最先进角色一致性的多参考图像编辑功能,确保任务中的身份、产品和风格保持一致。在生成式AI领域,获得高质量图像很容易。然而,两次获得完全相同的角色或产品一直是难题。这种现象被称为“随机漂移”,即生成的图像逐渐偏离原始素材。

FLUX.2的突破之一是旨在解决这一一致性挑战的多参考图像输入功能。您将能够改变图像的背景、光照或姿势,而不会意外改变模特的面部或产品的设计。您还可以参考其他图像或将多个图像组合在一起以创造新事物。

在代码层面,Workers AI支持通过多部分表单数据上传多参考图像(最多4张)。图像输入是二进制图像,输出是base64编码的图像:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
curl --request POST \
  --url 'https://api.cloudflare.com/client/v4/accounts/{ACCOUNT}/ai/run/@cf/black-forest-labs/flux-2-dev' \
  --header 'Authorization: Bearer {TOKEN}' \
  --header 'Content-Type: multipart/form-data' \
  --form 'prompt=take the subject of image 2 and style it like image 1' \
  --form input_image_0=@/Users/johndoe/Desktop/icedoutkeanu.png \
  --form input_image_1=@/Users/johndoe/Desktop/me.png \
  --form steps=25
  --form width=1024
  --form height=1024

我们也通过Workers AI绑定支持这种方式:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
const image = await fetch("http://image-url");
const form = new FormData();

const image_blob = await streamToBlob(image.body, "image/png");
form.append('input_image_0', image_blob)
form.append('prompt', 'a sunset with the dog in the original image')

const resp = await env.AI.run("@cf/black-forest-labs/flux-2-dev", {
    multipart: {
        body: form,
        contentType: "multipart/form-data"
    }
})

为真实世界用例打造

最新的图像模型标志着向功能性商业用例的转变,超越了简单的图像质量改进。FLUX.2使您能够:

  • 创建广告变体:使用完全相同的演员生成50个不同的广告,而不会在帧之间发生面部变形。
  • 信任您的产品照片:将您的产品放在模特身上,或放入海滩场景、城市街道或工作室桌面上。环境发生变化,但您的产品保持准确。
  • 构建动态社论内容:制作完整的时尚大片,其中模特在每一个镜头中看起来都一模一样,无论角度如何。

精细控制——JSON提示、HEX代码及更多!

FLUX.2模型通过允许用户通过JSON提示和指定特定十六进制代码等工具来控制图像中的小细节,取得了另一项进步。

例如,您可以发送以下JSON作为提示(作为多部分表单输入的一部分),生成的图像将完全遵循提示:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
{
  "scene": "一个繁华的、霓虹灯闪烁的未来主义外星街头市场,雨水使金属地面闪闪发亮",
  "subjects": [
    {
      "type": "赛博朋克赏金猎人",
      "description": "女性,穿着黑色哑光盔甲,带有发光的蓝色饰边,手持一把已停用的能量步枪,头盔夹在臂下,雨水从她的合成头发上滴落",
      "pose": "以随意但警惕的姿势站立,身体微微靠在发光的摊位旁",
      "position": "前景"
    },
    {
      "type": "商人机器人",
      "description": "小型、生锈、三条腿的无人机,带有多个闪烁的红色光学传感器,从其机身上连接的托盘出售发光的合成水果",
      "pose": "轻微悬浮,向观看者递出一件物品",
      "position": "中景"
    }
  ],
  "style": "黑色科幻数字绘画",
  "color_palette": [
    "深靛蓝",
    "电光蓝",
    "酸绿色"
  ],
  "lighting": "低调、戏剧性,主要光源来自霓虹灯标志和街灯在潮湿表面的反射",
  "mood": "粗粝、紧张、富有氛围感",
  "background": "高耸的、消失在雾中的黑暗摩天大楼,广告在其表面滚动,远处可见飞行汽车",
  "composition": "动态非中心构图",
  "camera": {
    "angle": "平视",
    "distance": "中近景",
    "focus": "主体清晰对焦",
    "lens": "35mm",
    "f-number": "f/1.4",
    "ISO": 400
  },
  "effects": [
    "大雨效果",
    "细微的胶片颗粒",
    "霓虹灯光反射",
    "轻微的色差"
  ]
}

更进一步,我们可以要求模型通过指定特定的十六进制代码(如#F48120)将重点照明重新着色为Cloudflare橙色。

立即尝试!

最新的FLUX.2 [dev]模型现已在Workers AI上可用——您可以通过我们的开发者文档开始使用该模型,或在我们的多模态游乐场中测试它。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计