Stability AI图像服务精准提示工程指南

本文详细介绍了在Amazon Bedrock中使用Stability AI图像服务的高级提示工程技术,包括模块化提示构建、负面提示优化、权重控制和风格指导等方法,帮助用户实现精准的图像生成和控制。

精准提示:在Amazon Bedrock中使用Stability AI图像服务

某中心Bedrock现提供Stability AI图像服务:9种工具可改善企业创建和修改图像的方式。该技术扩展了Stable Diffusion和Stable Image模型,让您能够精确控制图像创建和编辑。清晰的提示至关重要——它们为AI系统提供艺术指导。强大的提示控制特定元素,如色调、纹理、照明和构图,以创建所需的视觉效果。此功能可满足产品摄影、概念设计和营销活动等专业需求。

解决方案概述

Stability AI图像服务在某中心Bedrock中作为API提供,具有修复、风格转移、重新着色、背景移除、对象移除、风格指南等功能。

在以下部分中,我们首先讨论最大限度控制图像生成的提示结构,然后提供风格指导的高级提示技术。代码示例可在以下GitHub存储库中找到。

先决条件

要开始使用某中心Bedrock中的Stability AI图像服务,请按照API入门中的说明完成以下先决条件:

  • 设置您的某中心账户
  • 获取凭据以授予编程访问权限
  • 将某中心Bedrock权限附加到某中心身份和访问管理用户或角色
  • 请求访问某中心Bedrock模型

构建最大限度控制的提示结构

要最大化某中心Bedrock中Stability AI图像服务的细粒度功能,必须构建能够实现精细控制的提示。

本节概述了构建有效提示的最佳实践,这些提示能产生所需的输出。我们演示了提示结构如何影响结果,以及为什么更具结构化的提示通常会产生更一致和可控的结果。

为用例选择正确的提示类型

选择正确的提示格式有助于模型更好地理解您的意图。三种主要提示格式提供不同级别的控制和可读性:

  • 自然语言最大化可读性,最适合一般用途
  • 基于标签的格式实现精确的结构控制,非常适合技术应用
  • 混合格式结合自然语言和标签的结构元素,提供更多控制

下表提供了这三种常见提示表达方式的示例。每种提示格式根据您的目标或使用的界面各有优势。

提示类型 提示示例 描述和用例
基本提示(自然语言) “大理石台面上的香水瓶的干净产品照片” 可读性强且直观。非常适合探索、对话工具和某些模型类型。Stable Diffusion 3.5对此风格响应最佳。
基于标签的提示 “香水瓶,大理石表面,柔和光线,高质量,产品照片” 用于许多生成UI或使用在LAION或Danbooru等数据集上训练的模型。紧凑且适合堆叠细节。
混合提示 “大理石柜台上的香水瓶,柔和影室灯光,锐利焦点,f/2.8镜头” 两全其美。使用加权语法添加重点以影响模型的优先级。

构建模块化提示

模块化提示提高了AI图像生成的有效性。这种方法将提示划分为不同的组件,每个组件指定要绘制的内容及其外观方式。模块化结构提供了几个好处:有助于防止冲突或混淆的指令,允许精确的输出控制,并简化提示调试。通过隔离单个元素,可以快速识别和调整提示中有效或无效的部分。这种方法最终导致更精细和有针对性的AI生成图像。

下表提供了模块化提示模块的示例。尝试不同的提示序列以获得所需的结果;例如,将样式放在主题之前会赋予其更多的视觉权重。

模块 示例 描述
前缀 “时尚社论肖像” 为高时尚风格的肖像设定基调和意图
主题 “中等棕色皮肤和短卷发的女性” 提供模型的外观和表面细节以帮助指导面部特征
修饰符 “穿着不对称黑色网眼上衣,金属首饰” 添加风格化服装和配饰以增加视觉趣味
动作 “坐着,肩膀成角度,眼睛锁定相机,一只手臂抬起” 描述身体语言和姿势以提供动态构图
环境 “沐浴在透过窗板的交叉硬定向光束中” 为戏剧性的光影效果和氛围添加上下文
风格 “高对比度明暗对比照明,雕塑感和抽象” 告知美学和情绪(阴影驱动,忧郁,建筑感)
相机/照明 “85mm拍摄,影室设置,面部和身体上的分层阴影和光线” 增加技术精度并有助于控制真实感和保真度

以下示例说明了如何使用模块化提示生成所需的输出。

模块化提示 “时尚社论肖像,中等棕色皮肤和短卷发的女性,穿着不对称黑色网眼上衣和金属首饰,坐着,肩膀成角度,一只手臂抬起,眼睛锁定相机,沐浴在透过窗板的交叉硬定向光束中,分层阴影和高光雕刻她的面部和身体,高对比度明暗对比照明,抽象和大胆,在影室中用85mm拍摄”

使用负面提示优化输出

负面提示通过移除特定的视觉元素来提高AI输出质量。在提示中明确定义不包含的内容可以指导模型的输出,通常会产生专业的结果。负面提示就像修图师的检查表,用于处理图像的各个方面以提高质量和吸引力。例如,“没有奇怪的手。没有模糊的角落。没有卡通滤镜。绝对没有水印。“负面提示会产生干净、自信的构图,没有分散注意力的元素和失真。

下表提供了可在负面提示中使用的其他标记示例。

伪影类型 要使用的标记
低质量或噪点 模糊,低分辨率,JPEG伪影,噪点多
解剖或模型问题 变形,额外肢体,坏手,缺失手指
风格冲突 卡通,插图,动漫,绘画
技术错误 水印,文本,签名,过度曝光
一般清理 丑陋,绘制不佳,失真,最差质量

以下示例说明了结构良好的负面提示如何增强照片真实感。

没有负面提示 提示”(中全景)的(迷人办公室隔间)由玻璃材料制成,多种颜色,现代风格,节省空间,软垫座椅,铜绿,金边,位于现代花园中,配有流线型家具,时尚装饰,明亮照明,舒适座椅,杰作,最佳质量,原始照片,逼真,非常美观,黑暗”

有负面提示 提示"(中全景)的(迷人办公室隔间)由玻璃材料制成,多种颜色,现代风格,节省空间,软垫座椅,铜绿,金边,位于现代花园中,配有流线型家具,时尚装饰,明亮照明,舒适座椅,杰作,最佳质量,原始照片,逼真,非常美观,黑暗" 负面提示"卡通,3D渲染,CGI,过度饱和,光滑塑料纹理,不真实照明,人工,哑光表面,绘画感,梦幻,光泽表面,数字艺术,低细节背景"

通过提示权重强调或抑制元素

提示权重控制AI图像生成中单个元素的影响力。这些数值权重优先考虑特定的提示组件而不是其他组件。例如,要强调角色而不是背景,可以对"角色"应用1.8的权重(角色:1.8),对"背景"应用1.1的权重(背景:1.1),这确保模型优先处理角色细节,同时保持环境上下文。这种有针对性的强调通过最小化提示元素之间的竞争并澄清模型的优先级来产生更精确的输出。

提示权重的语法是(<术语>:<权重>)。您也可以使用简写,如((<术语>)),其中括号的数量代表权重。0.0–1.0之间的值减弱术语的重要性,1.1–2.0之间的值强调术语。例如:

  • (术语:1.2):强调
  • (术语:0.8):减弱
  • ((术语)):(术语:1.2)的简写
  • (((((((((术语))))))))):(术语:1.8)的简写

以下示例显示了提示权重如何影响生成的输出。

带权重的提示 “社论产品照片,((半透明凝胶保湿霜罐:1.4))放在((磨砂玻璃底座:1.2))上,周围是((露水粉红色花瓣:1.1)),带有柔和((漫射照明:1.3)),微妙的水滴,浅景深”

无权重的提示 “社论产品照片,半透明凝胶保湿霜罐放在磨砂玻璃底座上,周围是露水粉红色花瓣,带有柔和,微妙的水滴,浅景深”

您也可以在负面提示中使用权重来减少模型避免某些内容的强度。例如,"(文本:0.5),(模糊:0.2),(低分辨率:0.1)"。这告诉模型要特别确保避免生成模糊的文本或低分辨率内容。

提供具体的风格指导

在使用风格转移和风格指南等Stability AI图像服务时,有效的提示写作需要良好的风格匹配和参考驱动提示的理解。这些技术有助于为文本到图像和图像到图像的创作提供清晰的风格指导。

图像到图像的风格转移

图像到图像的风格转移从输入图像(控制图像)中提取风格元素,并使用它来指导基于提示的输出图像的创建。编写提示时,就像在指导专业摄影师或造型师一样。专注于材料、照明质量和艺术意图——而不仅仅是对象。例如,一个结构良好的提示可能读作:“特写社论照片,半透明绿色唇彩管在压碎的彩虹色塑料上,漫射彩色照明,浅景深,高时尚产品造型。”

风格标签分层:符合品牌标识的已知美学标签

制作有效提示的艺术通常依赖于融入与熟悉视觉语言和数据集产生共鸣的既定风格标签。通过战略性地混合来自公认美学类别(从社论摄影和模拟胶片到动漫、赛博朋克城市景观和粗野主义结构)的术语,创作者可以引导AI朝着符合其品牌标识的特定视觉结果发展。这些风格描述符在提示工程过程中充当强大的锚点。这些标签的多功能性通过其组合和加权能力进一步扩展,允许对最终美学进行细致控制。例如,护肤品牌可能会将产品摄影的简洁线条与梦幻、超现实元素融合,而科技公司可以将粗野主义结构与赛博朋克元素合并,以形成独特的视觉标识。这种风格混合方法帮助创作者改进输出,同时保持与目标受众产生共鸣的可识别视觉类型的清晰联系。关键是理解这些风格标签如何相互作用,并利用它们的组合来创建独特 yet culturally相关的视觉表达,服务于特定的创意或商业目标。下表提供了所需美学的提示示例。

所需美学 提示短语 示例用例
复古/Y2K 2000年代怀旧,闪光摄影,糖果色调,刺眼照明 金属纹理,细字体,早期数字感。
简洁现代 中性色调,柔和渐变,极简风格,社论布局 非常适合健康或护肤产品。
大胆街头服饰 城市背景,超大合身,强烈姿势,正午阴影 时尚摄影和生活方式广告。优先考虑服装结构和位置提示。
超现实超现实主义 梦幻核心照明,光泽纹理,电影景深,超现实阴影 在音乐、时尚或另类文化活动中表现良好。

引用命名风格作为参考

一些提示结构受益于调用特定艺术家的命名视觉签名,特别是与您自己的风格短语或工作流程结合时,如下例所示。

提示 “女性社论影室肖像,发光皮肤,极简魅力妆容,高对比度照明,干净背景,(梵高风格描绘:1.3)”

以下是一个更概念化的例子。

提示 “银色护发油瓶产品拍摄,弯曲铬合金上的柔和反射,(韦斯·安德森风格描绘:1.2),冷影室照明下”

这些短语的功能就像调用一种流派;它们暗示了关于材料、照明、布局和色彩调性的选择。

使用参考图像指导风格

另一个有用的技术是使用参考图像来指导输出的姿势、颜色或构图。对于匹配样本书图像的姿势、从活动剧照转移调色板或复制照片拍摄中的阴影游戏等用例,您可以从参考图像中提取并应用结构或风格。

Stability AI图像支持各种图像到图像的工作流程,您可以使用参考图像(控制图像)来指导输出,例如结构、素描和风格。诸如ControlNet(由Stability AI开发的神经网络架构,增强控制)、IP-Adapter(图像提示适配器)或基于clip的标注等工具在与Stability AI模型配对时也能实现进一步的控制。

我们将在后续文章中讨论ControlNet、IP-Adapter和基于clip的标注。

以下是图像到图像工作流程的示例:

  1. 找到高质量的社论参考。
  2. 将其与深度、canny或seg ControlNet一起使用以锁定姿势。
  3. 使用提示进行风格化。

提示 “时尚社论,模特穿着分层针织衫,戏剧性彩色照明,强烈阴影,高ISO纹理”

通过照明控制营造合适的氛围

在提示中,照明设定基调,增加维度,并模仿摄影的语言。它不应该只是"明亮与黑暗"。照明本身通常就是风格,特别是对于像Z世代这样的受众,例如TikTok,早期闪光灯,刺眼的背光,和彩色滤光片。下表提供了一些有用的照明风格提示术语。

照明风格 提示术语 示例用例
高对比度影室 硬定向光,深阴影,受控高光 美容,科技,具有冲击力视觉的时尚
柔和社论 漫射光,柔和阴影,环境光晕,阴天 护肤,时尚,健康
彩色滤光片照明 蓝色和粉色滤光片照明,戏剧性彩色阴影,边缘照明 夜生活,音乐相关时尚,青年导向造型
自然反射 黄金时刻,柔和自然光,太阳耀斑,暖色调 户外,生活方式,品牌友好极简主义

通过姿势和构图术语构建意图

良好的姿势有助于产品感觉令人向往,数字模型更具动态感。使用AI时,必须要有意图。构图和姿势提示有助于避免僵硬、解剖错误和随机性。下表提供了一些有用的姿势和构图提示术语。

提示提示 描述 提示
看向镜头外 创造随意或社论能量 对样本书或广告页有用
手部动作 增加真实感和流动性 避免尴尬,静态的身体姿势
坐着,身体扭转 增加深度和躯干扭转 减少对称性,感觉自然
低角度拍摄 力量或地位提示 适用于风格化街头服饰或产品英雄镜头

示例:综合应用

以下示例综合了我们在本文中讨论的内容。

提示 “社论影室肖像,铂金发色模特穿着金属工装裤和裁剪网眼连帽衫,双腿张开坐在(丙烯酸楼梯:1.6)上,从左后方来的洋红色和蓝绿色滤光片照明,戏剧性对比,50mm拍摄,Z世代活动的街头服饰社论” 负面提示 “模糊,额外肢体,水印,卡通,扭曲的脸,缺失手指,不良解剖结构”

让我们分解前面的提示。我们指导了主题的外观(铂金发色,金属服装),指定了他们的姿势(坐着,双腿张开,自信,不做作),定义了环境(丙烯酸楼梯和影室设置,受控,现代),说明了照明(混合滤光片光源,大胆风格化),指定了镜头(50mm,肖像真实感),最后详细说明了目的(用于Z世代活动,设定视觉和文化基调)。总之,提示产生了所需的结果。

最佳实践和故障排除

提示很少是一次性任务,特别是对于创意用例。大多数优秀的图像来自通过多次尝试完善一个想法。考虑以下方法来迭代您的提示:

  • 保持提示日志
  • 一次更改一个变量
  • 保存种子和基础图像
  • 使用比较网格

有时会出现问题——也许模型忽略了您的提示,或者图像看起来混乱。这些问题很常见,通常可以快速修复,通过每次调整,您可以获得更清晰、更干净、更有意图的输出。下表提供了有用的提示故障排除技巧。

问题 问题原因 如何修复
风格感觉随机 模型困惑或术语模糊 澄清风格,增加权重,移除冲突
脸部扭曲 过度风格化或缺乏面部提示 添加肖像,头像,或调整姿势或照明
图像太暗 照明未定义 添加来自左侧的柔光箱,自然光,或时间日期
重复姿势 相同种子或静态结构 切换种子或更改相机角度或主题动作
缺乏真实感或感觉"AI感" 错误色调或伪影 添加负面如卡通,数字纹理,扭曲

结论

掌握高级提示技术可以将基本图像生成转变为专业创意输出。某中心Bedrock中的Stability AI图像服务提供了对视觉创建和编辑的精确控制,帮助企业将概念转化为生产就绪的资产。技术专业知识和创意意图的结合可以帮助创作者实现专业环境所需的精度和一致性。这种控制在多种应用中证明是有价值的,例如营销活动、品牌一致性和产品可视化。本文演示了如何优化某中心Bedrock中的Stability AI图像服务,以产生与您的创意目标一致的高质量图像。

要实施这些技术,请通过某中心Bedrock访问Stability AI图像服务,或探索在某中心SageMaker JumpStart中可用的Stability AI基础模型。您还可以在我们的GitHub存储库中找到实用的代码示例。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计