一个好的提示的剖析
一个好的提示需要详细和具体。一个好的过程是查看关键字类别列表并决定是否要使用其中的任何一个。
关键字类别是
- 主题
- 中等的
- 风格
- 艺术家
- 网站
- 解决
- 额外细节
- 颜色
- 灯光
提示生成器中提供了每个类别的大量关键字列表。您还可以在此处找到简短列表。
您不必包含所有类别的关键字。把它们当作一个清单来提醒你可以使用什么。
让我们回顾一下每个类别,并通过从每个类别中添加关键字来生成一些图像。我将使用 v1.5 基本模型。为了单独查看提示的效果,我暂时不会使用否定提示。别担心,我们将在本文的后面部分研究否定提示。所有图像均使用 30 步 DPM++ 2M Karas 采样器和图像大小 512×704 生成。
主题
主题是您希望在图像中看到的内容。一个常见的错误是对主题的描述不够。
假设我们想要生成一个女巫施法。新手可能会写
女巫
这就留下了太多的想象空间。你想让女巫看起来怎么样?任何描述她的词都会缩小她的形象?她穿什么?她在施展什么样的魔法?她是站着、跑着还是飘在空中?背景场景是什么?
稳定扩散无法读懂我们的想法。我们必须准确地说出我们想要什么。
人类受试者的一个常用技巧是使用名人的名字。它们具有很强的效果,是控制主体外观的绝佳方式。但是,请注意,这些名称不仅会改变面部,还会改变姿势和其他东西。我将把这个话题推迟到本文的后面部分。
作为演示,让我们将女巫塑造成 Emma Watson,这是 Stable Diffusion 中最常用的关键字。假设她强大而神秘,并且使用闪电魔法。我们希望她的衣服非常精致,这样她看起来会很有趣。
Emma Watson 饰演强大的神秘女巫,施展闪电魔法,细节服饰
我们在 10 次中有 11 次得到 Emma Watson。她的名字对模特的影响如此之大。我认为她在 Stable Diffusion 用户中很受欢迎,因为她看起来得体、年轻,并且在各种场景中都保持一致。相信我,我们不能对所有女演员都说同样的话,尤其是那些在 90 年代或更早时期活跃的女演员……
中等的
介质是用来制作艺术品的材料。一些示例是插图、油画、3D 渲染和摄影。Medium 有很强的效果,因为一个关键字就可以极大地改变风格。
让我们添加关键字数字绘画。
Emma Watson 饰演强大的神秘女巫,施放闪电魔法,细节服装,数字绘画
我们看到了我们所期望的!图像从照片变成了数字绘画。到目前为止,一切都很好。我想我们可以到此为止了。只是在开玩笑。
风格
风格是指图像的艺术风格。例子包括印象派、超现实主义、波普艺术等。
让我们在提示中添加超现实主义、幻想、超现实主义、全身。
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, 全身
嗯……不确定他们是否添加了很多。也许这些关键字已经被前面的关键字所暗示。但我想保留它并没有什么坏处。
艺术家
艺术家姓名是强修饰符。它们允许您使用特定艺术家作为参考来拨入确切的风格。使用多个艺术家的名字来混合他们的风格也很常见。现在让我们加上超级英雄漫画家Stanley Artgerm Lau和19世纪的肖像画家Alphonse Mucha。
艾玛沃特森作为一个强大的神秘女巫,施展闪电魔法,细节服装,数字绘画,超现实主义,幻想,超现实主义,全身,Stanley Artgerm Lau 和 Alphonse Mucha
我们可以看到两位艺术家的风格很好地融合在一起并产生了效果。
网站
Artstation 和 Deviant Art 等小众图片网站汇集了许多不同类型的图片。在提示中使用它们是将图像引导到这些样式的可靠方法。
让我们将 artstation 添加到提示中。
艾玛沃特森作为一个强大的神秘女巫,施展闪电魔法,细节服装,数字绘画,超现实主义,幻想,超现实主义,全身,由 Stanley Artgerm Lau 和 Alphonse Mucha,artstation
这不是一个巨大的变化,但图像看起来确实像您在 Artstation 上找到的那样。
解决
分辨率表示图像的清晰度和细节程度。让我们添加高度详细和清晰的关键字。
艾玛沃特森作为一个强大的神秘女巫,施展闪电魔法,细节服装,数字绘画,超现实主义,幻想,超现实主义,全身,Stanley Artgerm Lau 和 Alphonse Mucha,artstation,非常详细,焦点清晰
嗯,效果不是很大,也许是因为之前的图像已经非常清晰和详细了。但添加它并没有什么坏处。
额外细节
附加细节是为修改图像而添加的甜味剂。我们将添加科幻、惊人的美丽和反乌托邦,为图像增添一些氛围。
艾玛沃特森作为一个强大的神秘女巫,施展闪电魔法,细节服装,数字绘画,超现实主义,幻想,超现实主义,全身,由 Stanley Artgerm Lau 和 Alphonse Mucha,artstation,非常详细,清晰的焦点,科幻,惊人的美丽,反乌托邦
颜色
您可以通过添加颜色关键字来控制图像的整体颜色。您指定的颜色可能会显示为色调或对象。
让我们使用关键字 iridescent gold 为图像添加一些金色。
艾玛沃特森作为一个强大的神秘女巫,施展闪电魔法,细节服装,数字绘画,超现实主义,幻想,超现实主义,全身,由 Stanley Artgerm Lau 和 Alphonse Mucha,artstation,非常详细,清晰的焦点,科幻,惊人的美丽,反乌托邦,彩虹色的金色
黄金出来很棒!
灯光
任何摄影师都会告诉您,照明是创造成功图像的关键因素。照明关键字可以对图像的外观产生巨大影响。让我们为提示添加电影照明和黑暗。
艾玛沃特森作为一个强大的神秘女巫,施展闪电魔法,细节服装,数字绘画,超现实主义,幻想,超现实主义,全身,由 Stanley Artgerm Lau 和 Alphonse Mucha,artstation,非常详细,清晰的焦点,科幻,惊人的美丽,反乌托邦,彩虹金色,电影灯光,黑暗
这完成了我们的示例提示。
评论
您可能已经注意到,在主题中添加了一些关键字后,图像已经相当不错了。当涉及到为 Stable Diffusion 构建提示时,通常您不需要有很多关键字来获得好的图像。
否定提示
使用否定提示是另一种引导形象的好方法,但不是输入你想要的,而是输入你不想要的。它们不需要是对象。它们也可以是样式和不需要的属性。(例如丑陋、变形)
使用否定提示对于 v2 模型是必须的。没有它,图像看起来会远不如 v1。它们对于 v1 模型是可选的,但我经常使用它们,因为它们要么有帮助,要么无害。
我将使用通用否定提示。如果你想了解它是如何工作的,你可以阅读更多关于它的信息。
ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face, blurry, draft, grainy
带有通用否定提示。
负面提示帮助图像更突出,使它们不那么平坦。
建立一个好的提示的过程
迭代提示构建
您应该将提示构建作为一个迭代过程来处理。正如您在上一节中看到的,只需向主题添加几个关键字,图像就可以非常好。
我总是从一个只有主题、媒介和风格的简单提示开始。一次至少生成 4 张图像,看看你得到了什么。大多数提示并非 100% 有效。您想了解他们在统计上可以做什么。
一次最多添加两个关键字。同样,生成至少 4 张图像以评估其效果。
使用否定提示
如果您刚开始,可以使用通用否定提示。
向否定提示添加关键字可以是迭代过程的一部分。关键字可以是你想要避开的物体或身体部位(由于 v1 模型不太擅长渲染手,所以在否定提示中使用“手”来隐藏它们是个不错的主意。)
提示技巧
您可以通过在特定采样步骤切换到不同关键字来修改关键字的重要性。
以下语法适用于 AUTOMATIC1111 GUI。您可以使用快速入门指南中的 Colab 笔记本一键运行此 GUI。您也可以在 Windows 和 Mac 上安装它。
关键词权重
(此语法适用于 AUTOMATIC1111 GUI。)
您可以通过语法调整关键字的权重(keyword: factor)
。factor
是一个值,小于 1 意味着不太重要,大于 1 意味着更重要。
比如我们可以dog
在下面的提示中调整关键词的权重
dog, autumn in paris, ornate, beautiful, atmosphere, vibe, mist, smoke, fire, chimney, rain, wet, pristine, puddles, melting, dripping, snow, creek, lush, ice, bridge, forest, roses, flowers, by stanley artgerm lau, greg rutkowski, thomas kindkade, alphonse mucha, loish, norman rockwell.
(狗:0.5)
狗
(狗:1.5)
增加重量dog
往往会产生更多的狗。减少它往往会产生更少。并非每张图片都如此。但从统计意义上讲,这是正确的。
此技术可应用于主题关键字和所有类别,例如样式和照明。
() 和 [] 语法
(此语法适用于 AUTOMATIC1111 GUI。)
调整关键字强度的等效方法是使用()
and []
。(keyword)
将关键字的强度增加 1.1 倍,与 相同(keyword:1.1)
。[keyword]
将强度降低 0.9 倍,与 相同(keyword:0.9)
。
您可以使用其中的多个,就像在代数中一样……效果是乘法的。
(关键字):1.1((关键字)):1.21(((关键字))):1.33
同样,使用 multiple 的效果[]
是
[关键字]:0.9[[关键字]]:0.81[[[关键字]]]:0.73
关键字混合
(此语法适用于 AUTOMATIC1111 GUI。)
您可以混合使用两个关键字。正确的术语是及时安排。语法是
[关键字 1:关键字 2:因素]
factor
控制关键字 1 切换到关键字 2 的步骤。它是一个介于 0 和 1 之间的数字。
例如,如果我使用提示
油画肖像【乔拜登:唐纳德特朗普:0.5】
30 个采样步骤。
这意味着步骤 1 到 15 中的提示是
乔·拜登油画肖像
而第16到30步的提示就变成了
唐纳德特朗普的油画肖像
该因素确定何时更改关键字。它是在 30 步 x 0.5 = 15 步之后。
改变因素的效果是不同程度地融合了两位总统。
你可能已经注意到特朗普身穿白色西装,更像是乔装。这是一个非常重要的关键字混合规则的完美示例:第一个关键字决定了全局组合。早期的扩散步骤设定了整体成分。后面的步骤会细化细节。
测验:如果你交换唐纳德特朗普和乔拜登,你会得到什么?
混合面孔
一个常见的用例是从演员那里借鉴来创建具有特定外观的新面孔。比如【Emma Watson:Amber 听说:0.85】,40步就是两者之间的一个样子:
当仔细选择这两个名称并调整因子时,我们可以精确地得到我们想要的外观。
穷人的提示到提示
使用关键字混合,您可以获得类似于提示到提示的效果,生成带有编辑的高度相似的图像对。以下两个图像是使用相同的提示生成的,除了用 替换的提示apple
计划fire
。种子和步数保持不变。
拿着一个[苹果:火:0.9]
拿着一个[苹果:火:0.2]
该系数需要仔细调整。它是如何工作的?这背后的理论是图像的整体构图是由早期扩散过程设定的。一旦扩散被困在一个小空间内,交换任何关键字都不会对整体图像产生太大影响。它只会改变一小部分。
提示可以多长时间?
根据您使用的 Stable Diffusion 服务,您可以在提示中使用的关键字数量可能有上限。在基本的 Stable Diffusion v1 模型中,该限制为 75 个代币。
请注意,标记与单词不同。Stable Diffusion 使用的 CLIP 模型自动将提示转换为标记,这是它知道的单词的数字表示。如果你输入一个它以前没有见过的词,它会被分解成 2 个或更多的子词,直到它知道它是什么。它知道的单词称为标记,以数字表示。比如梦是一记号,沙滩是一记号。但是dreambeach是两个标记,因为模型不知道这个词,所以模型将这个词分解为dream
它beach
知道的词。
AUTOMATIC1111 中的提示限制
AUTOMATIC1111 没有令牌限制。如果提示包含超过 75 个标记,即 CLIP 标记器的限制,它将启动另外 75 个标记的新块,因此新的“限制”变为 150。该过程可以永远持续下去,或者直到您的计算机内存耗尽……
每个 75 个标记的块都是独立处理的,并且在输入 Stable Diffusion 的 U-Net 之前将生成的表示连接起来。
在AUTOMATIC1111中,您可以通过查看提示输入框右上角的小框来查看令牌的数量。
AUTOMATIC1111 中的令牌计数器
检查关键字
您看到人们使用关键字的事实并不意味着它是有效的。就像作业一样,我们都会互相抄袭对方的提示,有时不假思索。
您可以通过将关键字用作提示来检查关键字的有效性。例如,v1.5模型认识美国画家Henry Asencio吗?让我们检查一下提示
亨利阿森西奥
积极的!
Artstation 的轰动 wlop 怎么样?
wlop
嗯,看起来不像。这就是为什么你不应该使用“by wlop”。那只是增加噪音。
约瑟芬沃尔是一个响亮的肯定:
您可以使用此技术来检查混合两个或多个艺术家的效果。
亨利·阿森西奥,约瑟芬·沃尔
限制变化
要善于构建提示,您需要像 Stable Diffusion 一样思考。它的核心是一个图像采样器,生成我们人类可能认为它合法且良好的像素值。您甚至可以在没有提示的情况下使用它,它会生成许多不相关的图像。用技术术语来说,这称为无条件或非引导扩散。
提示是一种将扩散过程引导到其匹配的采样空间的方法。我之前说过提示需要详细和具体。这是因为详细的提示缩小了采样空间。让我们看一个例子。
城堡
城堡,蓝天背景
城堡广角视图,蓝天背景
通过在提示中添加更多描述关键字,我们缩小了城堡的抽样范围。在第一个示例中,我们要求提供任何城堡图像。然后我们要求只获得那些具有蓝天背景的。最后,我们要求拍一张广角照片。
您在提示中指定的越多,图像的变化就越少。
联想效应
属性关联
一些属性是强相关的。当您指定一个时,您将获得另一个。稳定扩散生成最有可能具有意外关联效果的图像。
假设我们想要生成蓝眼睛女性的照片。
一位蓝眼睛的年轻女性,头发上有亮点,坐在餐厅外面,穿着白色衣服,侧灯
蓝眼睛
如果我们换成棕色眼睛怎么办?
一位棕色眼睛的年轻女性,头发上有亮点,坐在餐厅外面,穿着白色衣服,侧灯
棕色的眼睛
在提示中,我没有指定种族。但是因为蓝眼睛的人主要是欧洲人,所以产生了白种人。棕色眼睛在不同种族中更为常见,因此您会看到更加多样化的种族样本。
刻板印象和偏见是人工智能模型中的一个大话题。我将在本文中仅限于技术方面。
名人姓名协会
每个关键字都有一些意想不到的关联。名人名字尤其如此。一些男女演员喜欢在拍照时摆出特定的姿势或穿特定的衣服,因此在训练数据中。仔细想想,模型训练无非就是联想学习。如果 Taylor Swift(在训练数据中)总是交叉双腿,模型会认为交叉双腿的也是 Taylor Swift。
提示:泰勒·斯威夫特在未来高科技反乌托邦城市中的全身数字绘画
当您在提示中使用 Taylor Swift 时,您可能意味着使用她的脸。但是拍摄对象的姿势和着装也会产生影响。可以单独使用她的名字作为提示来研究效果。
姿势和服装是全局组合。如果你想要她的脸而不是她的姿势,你可以在稍后的采样步骤中使用关键字混合来交换她。
艺名协会
也许最突出的关联例子是使用艺术家姓名。
19 世纪的捷克画家阿尔方斯穆夏是肖像提示中的热门人物,因为这个名字有助于产生有趣的装饰,而且他的风格与数字插图很好地融合在一起。但它也经常在背景中留下标志性的圆形或圆顶形图案。它们在户外环境中可能看起来不自然。
提示:Alphonse Mucha 的 [Emma Watson:Taylor Swift: 0.6] 数字绘画。(30 步)
嵌入是关键字
嵌入是文本倒置的结果,只不过是关键字的组合。你可以期望他们做的比他们声称的要多一点。
让我们看看以下 Ironman 在不使用嵌入的情况下做饭的基本图像。
提示:钢铁侠在厨房做饭。
Style-Empire 是我喜欢使用的嵌入,因为它为肖像图像添加了暗色调并创造了有趣的照明效果。由于它是在夜间街道场景的图像上训练的,因此您可以预期它会添加一些黑色,也许还有建筑物和街道。请参阅下面添加了嵌入的图像。
提示:钢铁侠在厨房做饭 Style-Empire。
注意一些有趣的效果
- 第一张图片的背景变成了夜晚的城市建筑。
- 钢铁侠喜欢露脸。也许训练图像是肖像?
因此,即使嵌入旨在修改样式,它也只是一堆关键字,可能会产生意想不到的效果。
自定义模型的影响
保证使用自定义模型是实现样式的最简单方法。这也是Stable Diffusion的独特魅力所在。由于大型开源社区,可以免费使用数百个自定义模型。
使用模型时,我们需要注意关键字的含义可能会发生变化。对于样式尤其如此。
让我们再次以亨利·阿森西奥为例。在 v1.5 中,他的名字单独生成:
使用 DreamShaper,一个为肖像插图微调的模型,具有相同的提示
这是一种非常体面但截然不同的风格。该模型具有生成清晰漂亮的面孔的强大基础,这已在此处揭示。
因此,请确保在自定义模型中使用样式时进行检查。梵高可能不再是梵高了!