什么是 SDXL 模型
SDXL模型是目前正在训练的新模型。它还不是一个完成的模型。事实上,它在发布时甚至可能不被称为 SDXL 模型。
我们所知道的是它是一个更大的模型,具有更多参数和一些未公开的改进。它是 v2,而不是 v3 模型(不管那是什么意思)。
如何使用 SDXL 模型
SDXL 模型目前在 Stability AI 的官方图像生成器 DreamStudio 上可用。要使用 SDXL 模型,请在模型菜单中选择 SDXL Beta。
在 DreamStudio 中选择 SDXL Beta 模型。
您需要注册才能使用该模型。注册后您将获得一些免费积分。
改进
我将重点介绍我目前看到的 SDXL 模型的一些改进。
清晰的文字
也许最引人注目的功能是生成清晰文本的能力。这在 v1 或 v2.1 模型中是不可能的。
SDXL 生成的文本并不总是准确的(如您在下面的稳定扩散文本中所见)。但是比v2.1好多了,v1机型就更不用说了。
一位女士坐在餐厅里的照片,手上拿着写着“Menu”的菜单
一名男子举着写着“稳定扩散”的牌子的照片
一位年轻女性举着写着“稳定扩散”的标语,头发上有亮点,坐在餐厅外面,棕色眼睛,穿着裙子,侧灯
更好的人体解剖学
稳定扩散长期以来在生成正确的人体解剖学方面存在问题。多出或缺失的肢体很常见。您通常会使用修复来纠正它们。或者,最近,您可以使用 ControlNet 的开放姿势功能从参考图像复制姿势。
我很高兴看到 SDXL Beta 模型在这方面有所改进。让我们看一个例子。
提示是:
一位身着瑜伽服、三角姿势、傍晚海滩、边缘照明的女性的照片
这是 SDXL Beta 图像。
与下面的 v1.5 图像进行比较。
它并不完美,但 SDXL 中的人体姿势要好得多!
更多唯美图片
生成的图像可能完全不同。请参阅具有相同提示的以下图像。
v1.5
v2.2.2 SDXL 测试版
照片风格的人像在 SDXL Beta 中非常好。我会说它比 v1.5 更好。
一个女人的照片
v1.5
v2.2.2 SDXL 测试版
v1.5
v2.2.2 SDXL 测试版
更准确的图像
理解提示的能力比 v1 模型有所改进。
在 v1.5 模型中,关键字duotone始终生成黑白图像。SDXL Beta 生成具有多种颜色的双色调图像。这是一个改进。
一个女人的双色调肖像
v1.5
v2.2.2 SDXL 测试版
由于 SDXL Beta 是 v2 模型,它配备了更大的文本模型。您可以期望它比 v1 模型更好地理解您的提示。的确,这就是我们所看到的。
让我们看一下由以下提示生成的两个主题的图像。
坐在人类旁边的大机器人朋友,攻壳机动队,动漫壁纸
v1.5
v2.2.2 SDXL 测试版
v1.5 模型始终忽略提示中的两个主题,即机器人和人。但 SDXL Beta 模型能够理解提示并生成更正确的图像。(我希望机器人可以更大,但这是向前迈进了一步。)
同样,照片风格的图像更准确。请参阅以下提示和图像。
一个年轻人,头发突出,棕色眼睛,穿着白衬衫和蓝色牛仔裤,在背景是火山的海滩上
v1.5
v2.2.2 SDXL 测试版
艺术风格
我检查了一些艺术风格。有一些细微的变化,但我不能说它们是好是坏。只是不同而已。
v1.5 和 SDXL Beta 都生成了 Edward Hopper 的风格。尽管它们始终不同。
爱德华·霍珀 (Edward Hopper) 的纽约城
v1.5
v2.2.2 SDXL 测试版
v1.5 准确生成 Leonid Afremov 的样式。SDXL Beta 中缺少明确无误的彩色板笔触。它生成了一种插图风格,有趣的是,它仍然保留了地面上的清晰反射。
列昂尼德·阿夫雷莫夫 (Leonid Afremov) 的纽约市
v1.5
v2.2.2 SDXL 测试版
v1.5 和 SDXL Beta 都产生了接近 William-Adolphe Bouguereau 风格的东西。SDXL Beta 的图像更接近布格罗创作的典型学院派绘画。一般来说,SDXL Beta 中的人像会显示更多面部细节。
威廉阿道夫布格罗美丽女人的肖像
v1.5
v2.2.2 SDXL 测试版
风格转变
也许这是此预览模型中的一个小故障。有时,样式会随着无辜关键字的添加而突然改变。
例如,我从这个生成照片风格的提示开始。
一个年轻人,头发突出,棕色眼睛,穿着白衬衫和蓝色牛仔裤,在背景是火山的海滩上
现在我想加一条黄色围巾。
一个年轻人,头发突出,棕色眼睛,戴着黄色围巾,穿着白色衬衫和蓝色牛仔裤,在背景是火山的海滩上
突然,图像变成了动漫风格。这发生在一些关键字上。这几乎就像该模型已经融合了一些卡通风格并且渴望切换到那种风格。
希望这个问题会在发布版本中得到解决。
印象
以下是我对 SDXL Beta 模型的看法:
- Stable Diffusion 终于生成了正确的文本!
- 比 v2.1 模型和(在较小程度上)v1.5 模型更美观。
- 如提示中所述,图像更准确。
- 人体解剖学越来越好。
- 不像v2.1那样需要否定提示。
- 特别擅长人像。
- 模型中的一些特殊故障将在发布前修复。
最后,还有一些来自 SDXL beta 模型的图像。