Stable Diffusion是一种生成式人工智能(generative AI)模型,可根据文本和图像提示生成独特的逼真图像。它最初于 2022 年推出。除了图像,您还可以使用该模型创建视频和动画。该模型基于扩散技术,使用潜空间。这大大降低了处理要求,你可以在配备 GPU 的台式机或笔记本电脑上运行该模型。通过迁移学习,只需五幅图像就可以对稳定扩散进行微调,以满足您的特定需求。
Stable Diffusion为什么重要?
稳定扩散之所以重要,是因为它易于访问和使用。它可以在消费级显卡上运行。这是第一次,任何人都可以下载模型并生成图像。您还可以控制关键的超参数,如去噪步骤的数量和应用的噪声程度。
Stable Diffusion 对用户非常友好,创建图像不需要额外的信息。它拥有一个活跃的社区,因此 Stable Diffusion 有充足的文档和教程。软件发布采用 Creative ML OpenRAIL-M 许可,允许使用、更改和重新发布修改过的软件。如果要发布衍生软件,则必须按照相同的许可证发布,并附上 Stable Diffusion 原始许可证的副本。
Stable Diffusion是如何工作的?
作为一种扩散模型,稳定扩散与许多其他图像生成模型不同。原则上,扩散模型使用高斯噪声对图像进行编码。然后,它们使用噪声预测器和反向扩散过程来重新生成图像。
除了具有扩散模型的技术差异外,稳定扩散模型的独特之处还在于它不使用图像的像素空间。相反,它使用的是还原定义的潜在空间。
这是因为分辨率为 512x512 的彩色图像有 786,432 个可能值。相比之下,稳定扩散技术所使用的压缩图像要小 48 倍,只有 16,384 个值。这大大降低了处理要求。这也是为什么你可以在配备 8GB 内存的英伟达™(NVIDIA®)图形处理器的台式机上使用稳定扩散技术的原因。较小的潜在空间之所以有效,是因为自然图像不是随机的。稳定扩散技术在解码器中使用变异自动编码器 (VAE) 文件来描绘眼睛等细节。
稳定扩散 V1 使用 LAION 通过 "共同爬行"(Common Crawl)收集的三个数据集进行训练。其中包括 LAION-Aesthetics v2.6 数据集,该数据集包含美学评级为 6 或更高的图片。
Stable Diffusion使用什么架构?
稳定扩散的主要架构组件包括变异自动编码器、正向和反向扩散、噪声预测器和文本调节。
变异自动编码器
变异自动编码器由独立的编码器和解码器组成。编码器将 512x512 像素的图像压缩成一个较小的 64x64 潜伏空间模型,以便于操作。解码器则将模型从潜空间还原为完整尺寸的 512x512 像素图像。
前向扩散
前向扩散是将高斯噪声逐步添加到图像中,直到只剩下随机噪声为止。从最终的噪声图像中无法识别出图像的内容。在训练过程中,所有图像都会经历这一过程。除非在进行图像到图像的转换时,否则不会再使用正向扩散。
反向扩散
这一过程本质上是一个参数化过程,它可以迭代地撤销正向扩散。例如,您可以只用两张图像(如一只猫和一只狗)来训练模型。如果你这样做了,反向过程就会向猫或狗的方向漂移,而不会在两者之间出现任何偏差。实际上,模型训练涉及数十亿张图像,并使用提示来创建独特的图像。
噪声预测器(U-网络)
噪声预测器是图像去噪的关键。稳定扩散技术使用 U-Net 模型来实现这一功能。U-Net 模型是一种卷积神经网络,最初是为生物医学中的图像分割而开发的。特别是,稳定扩散使用了为计算机视觉开发的残差神经网络(ResNet)模型。
噪声预测器会估算潜空间中的噪声量,并将其从图像中减去。它会按照用户指定的步骤重复这一过程若干次,以减少噪声。噪声预测器对有助于确定最终图像的调节提示非常敏感。
文本调节
最常见的调节形式是文本提示。CLIP 标记器会分析文本提示中的每个单词,并将这些数据嵌入一个 768 值的向量中。一个提示中最多可使用 75 个标记。Stable Diffusion 使用文本转换器将这些提示从文本编码器馈送到 U-Net 噪音预测器。通过将种子设置为随机数生成器,可以在潜空间中生成不同的图像。
Stable Diffusion能做什么?
稳定扩散是文本到图像模型生成方面的一项显著改进。与许多其他文本到图像模型相比,它具有广泛的可用性和更低的处理能力。它的功能包括文本到图像、图像到图像、图形艺术品、图像编辑和视频创建。
文本到图像生成
这是人们使用 Stable Diffusion 的最常见方式。稳定扩散使用文字提示生成图像。你可以通过调整随机生成器的种子数或更改去噪时间表来创建不同的图像,以获得不同的效果。
图像到图像生成
使用输入图像和文本提示,您可以根据输入图像创建图像。一个典型的例子是使用草图和适当的提示。
创建图形、艺术品和徽标
通过选择提示符,可以创建各种风格的艺术品、图形和徽标。当然,虽然可以使用草图指导徽标创建,但无法预先确定输出结果。
图像编辑和润
您可以使用 Stable Diffusion 编辑和润饰照片。使用 AI 编辑器加载图像,然后使用橡皮笔刷遮盖要编辑的区域。然后,通过生成提示来定义您想要实现的效果,编辑或润饰图片。例如,你可以修复旧照片、移除图片中的物体、改变主体特征,以及为图片添加新元素。
创建视频
利用 GitHub 的 Deforum 等功能,你可以用 Stable Diffusion 制作视频短片和动画。另一种应用是为影片添加不同风格。 您还可以通过创建运动印象(如流水)来制作照片动画。
ARC是腾讯旗下ARC(Applied Research Center,应用研究中心)实验室推出的系列AI图片处理工具,目前提供了三项免费的AI图像功能:人像修复、人像抠图和动漫增强。