AI 图像生成已经从产生模糊、变形的面孔发展到可以在不到一分钟的时间内创建出超真实的场景和详细的插图。但是,计算机如何根据文本描述“想象”出一幅图像呢?本指南解释了 Midjourney、DALL-E 和 Stable Diffusion 等工具背后的核心技术——不涉及数学,但足以让您理解您实际上支付的内容。
从噪声到图像:扩散模型的工作原理
大多数现代图像生成器使用一种称为 扩散 的技术。这个想法与直觉相反:模型通过学习从图像中 去除 噪声,而不是从头开始绘制图像。
在训练过程中,系统取数百万张真实图像,并逐渐向它们添加随机噪声,直到它们变成纯静态。然后,它学习反转该过程——一步一步地,预测原始图像在每个阶段的外观。在生成时,它从纯噪声开始,并迭代地“去噪”成一个连贯的图像,受您的文本提示的指导。
这就是 采样步骤 数量很重要的原因:更多步骤通常意味着更详细和更精细的结果,但也意味着更慢的生成和更高的计算成本。
潜在空间:为什么生成速度足够快以便于实际使用
直接使用全分辨率像素数据将非常慢。像 Stable Diffusion 这样的现代系统通过在 潜在空间 中操作来解决这个问题——这是图像的压缩数学表示。一个编码器将图像缩小到这种紧凑的形式,扩散过程在那里运行(速度更快),然后一个解码器将结果扩展回像素。
这就是为什么这些模型被称为“潜在扩散模型”的原因。压缩是有损的,但效果非常好:512x512 像素的图像可能在生成过程中被表示为 64x64 的潜在张量。
CLIP:连接文本和图像
模型需要理解您的提示才能生成相关图像。这就是 CLIP (对比语言-图像预训练) 的作用。CLIP 在数亿张来自互联网的图像-文本对上进行了训练,学习将文本描述和图像映射到同一个数学空间。
当您输入“一只戴着墨镜的金毛猎犬在海滩上的日落”时,CLIP 将该文本转换为一个编码其含义的数字向量。扩散模型使用该向量在去噪过程中进行指导,将噪声引向与您的描述相匹配的图像。该指导的强度由一个称为 CFG 比例 (无分类器的指导) 的参数控制——更高的值更直接地遵循提示,较低的值给予模型更多的创作自由。
微调和 LoRA:自定义输出
基础模型是通用的,但许多用户需要特定的风格或主题。 微调 重新训练模型在一个较小、专门的数据集上——例如一组产品照片或特定的插图风格。
完全的微调很昂贵,因此一种称为 LoRA (低秩适应) 的技术已经成为标准。与其修改模型的所有参数,LoRA 添加了小的可训练层来调整输出,计算成本最小。您可以在 20-50 张特定主题的图像上训练一个 LoRA,并像过滤器一样将其应用于基础模型上。许多社区创建的 LoRA 可以下载,并且可以混合和匹配。
负面提示和控制参数
除了主要提示外,大多数工具还允许您指定一个 负面提示 ——您明确不想要在图像中的内容。 “无文本,无水印,无额外手指”是一个常见的负面提示。模型使用此提示来避免不需要的输出。
您将遇到的其他关键参数:
- 种子:决定起始噪声的随机数。相同的种子 + 相同的提示 = 相同的图像,这对于可复现性很有用。
- 采样步骤:要运行的去噪迭代次数(通常为 20-50)。
- CFG 比例:模型遵循提示的严格程度(通常为 5-15)。
- 分辨率:输出图像的尺寸。更高的分辨率需要更多的 VRAM 和时间。
扩散模型:一种通过学习反转噪声添加过程来生成图像的神经网络,迭代地将随机静态精炼成一个连贯的图像。
潜在空间:图像数据的压缩数学表示,实际生成发生在这里,使得该过程在计算上是可行的。
CLIP:一种理解文本和图像之间关系的模型,用于根据您的提示指导生成。
CFG 比例:无分类器的指导——控制模型遵循您的文本提示的严格程度与自由生成之间的平衡。
LoRA:低秩适应——一种轻量级的微调方法,允许您使用少量训练图像自定义模型的输出。
负面提示:您希望模型避免包含在生成图像中的元素的文本描述。
选择图像生成工具时需要注意什么
各个工具背后的技术是相似的,但实际差异很重要。请考虑:每月可以生成的图像数量(配额差异很大),工具是否在本地运行或在云端运行(本地 = 更多控制,但需要 GPU),商业使用的许可条款,以及是否可以微调或使用自定义 LoRA。一些工具在摄影真实度方面表现出色,而其他工具则擅长插图或概念艺术。本网站的比较将逐一分解这些差异。