扩散模型基础知识介绍

扩散模型基础知识

想象一滴墨水滴入一杯清水中。随着时间的推移,墨水会不断扩散,最终整杯水变成均匀的淡蓝色。这是一个自然的、熵增的物理过程,我们称之为“扩散”。

扩散模型的底层逻辑正是源于这种物理直觉:如果我们能精确记录墨水扩散的每一个微小步骤,我们能否训练一个 AI,让它学会“时光倒流”,将一杯淡蓝色的水,重新凝聚成那一滴轮廓分明的墨水?

一、 核心机制

扩散模型的核心由两个截然相反的过程组成。为了便于理解,我们假设有一张清晰的小狗照片 x0x_0

1. 前向过程(Forward Process):熵增与破坏

前向过程是一个固定的、不需要模型学习的马尔可夫链(Markov Chain)。在这个过程中,我们设定总共 TT 个时间步(通常 T=1000T = 1000)。在每一个微小的时间步 tt,我们都向上一时刻的图像 xt1x_{t-1} 中注入一点点高斯噪声。

随着步数增加,图像原有的特征被逐渐抹去。当到达最后一步 xTx_T 时,小狗的照片已经完全变成了一张充满了电视机雪花点的纯高斯噪声图。这个过程就是“墨水扩散”。

2. 反向过程(Reverse Process):去噪与重建

这是模型真正展现魔力的地方。反向过程的目标是从纯噪声 xTx_T 开始,一步步地去除噪声,最终还原出清晰的图像 x0x_0

因为我们无法直接用数学公式计算出“如何倒退”,所以我们引入了一个深度神经网络(通常是 U-Net 架构)。我们将这个网络安插在时间步 tt,让它观察当前充满噪声的图像 xtx_t,并结合当前的时间进度 tt,去预测出在这一步究竟需要减去什么样的噪声,才能退回到稍微清晰一点的 xt1x_{t-1}。经过 TT 次迭代,纯噪声就被雕刻成了精美的画作。

二、 DDPM 的基础理论

在 2020 年,DDPM (Denoising Diffusion Probabilistic Models) 奠定了现代扩散模型的数学框架。

1. 前向加噪:重参数化技巧(Reparameterization Trick)

在时间步 tt,向图像 xt1x_{t-1} 添加噪声的转移概率定义为:

q(xtxt1)=N(xt;1βtxt1,βtI)q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1 - \beta_t} x_{t-1}, \beta_t I)

这里 βt\beta_t 是一个预先设定的极小的方差(variance schedule)。

在计算机科学的实现中,如果我们要获取第 500 步的图像,循环计算 500 次效率极低。DDPM 巧妙利用了高斯分布叠加的性质。我们定义 αt=1βt\alpha_t = 1 - \beta_t,并令累乘 αˉt=s=1tαs\bar{\alpha}_t = \prod_{s=1}^t \alpha_s。通过代入展开,我们可以直接推导出任意时间步 tt 的状态分布:

q(xtx0)=N(xt;αˉtx0,(1αˉt)I)q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1 - \bar{\alpha}_t) I)

这意味着,我们可以直接用原图 x0x_0 和一个标准高斯噪声 ϵ\epsilon 算出任意时刻的噪声图 xtx_t

xt=αˉtx0+1αˉtϵx_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon

2. 反向去噪:极其简化的损失函数

理论上,模型需要拟合逆向概率 q(xt1xt)q(x_{t-1} | x_t)。这在数学上对应着去最大化数据的变分下界(ELBO)。但 DDPM 的作者经过复杂的推导后发现,这个庞大的目标最终可以被简化为一个极其优雅的形式。

与其让神经网络 pθp_\theta 去预测原图或者复杂的均值,不如直接让模型去预测那团被添加进去的噪声 ϵ\epsilon。这使得损失函数变成了一个简单的均方误差(MSE):

Lsimple=Et,x0,ϵ[ϵϵθ(xt,t)2]\mathcal{L}_{simple} = \mathbb{E}_{t, x_0, \epsilon} [\|\epsilon - \epsilon_\theta(x_t, t)\|^2]

  • ϵ\epsilon:我们通过公式直接加进去的真实噪声。
  • ϵθ\epsilon_\theta:神经网络通过观察 xtx_ttt 预测出的噪声。
    模型在训练阶段所做的唯一一件事,就是不断降低这两者之间的差距。

三、 向 Stable Diffusion 进军

DDPM 虽然确立了范式,但它在工程实现上有着致命的缺陷:推理速度极慢,且极其消耗计算资源。 因为严格的马尔可夫链要求生成时必须老老实实地走完 1000 次神经网络前向传播。为了解决这些痛点,扩散模型迎来了三次重大的技术进化。

进化一:DDIM 带来十倍提速 (2021)

DDIM (Denoising Diffusion Implicit Models) 的核心贡献是打破了前向过程必须是马尔可夫链的假设。

  • 非马尔可夫链推导: DDIM 重新构造了一个前向过程,使得它拥有和 DDPM 完全相同的边缘分布,但每一步不再强依赖于紧邻的上一步。
  • 跳步采样(Skip-Step Sampling): 既然去除了强烈的链式依赖,我们在反向生成时就可以跨越时间步。原本需要 T=1000T=1000 步的过程,被压缩到了 50 步甚至更少。此外,DDIM 将生成过程变成了**确定性(Deterministic)**的,这意味着给定相同的初始噪声种子,模型会稳定地生成同一张图像。

进化二:CFG 实现精准控制 (2022)

CFG (Classifier-Free Guidance) 解决了“如何让模型听懂提示词”的问题。

  • 在 CFG 出现之前,条件生成往往需要额外部署一个分类器网络来引导扩散的方向,这非常繁琐。
  • CFG 提出了一种联合训练法:在训练时,随机以一定概率丢弃文本提示词(即无条件生成)。在推理时,模型同时计算“有条件”和“无条件”的预测噪声,并将两者的差异放大。这个差异就像一个指南针,强有力地指引图像朝着文本描述的方向收敛。

进化三:LDM 的降维打击与大一统 (2022)

DDPM 和 DDIM 都在高维的**像素空间(Pixel Space)**进行计算。如果你要生成一张高清图片,海量的像素点会让计算复杂度和显存占用呈指数级爆炸。Latent Diffusion Models (LDM),即 Stable Diffusion 的核心架构,通过引入变分自编码器(VAE)完成了华丽的降维打击。

  1. 感知压缩(Perceptual Compression): 首先,利用 VAE 的编码器(Encoder),将庞大的像素图像压缩到一个维度极低的**潜在空间(Latent Space)**中。例如,将计算量直接缩小 64 倍,但保留了几乎所有的高层语义特征。
  2. 潜在空间扩散: 所有的加噪(前向)和去噪(反向)操作,全部在这个极其轻量化的潜在空间中进行。U-Net 不再处理沉重的像素,而是处理轻盈的特征矩阵。
  3. 交叉注意力机制(Cross-Attention): LDM 在 U-Net 内部深度集成了 Attention 机制。用户的文本提示词经过 CLIP 模型编码后,就像钥匙一样插入到 U-Net 的各个层级中,精确控制特征的走向。
  4. 像素解码(Decoding): 当潜在空间的去噪完成后,最后再通过 VAE 的解码器(Decoder),将潜在特征瞬间还原回高清的像素图像。

正是 LDM 的这一架构创新,将原本属于数据中心超算集群的生成大模型,硬生生塞进了普通开发者的个人电脑里,彻底引爆了当今的 AIGC 浪潮。



扩散模型基础知识介绍
https://huan-yin.github.io/2026/03/13/扩散模型基础知识介绍/
作者
李相越
发布于
2026年3月13日
许可协议