浅谈Diffusion ①理解 Latent Diffusion Model

Paper :High-Resolution Image Synthesis with Latent Diffusion Models

这篇文章是Stable Diffuion的开山之作了,接下来让我带大家看看这篇文章讲了些什么吧~

1、研究背景

However, since these models typically operate directly in pixel space, optimiza- tion of powerful DMs often consumes hundreds of GPU days and inference is expensive due to sequential evalu- ations.

对于传统的DM模型,在pixel space上去进行图像的加噪与去噪,这对模型的训练效率非常不利,我们是否有一个更加小的空间去用来加噪和去噪呢?想想之前学习的nlp领域的Transformer中的潜空间,我们是否可以构建类似的空间,然后在这个潜在空间中加噪去噪去达到扩散模型的效果呢?

因此,Latent Diffusion横空出世,通过在潜在表示空间(latent space)上进行diffusion过程的方法,大大减少了计算复杂度并达到了较好的效果。

2、模型优势

LDM模型不仅可以大大减少时间复杂度,而且可以生成更加细致的图像,并且在超高分辨率图片生成任务上表现的也很好!

不仅如此,论文还提出了cross-attention(交叉注意力)的方法来实现多模态的训练,使得条件图片生成任务成为可能!论文中提到的条件图片生产任务包括类别条件图片生成(class-condition),文生图(text to image),布局条件图片生成(layout to image)。这为如今AI绘画领域的宏大打下了坚实的基础。

3、模型原理

我们先来看看paper中给出的原理图
图片[1]-浅谈Diffusion ①理解 Latent Diffusion Model-MuQYY的博客
我们分为图片感知压缩潜在扩散模型条件机制三个方面来理解

3.1、图片感知压缩

图片感知压缩特点如下:

  • 目的:给定一个图像$x$,编码器把$x$编码成潜空间的$z$,解码器从潜空间把$z$解码回$\tilde{x}$。
  • 训练loss: KL正则和VQ正则。

3.2、潜在扩散模型

潜在扩散模型中,引入了预训练的感知压缩模型,它包含一个解码器和一个编码器,这样就可以在训练的时候利用编码器得到$z_t$,从而让模型在潜在空间中学习。

3.3 条件机制

条件机制本质在于通过交叉注意力机制增强底层的Unet主干,将DM转为更加灵活的条件图像生成器。

$$Attention(Q,K,V)=\text{softmax}(\frac{QK^T}{\sqrt[]{d} } )\cdot V$$

4、训练与推理

4.1、训练

训练分为两个步骤:
首先训练得到一个VAE,即$x$到$z_t$的Encoder和还原$x'$的Decoder。
然后再训练中间的LDM扩散模型,学习噪声到$z_t$的生成过程,其中LDM架构是一个Unet

4.2、推理

推理分为无条件信息和有条件信息,如果无条件信息则通过高斯噪声采样,经过LDM模型得到潜空间图像$z_t$,然后经过Decoder还原到原图。

如果有条件,则条件信息通过条件处理的编码器得到的输出与初始高斯噪声进行耦合,再经过LDM得到潜空间图像$z_t$,经过Decoder还原到原图。

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容