论文笔记②Adding Conditional Control to Text-to-Image Diffusion Models

文献基本信息

  • 文献名称: Adding Conditional Control to Text-to-Image Diffusion Models
  • 期刊杂志: ICCV 2023

研究类型

  • 类型: Research Article

文献基本内容

  • 研究背景: 文本到图像的扩散模型(如Stable Diffusion)可以通过文本提示生成令人惊叹的图像,但在图像的空间组成控制上存在限制。用户往往需要通过多次尝试和错误来编辑文本提示,以生成与心理预期相符的图像。
  • 先前研究的局限性: 现有的文本到图像模型在空间控制上的限制,使得精确表达复杂布局、姿势、形状和形式变得困难。
  • 研究目的: 提出一种神经网络架构(ControlNet),为大型预训练的文本到图像扩散模型添加空间条件控制。
  • 研究方法:
    • ControlNet: 利用预训练模型的强大编码层作为基础,通过“零卷积”连接,逐步从零增长参数,确保在微调过程中不会受到有害噪声的影响。
    • 条件控制: 测试了各种条件控制,如边缘、深度、分割、人体姿势等,使用单个或多个条件,有无文本提示。
  • 是否具有创新性: 是,ControlNet通过零卷积层连接预训练模型的编码层和可训练副本,保护了大规模预训练的编码层。
  • 研究思路(技术路线):
    1. ControlNet结构: 将ControlNet结构应用于神经网络块,通过零卷积层注入额外的条件。
    2. 应用到Stable Diffusion: 将ControlNet应用于Stable Diffusion的编码器块和中间块。
    3. 训练: 使用不同的数据集大小进行训练,展示ControlNet的训练是稳健的。
    4. 推理: 描述了如何在推理过程中组合多个ControlNets。
  • 研究结果: ControlNet可以控制Stable Diffusion生成具有各种条件控制的图像,训练过程稳健且可扩展。
  • 文献意义: ControlNet可能促进更广泛的应用,以控制图像扩散模型。

已解决的问题

  • 研究的创新性: ControlNet通过在预训练模型的基础上添加条件控制,提高了图像生成的空间控制能力。

未解决的问题

  • 研究的局限性: 文献中没有明确列出未解决的问题,但可能包括模型在不同数据集和条件下的泛化能力等。

对自己课题的意义

  • 该研究提供了一种新的方法来提高图像生成任务的控制能力,对于相关领域的研究者来说,可以借鉴其方法来改进自己的研究。

可借鉴的内容

  • 方法: ControlNet的设计和实现,特别是在预训练模型上添加条件控制的方法。
  • 思路: 如何在预训练模型的基础上进行有效的微调,以添加新的控制能力。
  • 流程: 训练ControlNet的过程,包括数据集的选择、训练策略和推理方法。

注意事项

  • 可能出现错误的环节: 在微调过程中可能会遇到的过拟合和灾难性遗忘问题。

详细方法部分

  • ControlNet:

    • 基本结构: ControlNet通过锁定预训练神经块的参数,并创建一个可训练的副本,将外部条件向量注入到网络中。

    • 零卷积层: 使用1×1卷积层,权重和偏置初始化为零,逐步在训练过程中增加参数,防止初始训练阶段的有害噪声。

    • 计算公式:
      $$
      y_c = F(x; \Theta) + Z(F(x + Z(c; \Theta_{z1}); \Theta_c); \Theta_{z2})
      $$
      其中$y_c $是ControlNet块的输出。

  • ControlNet应用于文本到图像扩散:

    • Stable Diffusion结构: 使用ControlNet创建Stable Diffusion的编码块和中间块的可训练副本。
    • 条件向量编码: 将输入条件图像(如边缘、姿势、深度等)转换为与Stable Diffusion的潜在图像空间匹配的特征空间向量。
  • 训练:

    • 目标函数: 使用扩散模型的学习目标直接微调带有ControlNet的扩散模型。
    • 训练策略: 在训练过程中随机替换50%的文本提示,增强ControlNet直接识别输入条件图像的语义内容。
  • 推理:

    • 分类器自由引导: 调整CFG(分类器自由引导)的权重,以控制条件图像对生成过程的影响。
    • 组合多个条件: 直接将多个ControlNets的输出添加到Stable Diffusion模型中,实现多重条件控制。

方法图

pkqCE4K.png

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容