提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing

Author:Dongxu Li , Junnan Li , Steven C.H. Hoi
From:NeurIPS 2023


Abstract

主题驱动的文本到图像生成模型基于文本提示创建输入主题的新颖呈现。现有的模型存在长时间的微调和难以保持主体保真度的问题。为了克服这些局限性,我们引入了BLIP扩散,这是一种新的主题驱动的图像生成模型,支持多模态控制,使用主题图像和文本提示的输入。与其他主题驱动的生成模型不同,BLIP Diffusion引入了一种新的多模态编码器,该编码器经过预训练以提供主题表示。我们首先按照BLIP-2对多模式编码器进行预训练,以产生与文本对齐的视觉表示。然后,我们设计了一个主题表示学习任务,该任务使扩散模型能够利用这种视觉表示并生成新的主题呈现。与Dream Booth等之前的方法相比,我们的模型能够实现零样本主题驱动的生成,并以高达20倍的速度对定制主题进行高效微调。我们还证明,BLIP-Diffusion可以灵活地与Control Net和prompt等现有技术相结合,以实现新的主题驱动的生成和编辑应用。


1、Introduction

文本到图像生成模型得到了显著发展,并能够基于文本提示创建高质量的图像。它们的应用之一是主题驱动生成,旨在呈现输入主题的新颖呈现,同时保持其外观。主题驱动生成区域-口的常见方法是将主题视觉转换为文本嵌入空间。具体而言,使用预训练的文本到图像生成模型,优化占位符文本嵌入以重建一组主题图像。然后将嵌入内容组合成自然语言提示,以创建不同的主题呈现。这种方法的一个已知低效之处是,它需要为每个新主题重复数百或数千个繁琐的微调步骤,这阻碍了它有效地扩展到广泛的主题。
我们将这种低效归因于这样一个事实,即大多数预训练的文本到图像模型本身并不支持多模式控制——同时使用图像和文本作为控制输入。因此,在以高保真度捕捉主题视觉效果的同时,学习与文本空间对齐的主题表示变得具有挑战性。为了克服这些限制,我们引入了BLIP-Diffusion,这是第一个具有预先训练的通用主题表示的主题驱动的文本到图像生成模型,它能够在零样本中实现主题驱动的生成或进行很少的步骤微调。我们的模型建立在视觉语言编码器(即BLIP-2[)和潜在扩散模型的基础上。BLIP-2编码器将被摄体图像及其类别文本作为输入;它生成与文本对齐的主题表示作为输出。然后,我们在提示嵌入中插入主题表示,以指导主题驱动图像生成和编辑的潜在扩散模型。
为了实现可控和高保真的生成,我们提出了一种新的两阶段预训练策略来学习通用的主题表示。在第一个预训练阶段,我们执行多模态表示学习,该学习强制BLIP-2基于输入图像生成文本对齐的视觉特征。在第二个预训练阶段,我们设计了一个主题表征学习任务,其中扩散模型学习根据输入的视觉特征生成新的主题呈现。为了实现这一点,我们策划了一对输入目标图像,其中同一主题出现在不同的上下文中。具体来说,我们通过将对象与随机背景合成来合成输入图像。在预训练过程中,我们通过BLIP-2馈送合成输入图像和主题类标签,以获得作为主题表示的多模态嵌入。然后,将主题表示与文本提示相结合,以指导目标图像的生成。
得益于预先训练的受试者表示,BLIP-Diffusion实现了有希望的零镜头受试者驱动的生成结果和卓越的微调效率。例如,BLIP-Diffusion需要40-120个微调步骤来专门针对给定的主题,与DreamBooth相比,速度提高了20倍。此外,BLIP扩散继承了组成潜在扩散模型的行为,可以灵活扩展以支持各种主题驱动的生成应用程序,而无需进一步训练。按照提示的方法,BLIP-Diffusion允许编辑具有特定主题视觉效果的图像。当与ControlNet结合使用时,它可以通过各种额外的结构控制实现主题驱动的生成。


2、Related Work

2.1、Diffusion Models for Text-to-Image Generation

扩散模型通过逐步对从高斯分布中提取的随机变量进行去噪来生成图像。在这项工作中,我们对预训练的文本到图像潜在扩散模型特别感兴趣。给定一个潜在变量z及其噪声版本z,通过在z上逐步添加噪声来获得t步,潜在扩散模型优化了以下目标:
在这里插入图片描述

这是在时间步长t,给定c文本提示作为条件,神经模型e在添加噪声e和预测噪声e(zt,t)之间的平方误差。在训练过程中,通过将图像传递到预训练的编码器中来获得潜在变量z。为了推理,采用解码器将去噪的潜像转换为图像。除了文本提示外,我们的模型还对主题表示进行了条件设置,呈现了一个具有多模态条件的图像生成架构。

2.2 Subject-driven Text-to-Image Generation

给定一个主题的一些图像,主题驱动的文本到图像生成任务旨在根据文本提示在全新的上下文中生成主题。在扩散模型时代,TextualInversion【提出使用占位符文本嵌入来表示视觉概念,并优化嵌入以重建主题图像。DreamBooth采用类似的方法,同时进一步微调扩散模型,这导致了更好的表达能力和主题准确性。这两种方法的一个已知缺点是它们为每个新主题花费了很长时间进行微调,这阻止了这些方法轻松扩展。最近的努力试图减少微调所需的时间和精力。在我们努力的同时,相关工作在特定领域的图像(如猫和人脸图像)上预训练扩散模型。这些模型为生成提供特定类别的先验,因此更有效地进行微调。但它们也受到主题类别列表的约束,并且无法轻松推广到一般主题。 SuTI方法,提出了是,一种知识蒸馏方法,从数百万个经过微调的专家模型中学习零样本生成。他们的模型在主体姿势上的灵活性较差,并且可能会受到输入图像背景的干扰。相比之下,我们模型中的预训练表示对广泛的主题都是通用的,同时可以有效地推广到不同的主题。


3、Method

我们提出了 BLIP-Diffusion,这是第一个通过内置的通用预训练对象表示进行多模态控制的图像扩散模型。具体来说,我们使用 BLIP-2编码器提取多模态对象表示,然后与文本提示一起使用,以指导生成。
我们的目标是学习主题表示,捕捉主题特定的视觉外观,同时与文本提示很好地对齐。为此,我们提出了如图2所示的两阶段预训练策略。首先,多模态表示学习阶段产生与文本对齐的通用图像表示。其次,主题表示学习阶段使用文本和主题表示向扩散模型提示,进行主题驱动生成。在本节中,我们描述了模型设计和预训练策略。
在这里插入图片描述

3.1、Multimodal Representation Learning with BLIP-2

我们使用 Stable Diffusion 作为潜在扩散模型,它依赖于 CLIP文本编码器生成提示嵌入。为了引导使用文本和主题表示作为提示的生成,主题嵌入和文本嵌入很好地对齐以确保它们能够相互合作是很重要的。受最近的视觉语言预训练模型 BLIP-2的启发,它能够生成高质量的文本对齐视觉表示,我们决定将其应用于提取文本对齐主题表示。
具体地说,如图2a所示,我们使用两个主要模块从BLIP-2学习多模态表示:一个冻结的预训练图像编码器提取通用的图像特征,和一个多模态用于图像-文本对齐的编码器(即 Q-Former)。多模态编码器是一个变压器,它接受固定数量的可以学习的查询标记和输入文本。查询标记通过自注意层与文本交互,通过交叉注意层与冻结的图像特征交互,并产生文本对齐的图像特征作为输出。输出的维度与查询标记的数目相同。经验上,我们发现,在用于图像生成时,最初实现的32 个输出特征经常压倒 CLIP 文本嵌入。因此,我们将查询令牌的数量减少一半,并输出16个特征。
在 BLIP-2 预训练之后,我们联合训练三个视觉语言预训练目标,包括一个图像-文本对比学习(ITC)损失,通过最大化它们的互信息来对齐文本和图像表示,-个基于图像的文本生成(ITG)损失,为输入图像生成文本,以及一个图像-文本匹配(ITM)损失,通过二进制预测捕获细粒度的图像-文本对齐。我们在通用的图像-文本配对数据上进行多模态表示学习使模型能够学习各种视觉和文本概念。

3.2、Subject Representation Learning with Stable Diffusion

作为多模态表示学习的结果,我们得到了文本对齐的视觉表示的输入图像。这些特征捕获了输入图像的通用语义信息。不过,它们并非专门为作为扩散模型的指导而制定的,为此,主题表示学习阶段旨在使扩散模型能够利用这种视觉表示,并在与文本提示结合时生成主题的不同演绎。特别是,在将主题表示注入到一个对象时,我们考虑了两个期望的属性。扩散模型。首先,我们期望主题表示与文本提示很好地协调。用于文本引导的主题驱动生成。在这方面,先前的方法做在训练期间不处理文本提示。因此,它们不直接适用于可伸缩性。预培训。第二,基本扩散模型的行为应该在理想情况下得到保持。这使得主题驱动的生成模型能够利用建立在主题之上的技术。实时原创模型,如图像编辑和结构控制生成。
模型架构。建议的模型架构如图2b所示。我们连接输出的 BLIP-2 多模态编码器复制到扩散模型的文本编码器的输入端。在预多模态编码器作为输入对象图像和对象类别的文本,生成具有类别意识的主题视觉表示。然后我们转换主题表示使用由两个线性层组成的前馈层,使用GELU中间的激活。投影功能作为软可视主题提示附加到文本提示标记嵌入中。具体来说,在组合文本令牌和主题嵌入时,我们使用模板"[text]提示],[主题文本]是[主题提示]”。最后,组合的文本和主题嵌入通过CLIP文本编码器,作为扩散模型生成的指导方针。输出图像。软视觉提示对底层扩散进行最小的架构更改模型,提供了一种有效的解决方案来注入主题表示,同时在很大程度上继承了底层扩散模型的建模功能。
使用快速语境生成的主题-通用预训练。我们的目标是预训练模型以便它学会从输入图像中表示一般主体。为此,一种天真的方法是使用相同的图像作为输入到多模态编码器和输出到扩散模型如在,.然而,我们的初步实验表明,这导致了微不足道的解决方案,其中在输入中,甚至模型将输入图像复制为输出,导致世代不尊重文本提示。另一方面,虽然可以收集同一主题的不同上下文中的多张图像,从而使用不同的图像作为输入和目标,但这种方法很难扩展到一般主题。
为了解决这些问题,我们提出了一种新的预训练任务,用于学习主题通用表示,称为提示上下文生成,其中我们通过合成主题在随机背景中的图像来整理输入-目标训练对。该模型将合成的主题图像作为输入,并旨在根据文本提示生成原始主题图像作为输出。具体来说,给定包含主题的图像,我们首先将图像和主题的类别文本馈送到文本提示分割模型 CLIPSeg[23]与置信度阈值化。然后,我们通过将置信度较高的分割图作为已知的的前景,将置信度较低的分割图作为不确定的区域,将剩余的分割图作为已知的背景来构建一个三值图。给定三值图,我们使用封闭形式的遮置24,25)来提取前景,即主体。然后,我们将提取的主体与随机背景图像通过alpha混合进行合成。最后,我们将合成图像作为输入,原始主体图像作为输出,作为一对训练图像。
如图3所示,这种合成对有效地分离了前景对象和背景上下文,防止与对象无关的信息被编码到对象提示中。通过这种方式,我们鼓励扩散模型同时考虑对象提示和文本提示进行生成,从而得到一个可以由对象图像和文本提示忠实地和灵活地控制的预训练模型。
在预训练期间,我们冻结图像编码器,并与文本编码器和潜在扩散模型的 U-Net一起训练 BLIP-2 多模态编码器。为了更好地保留原始的文本到图像生成能力,我们发现,在仅使用文本提示引导扩散时,以15%的概率随机丢弃主题提示是有益的。
在这里插入图片描述

3.3、Fine-tuning and Controllable Inference

预训练的主题表示可以实现零样本生成和针对特定自定义主题的高效微调。此外,我们的模型在继承底层扩散模型建模能力的同时,提供了高级别的视觉控制。这使我们可以利用现有的图像生成和编辑技术,以 BLIP-Diffusion 作为基础生成模型。下面,我们首先描述针对自定义主题生成的高效少量步骤的主题特定微调。然后,我们通过结合现有的技术,包括Control-Net和prompt-to-prompt图像编辑2,介绍了BLIP-Diffusion的扩展功能。
针对特定主题的微调和推理。预训练的通用主题表示使得针对高度个性化的主题进行高效微调成为可能。给定少量主题图像和主题类别文本,我们首先使用多模态编码器分别获取主题表示。
然后,我们使用所有主体图像的平均主体表示初始化主体提示嵌入。通过这种方式,我门在微调期间不需要多模态编码器的正向传递即可缓存主体提示嵌入。扩散模型通过考患文本提示嵌入和平均主体嵌入进行微调,以生成作为目标的主体图像。我们还冻结护散模型的文本编码器,我们发现这有助于防止对目标图像的过拟合。我们使用批处理大小为 3,学习率为 5e-5的 AdamW。[2]在所有受试者中,优化器通常会在 40-120 个训练步骤后观察到不错的结果,每个A100 GPU需要 20-40 秒才能完成。
结构控制生成与控制网络。我们的模型引入了主体控制的多模态条件机制。同时,该架构还兼容与控制网络集成以实现同时的结构控制和主体控制生成。图A说明了这种集成,我们将预训练控制网络的U-Net与BLIP-Diffusion的U-Net通过残差连接起来。这样,该模型除了考虑主体线索外,还考虑了输入的结构条件,例如边缘图和深度图。由于我们的模型继承了原始潜在扩散模型的结构,因此我们观察到使用预训练的Control-Net进行现成的集成,而无需进一步训练即可获得令人满意的世代。
主题驱动的编辑与注意力控制。我们的模型将主题提示嵌入与文本提示嵌入相结合,用于多模态受控生成。受提示的启发,我们的型通过操纵提示标记的交叉注意力图,实现了主题驱动的图像编辑。在图4中,我们展示了这种能力,该模型使用主题持定的视觉编辑原始图像。为此,我们假设原始图像的生成过程是已知的,或者可以通过真实图像的反转推导出来。为了编辑图像,我们首先指定要编辑的文本标记,例如标记“dog”。接下来,我们使用指定标记的交叉注意力图自动提取要编辑区域的掩码。为了保留未编辑区域的布局和语义,我们在生成新注意力图时保留原始生成的注意力图,并为插入的主题嵌入生成新的注意力图。在每个步骤中,我们根据提取的编辑掩码混合去噪潜变量。也就是说,未编辑区域的变量来自原始生成,而编辑区域的潜变量来自主题驱动生成。通过这种方式,我们获得带有特定主题视觉效果的编辑图像同时保留未编辑区域。
在这里插入图片描述

4、Experiments

4.1、Pre-training Datasets and Details

对于多模态表示学习,我们遵循BLIP-2并在 129M 图像-文本对上预训练模型,包括来自LAION 的 115M 图像-文本对使用 CapFilt说明,COCO,视觉基因组和概念描述。我们使用来自CLIP的ViT-L/14作为图像编码器,并用BERTbase34]初始化Q-Former。如前所述,我们使用16个查询来学习主题表示。其他训练超参数如下:penlmage-V6 的 292K 幅图像的子集[22],每个都包含一个突出的主题。我们还删除了与人相关的主题图像。我们使用 BLIP-2 OPT6.7B 生成字幕作为文本提示。我们从网上获得一组 59K 背景图像来合成主题输入。我们使用 StableDiffusion v1-5 作为基础扩散模型。我们使用总批次大小为16的 AdamW 【26 优化器,学习率为 2e-6,使用 500K步,需要6天在 16个A100 40Gb GPU 上完成。

4.2、Experimental Results

主要定性结果。在图5中,我们展示了 BLIP-Diffusion 的定性生成结果。由于预训练的物体表示,我们的模型促进了零样本物体驱动生成(第1行),即使对于高度定制的物体也能产生有意义的结果。该模型还实现了高效的微调(第3-6行),演示了重新上下文化、艺术风格化、文本修改、属性修改和装饰的高保真生成。与现有解决方案相比,BLIP-Diffusion 所需的微调努力要少得多,通常为 40-120步,比先前的工作高效 x20 倍。此外当与 ControlNet(第7-8行)相结合时,我们的型可以实现对结构和对象的同步控制。
最后,我们的模型可以将主题信息引入图像编辑管道,使编辑具有特定主题的图像成为可能,这些应用程序展示了使用 BLIP-Diffusion 作为具有多模态控制的基础文本到图像生成模型的潜力。
DreamBooth 数据集上的比较。我们在 DreamBooth 数据集上比较了 BLIP-Diffusion及其他方法,该数据集包含 30 个对象,每个对象有 4-7 张图像。在图 1中,我们展示了定性比较。我们的模型在对象保真度方面明显优于TextualInversion、Relmagen 和 InstructPix2Pix。与 DreamBooth 相比,我们的模型在需要显著减少微调迭代次数的同时,表现出相当或更好的生成质量,这验证了我们的预训练对象表示的有效性。
在表中,我们展示出DINO,CLIP-I和 CLIP-T得分。DINO 和 CLIP-I测量主题对齐,CLIP-T测量图像-文本对齐(请参阅附录中的详细描述)。我们为每个文本提示生成4张图像,总共为所有主题生成 3,000 张图像。我们使用 10 个固定的随机种子重复生成,并报告平均得分。总体结果与定性发现一致,其中 BLIP-Diffusion 优于TextualInversion和Re-lmagen,与 DreamBooth 表现相当,但需要较少的微调努力。特别是,我们的零样本生成比微调后的文本反转结果更好。此外,我们展示了每个对象的指标,并观察到微调显著改善了对象对齐。同时,微调也平均改善了图像-文本对齐。当微调损害图像-文本对齐时,这是由于模型对目标输入过度拟合,从而导致生成数代,而不管文本提示是什么。当提供主题图像的视觉多样性有限时,这是一个问题。
消融研究。我们使用 250K个主题表示学习步骤进行消融研究。表2显示了零样本评估结果。我们的发现是:(i)进行多模态表示学习(第3.1节)至关重要,它弥合了主题嵌入和文本提示嵌入之间的表示差距。(ii)冻结扩散模型的文本编码器会恶化主题嵌入和文本嵌入之间的交互,从而导致生成复制主题输入而不尊重文本提示。尽管它会导致更高的主题对齐得分,但它不允许文本控制,从而无法伪造文本到图像生成的任务。(iii)将主题文本传递给多模态编码器有助于注入特定于类别的视觉先验,从而在指标上取得中等程度的改进。(iv)使用随机主题嵌入丢弃进行预训练有助于更好地保留扩散模型生成能力,从而受益。我们进一步证明了主题表示学习的效果。图(右)显示,随着主题表示学习预训练步骤的增加,图像-文本对齐和主题对齐都得到改善。
在这里插入图片描述
主题表示可视化。观察发现,像素更受描述它们的嵌入的影响。根据这一观察在图7中,我们使用交叉注意力图可视化学习的主题嵌入。该图显示,学习到的嵌入编码了主题的精细但不同的方面。例如,某些嵌入(例如0、3、4、10-13)倾向于关注更局部的特征,而其他嵌入(例如1、14)则编码了更全面的视觉。这证明了使用多个主题嵌入的互补效果。
零样本主体驱动图像操作。我们的模型能够提取主体特征来指导生成。除了主体驱动生成和编辑的应用外,我们还表明,这种预训练的主体表示可以实现零样本图像操作的有趣和有用的应用,包括主体驱动的风格迁移和主体插值。
主题驱动的风格转换。当提供主题时,该模型可以编码它的外观风格并转换到其他主题。我们将这样的应用称为主题驱动的风格转换。在图8中,我们使用边缘引导控制网络生成风格化的参考主题。风格由引导主题暗示。具体来说,我们将 BLIP-2与引导主题及其类别文本(例如,火,花,玻璃,花瓶,球,面包)一起馈送,以提取主题表示。在此应用中,引导主题用作指定风格的文本提示的替代品。这尤其在某种风格难以用自然语言准确地描述时非常有用。主题插值。还可以混合两个主题表示来生成具有混合外观的主题。这可以通过在主题之间遍历嵌入轨迹来实现。在图中,我们在4个不同的主题表示之间创建双线性插值,并在新上下文中呈现插值后的主题。如图所示,主题外观沿着轨迹混合,并自然地与环境匹配。当使用多个主题时,这非常有用模型对目标输入过度拟合,从而导致生成数代,而不管文本提示是什么。当提供主题图像的视觉多样性有限时,这尤其是一个问题。
消融研究。我们使用 250K个主题表示学习步骤进行消融研究。表2显示了零样本评估结果。我们的发现是:(i)进行多模态表示学习(第3.1节)至关重要,它弥合了主题嵌入和文本提示嵌入之间的表示差距。(ii)冻结扩散模型的文本编码器会恶化主题嵌入和文本嵌入之间的交互,从而导致生成复制主题输入而不尊重文本提示。尽管它会导致更高的主题对齐得分,但它不允许文本控制,从而无法伪造文本到图像生成的任务。(iii)将主题文本传递给多模态编码器有助于注入特定于类别的视觉先验,从而在指标上取得中等程度的改进。(iv)使用随机主题嵌入丢弃进行预训练有助于更好地保留扩散模型生成能力,从而受益。我们进一步证明了主题表示学习的效果。图(右)显示,随着主题表示学习预训练步骤的增加,图像-文本对齐和主题对齐都得到改善。
在这里插入图片描述

主题表示可视化。观察发现,像素更受描述它们的嵌入的影响。根据这一观察在图7中,我们使用交叉注意力图可视化学习的主题嵌入。该图显示,学习到的嵌入编码了主题的精细但不同的方面。例如,某些嵌入倾向于关注更局部的特征,而其他嵌入则编码了更全面的视觉。这证明了使用多个主题嵌入的互补效果。
在这里插入图片描述

零样本主体驱动图像操作。我们的模型能够提取主体特征来指导生成。除了主体驱动生成和编辑的应用外,我们还表明,这种预训练的主体表示可以实现零样本图像操作的有趣和有用的应用,包括主体驱动的风格迁移和主体插值。
主题驱动的风格转换。当提供主题时,该模型可以编码它的外观风格并转换到其他主题。我们将这样的应用称为主题驱动的风格转换。在图8中,我们使用边缘引导控制网络生成风格化的参考主题。风格由引导主题暗示。具体来说,我们将 BLIP-2与引导主题及其类别文本(例如,火,花,玻璃,花瓶,球,面包)一起馈送,以提取主题表示。在此应用中,引导主题用作指定风格的文本提示的替代品。这尤其在某种风格难以用自然语言准确地描述时非常有用。主题插值。还可以混合两个主题表示来生成具有混合外观的主题。这可以通过在主题之间遍历嵌入轨迹来实现。在图中,我们在4个不同的主题表示之间创建双线性插值,并在新上下文中呈现插值后的主题。如图所示,主题外观沿着轨迹混合,并自然地与环境匹配。当使用多个主题时,这非常有用,作为引导生成的参考。例如,主体插值可以与主体驱动风格转移结合使用,以从多个引导主体创建混合风格。


5、Limitations and Failure Cases

我们的模型存在主题驱动生成模型的常见错误,例如不正确的上下文合成和对训练集过拟合,如所示。此外,它继承了基础扩散模型的某些弱点,可能无法理解文本提示和精细的构成关系。我们在图10中展示了其中一些失败的例子。尽管存在这些局限性,但所提出的技术是通用的,可以收获未来扩散模型的发展。
在这里插入图片描述


6、Conclusion

本文提出了一种新的文本到图像扩散模型BLIP-Diffusion,该模型具有内置的多模态控制能力,由BLIP-2提供动力[12].该模型使用两阶段策略进行预训练,逐步学习多模态主题表示,这有助于高保真零样本和高效的微调主题驱动生成。BLIP-Diffusion产生的零样本生成比TextualInversion等微调模型更好。它还实现了与最佳先前方法相当的生成质量,比最佳先前方法快20倍的微调速度。此外,它还可以与其他成熟的技术(如 ControlNet和 prompt-to-prompt)协同工作,进行图像生成和编辑,同时进行结构和主题控制。我们认为 BLIP-Diffusion 是构建具有多模态控制的基础文本到图像生成模型的重要一步。

个人理解

1、解决的问题:

传统的文本到图像生成模型通常在生成特定主题(如某个人物、物体或场景)时存在问题,尤其是当需要对同一个主题进行精确控制或编辑时。这类模型可能难以保持一致性,生成的图像往往与文本描述不完全匹配,(即想要生成的图片中的人都是同一个人)。

2、解决的方法:

通过引入Blip预训练模型来对加强对主题的控制表示,使得生成或编辑的图像更加精准和可控。BLIP(Bootstrapping Language-Image Pre-training)是一种在大量图像和文本对上预训练的模型。它能够很好地理解和关联文本与图像的语义关系。通过使用 BLIP 预训练模型能进一步增强对于具体主题的表示能力,使模型能够更好地理解和生成图像中关于特定主题的细节。

3、物体文本编码

  1. 对输入图像进行编码
  2. 可学习的Query与文本编码进行自注意力处理
  3. 图像编码与2中的注意力信息进行交叉注意力处理
  4. 得到富含图像主题信息的编码

在这里插入图片描述

4、Blip-Diffusion工作过程

  1. 经过文本提示(train)以及图像输入获得图像文本嵌入编码(富含train的信息)。
  2. 将提示词与图像文本嵌入进行编码控制U-Net生成
  3. 获得富含输入图像主题信息的图像

在这里插入图片描述

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐