Automatic synthesis of realistic images from text would be interesting and useful, but current AI systems are still far from this goal. However, in recent years generic and powerful recurrent neural network architectures have been developed to learn discriminative text feature representations. Meanwhile, deep convolutional generative adversarial networks (GANs) have begun to generate highly compelling images of specific categories, such as faces, album covers, and room interiors. In this work, we develop a novel deep architecture and GAN formulation to effectively bridge these advances in text and image modeling, translating visual concepts from characters to pixels. We demonstrate the capability of our model to generate plausible images of birds and flowers from detailed text descriptions.
translated by 谷歌翻译
Synthesizing high-quality images from text descriptions is a challenging problem in computer vision and has many practical applications. Samples generated by existing textto-image approaches can roughly reflect the meaning of the given descriptions, but they fail to contain necessary details and vivid object parts. In this paper, we propose Stacked Generative Adversarial Networks (StackGAN) to generate 256×256 photo-realistic images conditioned on text descriptions. We decompose the hard problem into more manageable sub-problems through a sketch-refinement process. The Stage-I GAN sketches the primitive shape and colors of the object based on the given text description, yielding Stage-I low-resolution images. The Stage-II GAN takes Stage-I results and text descriptions as inputs, and generates high-resolution images with photo-realistic details. It is able to rectify defects in Stage-I results and add compelling details with the refinement process. To improve the diversity of the synthesized images and stabilize the training of the conditional-GAN, we introduce a novel Conditioning Augmentation technique that encourages smoothness in the latent conditioning manifold. Extensive experiments and comparisons with state-of-the-arts on benchmark datasets demonstrate that the proposed method achieves significant improvements on generating photo-realistic images conditioned on text descriptions.
translated by 谷歌翻译
In this paper, we propose an Attentional Generative Adversarial Network (AttnGAN) that allows attention-driven, multi-stage refinement for fine-grained text-to-image generation. With a novel attentional generative network, the At-tnGAN can synthesize fine-grained details at different subregions of the image by paying attentions to the relevant words in the natural language description. In addition, a deep attentional multimodal similarity model is proposed to compute a fine-grained image-text matching loss for training the generator. The proposed AttnGAN significantly outperforms the previous state of the art, boosting the best reported inception score by 14.14% on the CUB dataset and 170.25% on the more challenging COCO dataset. A detailed analysis is also performed by visualizing the attention layers of the AttnGAN. It for the first time shows that the layered attentional GAN is able to automatically select the condition at the word level for generating different parts of the image.
translated by 谷歌翻译
从文本描述中综合现实图像是计算机视觉中的主要挑战。当前对图像合成方法的文本缺乏产生代表文本描述符的高分辨率图像。大多数现有的研究都依赖于生成的对抗网络(GAN)或变异自动编码器(VAE)。甘斯具有产生更清晰的图像的能力,但缺乏输出的多样性,而VAE擅长生产各种输出,但是产生的图像通常是模糊的。考虑到gan和vaes的相对优势,我们提出了一个新的有条件VAE(CVAE)和条件gan(CGAN)网络架构,用于合成以文本描述为条件的图像。这项研究使用条件VAE作为初始发电机来生成文本描述符的高级草图。这款来自第一阶段的高级草图输出和文本描述符被用作条件GAN网络的输入。第二阶段GAN产生256x256高分辨率图像。所提出的体系结构受益于条件加强和有条件的GAN网络的残留块,以实现结果。使用CUB和Oxford-102数据集进行了多个实验,并将所提出方法的结果与Stackgan等最新技术进行了比较。实验表明,所提出的方法生成了以文本描述为条件的高分辨率图像,并使用两个数据集基于Inception和Frechet Inception评分产生竞争结果
translated by 谷歌翻译
文本到图像综合的目标是生成与给定文本描述匹配的视觉现实图像。在实践中,人类注释的标题在同一图像中具有很大的内容方差和单词的选择。相同图像的标题之间的语言差异导致偏离地面真理的合成图像。为了解决这个问题,我们提出了一种对比的学习方法来提高质量,增强合成图像的语义一致性。在预先预测阶段,我们利用对比的学习方法来学习对应于相同图像的标题的一致文本表示。此外,在GaN训练的以下阶段,我们采用对比学习方法来增强来自与相同图像相关的标题的所生成的图像之间的一致性。我们分别评估了我们在数据集幼崽和Coco上的两个流行文本到图像综合模型,ATTNGAN和DM-GAN的方法。实验结果表明,我们的方法可以有效地提高三个度量的合成图像的质量:是,FID和R精度。特别是,在挑战的Coco DataSet上,我们的方法将FID显着地通过29.60%的Attngan来增强29.60%,并在DM-GaN中达到21.96%。
translated by 谷歌翻译
文本对图像综合旨在从特定文本描述中生成光真逼真和语义一致的图像。与相应的图像和文本描述相比,由现成模型合成的图像通常包含有限的组件,从而降低了图像质量和文本 - 视觉一致性。为了解决这个问题,我们提出了一种新颖的视觉语言匹配策略,用于文本对图像综合,名为Vlmgan*,该策略介绍了一种双重视觉语言匹配机制,以增强图像质量和语义一致性。双视性匹配机制考虑了生成的图像与相应的文本描述之间的文本 - 视觉匹配,以及综合图像和真实图像之间的视觉视觉视觉一致约束。给定特定的文本描述,vlmgan*首先将其编码为文本特征,然后将它们馈送到基于双视觉匹配的生成模型中,以合成光合逼真的和文本的语义一致图像。此外,文本对图像合成的流行评估指标是从简单图像生成中借用的,该图像生成主要评估合成图像的现实和多样性。因此,我们引入了一个名为Vision语言匹配分数(VLMS)的度量标准,以评估文本对图像合成的性能,该分数可以考虑综合图像和描述之间的图像质量和语义一致性。所提出的双重多层视觉匹配策略可以应用于其他文本对图像合成方法。我们在两个受欢迎的基线上实现了此策略,这些基线用$ {\ text {vlmgan} _ {+\ text {attngan}}} $和$ {\ text {vlmgan} _ {+\ text {+\ text {+\ {+\ text {+\ text {dfgan}}} $ 。两个广泛使用的数据集的实验结果表明,该模型比其他最先进的方法实现了重大改进。
translated by 谷歌翻译
在本文中,我们提出了一种有效且有效的单级框架(Divergan),根据自然语言描述产生多样化,可粘性和语义一致的图像。 Divergan采用两种新颖的单词级注意模块,即通道关注模块(CAM)和像素 - 注意模块(PAM),这在允许网络允许将较大的权重分配给定句子中的每个单词的重要性与突出字,语义对齐的重要通道和像素。之后,引入了条件自适应实例层归一化(CADailn)以使语言提示嵌入的句子中的语言线索灵活地操纵形状和纹理的变化量,进一步改善视觉语义表示和帮助稳定训练。此外,开发了双剩余结构以保持更多原始的视觉功能,同时允许更深的网络,从而产生更快的收敛速度和更生动的细节。此外,我们建议将完全连接的层插入管道以解决缺乏多样性问题,因为我们观察到致密层会显着提高网络的生成能力,平衡低于之间的权衡尺寸随机潜代码有助于使用高维和文本上下文来强度特征映射的变体和调制模块。在第二个残差块之后插入线性层,实现最佳品种和质量。基准数据集的定性和定量结果都展示了我们的潜水员实现多样性的优越性,而不会损害质量和语义一致性。
translated by 谷歌翻译
利用深度学习的最新进展,文本到图像生成模型目前具有吸引公众关注的优点。其中两个模型Dall-E 2和Imagen已经证明,可以从图像的简单文本描述中生成高度逼真的图像。基于一种称为扩散模型的新型图像生成方法,文本对图像模型可以生产许多不同类型的高分辨率图像,其中人类想象力是唯一的极限。但是,这些模型需要大量的计算资源来训练,并处理从互联网收集的大量数据集。此外,代码库和模型均未发布。因此,它可以防止AI社区尝试这些尖端模型,从而使其结果复制变得复杂,即使不是不可能。在本文中,我们的目标是首先回顾这些模型使用的不同方法和技术,然后提出我们自己的文本模型模型实施。高度基于DALL-E 2,我们引入了一些轻微的修改,以应对所引起的高计算成本。因此,我们有机会进行实验,以了解这些模型的能力,尤其是在低资源制度中。特别是,我们提供了比Dall-e 2的作者(包括消融研究)更深入的分析。此外,扩散模型使用所谓的指导方法来帮助生成过程。我们引入了一种新的指导方法,该方法可以与其他指导方法一起使用,以提高图像质量。最后,我们的模型产生的图像质量相当好,而不必维持最先进的文本对图像模型的重大培训成本。
translated by 谷歌翻译
全面了解视力和语言及其相互关系至关重要,以实现这些方式与学习更广泛,有意义的陈述之间的潜在的相似之处和差异。近年来,大多数与文本到图像综合和图像到文本生成有关的作品,专注于监督生成的深层架构来解决问题,在那里在学习嵌入空间之间的相似之处非常令人兴趣方式。在本文中,我们提出了一种新颖的自我监督基于深入的学习方法,了解了学习跨模式嵌入空间的基础方法;对于图片到文本和文本到映像生成。在我们的方法中,我们首先使用基于Stackgan的AutoEncoder模型获取图像的密集矢量表示,以及利用基于LSTM的文本 - autoEncoder的句子级的密集矢量表示;然后,我们研究映射到嵌入一个模态的空间,以利用GaN和最大平均差异的生成网络嵌入其他模态的空间。我们还证明我们的模型学会从图像数据以及来自定性和定量的文本数据的图像生成文本描述。
translated by 谷歌翻译
Suffering from the extreme training data imbalance between seen and unseen classes, most of existing state-of-theart approaches fail to achieve satisfactory results for the challenging generalized zero-shot learning task. To circumvent the need for labeled examples of unseen classes, we propose a novel generative adversarial network (GAN) that synthesizes CNN features conditioned on class-level semantic information, offering a shortcut directly from a semantic descriptor of a class to a class-conditional feature distribution. Our proposed approach, pairing a Wasserstein GAN with a classification loss, is able to generate sufficiently discriminative CNN features to train softmax classifiers or any multimodal embedding method. Our experimental resultsdemonstrate a significant boost in accuracy over the state of the art on five challenging datasets -CUB, FLO, SUN, AWA and ImageNet -in both the zero-shot learning and generalized zero-shot learning settings.
translated by 谷歌翻译
作为一项具有挑战性的任务,文本到图像生成旨在根据给定的文本说明生成照片真实和语义一致的图像。现有方法主要从一个句子中提取文本信息,以表示图像,文本表示良好地影响生成图像的质量。但是,直接利用一个句子中的有限信息错过了一些关键属性描述,这是准确描述图像的关键因素。为了减轻上述问题,我们提出了一种有效的文本表示方法,并具有属性信息的补充。首先,我们构建一个属性内存,以用句子输入共同控制文本对图像生成。其次,我们探讨了两种更新机制,即样品感知和样本 - 关节机制,以动态优化广义属性存储器。此外,我们设计了一个属性句子结合条件生成器学习方案,以使多个表示的特征嵌入对齐,从而促进跨模式网络训练。实验结果表明,该提出的方法对CUB(FID从14.81到8.57)和可可(FID从21.42到12.39)的数据集获得了实质性改进。
translated by 谷歌翻译
我们为文本对图像生成引入了一种内存驱动的半参数方法,该方法基于参数和非参数技术。非参数组件是由训练集构建的图像特征的记忆库。参数组件是生成对抗网络。给定在推理时间进行新的文本描述,内存库用于选择性检索作为目标图像的基本信息提供的图像功能,从而使生成器能够产生逼真的合成结果。我们还将内容信息与语义功能一起纳入歧视器中,从而使歧视者可以做出更可靠的预测。实验结果表明,所提出的记忆驱动的半参数方法比视觉忠诚度和文本图像语义一致性都比纯粹的参数方法产生更现实的图像。
translated by 谷歌翻译
在本文中,我们对单一和多对象文本到图像合成的最先进方法进行了研究,并提出了用于评估这些方法的共同框架。我们首先识别当前评估文本到图像模型的几个常见问题,即:(i)用于图像质量评估的常用度量,例如,Inception得分(是),通常是对单个对象的错误匹配案例或滥用多目标案例; (ii)在现有的R精度(RP)和SOA度量中出现过烧点现象,用于分别评估文本相关性和对象精度方面; (iii)在多目标案例评估中的许多重要因素主要被解雇,例如对象保真度,位置对准,计数对准; (iv)基于当前度量的方法的排名与真实图像高度不一致。然后,为了克服这些限制,我们提出了一个组合的现有和新度量标准,以系统地评估方法。对于现有的指标,我们通过使用温度缩放来校准所使用的分类器的置信度的改进版本的名称为*;我们还提出了一种解决方案来减轻RP和SOA的过度问题。关于在多目标情况下缺乏重要评估因素的一套新度量,我们开发CA用于计数对齐,PA用于定位对齐,以对象为中心,是(O-IS),以对象为中心的FID(O- FID)对于对象保真度。因此,我们的基准导致现有方法中高度一致的排名,与人类评估良好。我们还通过众所周知的Attngan简单修改,为基准创建一个强大的基线模型(Attngan ++)。我们将发布此工具箱进行统一评估,所谓的明智,以标准化文本到图像综合模型的评估。
translated by 谷歌翻译
我们开发了一种文本到图像生成的方法,该方法由隐性视觉引导丢失和生成目标的组合驱动,该方法包含其他检索图像。与仅将文本作为输入的大多数现有文本到图像生成方法不同,我们的方法将跨模式搜索结果动态馈送到统一的训练阶段,从而提高了生成结果的质量,可控性和多样性。我们提出了一种新颖的超网调制的视觉文本编码方案,以预测编码层的重量更新,从而使视觉信息(例如布局,内容)有效地传输到相应的潜在域。实验结果表明,我们的模型以其他检索视觉数据的指导优于现有基于GAN的模型。在可可数据集上,与最先进的方法相比,我们实现了更好的$ 9.13 $,最高$ 3.5 \ times $ $。
translated by 谷歌翻译
我们介绍了自回归文本到图像(Parti)模型的途径,该模型生成高保真的影像图像并支持涉及复杂组成和世界知识的内容丰富的合成。 Parti将文本对图像生成视为类似于机器翻译的序列到序列建模问题,图像令牌的序列是目标输出,而不是其他语言的文本令牌。这种策略自然可以利用大型语言模型的先前工作,通过扩展数据和模型尺寸,能力和性能的持续进展。我们的方法很简单:首先,Parti使用基于变压器的图像令牌VIT-VQGAN将图像编码为离散令牌的序列。其次,我们通过将编码器二次变压器模型缩放到20B参数来实现一致的质量改进,其新的最新零弹药FID得分为7.23,而MS-Coco的FIDED得分为3.22。我们对本地化叙述以及党的详细分析(P2),这是1600多个英语提示的新的整体基准,证明了Parti在各种类别和难度方面的有效性。我们还探索并突出了我们的模型的局限性,以定义和体现关注重点领域以进一步改进。有关高分辨率图像,请参见https://parti.research.google/。
translated by 谷歌翻译
使用生成对抗网络(GAN)生成的面孔已经达到了前所未有的现实主义。这些面孔,也称为“深色伪造”,看起来像是逼真的照片,几乎没有像素级扭曲。尽管某些工作使能够培训模型,从而导致该主题的特定属性,但尚未完全探索基于自然语言描述的面部图像。对于安全和刑事识别,提供基于GAN的系统的能力像素描艺术家一样有用。在本文中,我们提出了一种新颖的方法,可以从语义文本描述中生成面部图像。学习的模型具有文本描述和面部类型的轮廓,该模型用于绘制功能。我们的模型是使用仿射组合模块(ACM)机制训练的,以使用自发动矩阵结合伯特和甘恩潜在空间的文本。这避免了由于“注意力”不足而导致的功能丧失,如果简单地将文本嵌入和潜在矢量串联,这可能会发生。我们的方法能够生成非常准确地与面部面部的详尽文本描述相符的图像,并具有许多细节的脸部特征,并有助于生成更好的图像。如果提供了其他文本描述或句子,则提出的方法还能够对先前生成的图像进行增量更改。
translated by 谷歌翻译
随着信息中的各种方式存在于现实世界中的各种方式,多式联信息之间的有效互动和融合在计算机视觉和深度学习研究中的多模式数据的创造和感知中起着关键作用。通过卓越的功率,在多式联运信息中建模互动,多式联运图像合成和编辑近年来已成为一个热门研究主题。与传统的视觉指导不同,提供明确的线索,多式联路指南在图像合成和编辑方面提供直观和灵活的手段。另一方面,该领域也面临着具有固有的模态差距的特征的几个挑战,高分辨率图像的合成,忠实的评估度量等。在本调查中,我们全面地阐述了最近多式联运图像综合的进展根据数据模型和模型架构编辑和制定分类。我们从图像合成和编辑中的不同类型的引导方式开始介绍。然后,我们描述了多模式图像综合和编辑方法,其具有详细的框架,包括生成的对抗网络(GAN),GaN反转,变压器和其他方法,例如NERF和扩散模型。其次是在多模式图像合成和编辑中广泛采用的基准数据集和相应的评估度量的综合描述,以及分析各个优点和限制的不同合成方法的详细比较。最后,我们为目前的研究挑战和未来的研究方向提供了深入了解。与本调查相关的项目可在HTTPS://github.com/fnzhan/mise上获得
translated by 谷歌翻译
培训文本到图像生成模型中的主要挑战之一是需要大量的高质量图像文本对。虽然图像样本通常很容易接近,但相关的文本描述通常需要仔细的人类标题,这是特别的 - 耗时和成本耗费。在本文中,我们提出了第一项工作来培训没有任何文本数据的文本到图像生成模型。我们的方法利用了强大的预训练剪辑模型的良好对齐的多模态语义空间:通过从图像特征生成文本特征,无缝地减轻了文本调节的要求。进行广泛的实验以说明所提出的方法的有效性。我们在标准的文本到图像生成任务中获得最先进的结果。重要的是,拟议的无语模型优于具有完整图像文本对训练的大多数现有型号。此外,我们的方法可以应用于微调预先训练的模型,它可以节省培训文本到图像生成模型的培训时间和成本。我们预先接受的模型在MS-Coco DataSet上获得竞争激烈的结果,在零拍摄的图像集中在MS-Coco DataSet上产生竞争结果,但距离最近提出的大型Dall-E型号的模型大小和培训数据大小约为1%。
translated by 谷歌翻译
文本到图像合成的最新进展导致了较大的经过验证的变压器,具有出色的能力,可以从给定文本产生可视化。但是,这些模型不适合专门的任务,例如故事可视化,该任务要求代理商制作一系列图像,给定相应的字幕序列,形成叙述。此外,我们发现故事可视化任务无法适应新叙事中看不见的情节和角色的概括。因此,我们首先提出了故事延续的任务,其中生成的视觉故事是在源图像上进行的,从而可以更好地对具有新角色的叙述进行更好的概括。然后,我们使用特定于(a)顺序图像生成的任务特定模块和(b)从初始帧复制相关元素的任务特定模块来增强或“复古”文本对图像合成模型。然后,我们探讨了预训练模型的全模型芬太尼以及对参数适应的及时调整。我们在两个现有数据集(PororoSV和FlintStonessV)上评估了我们的方法storydall-e,并介绍了从视频吸引数据集收集的新数据集DIDEMOSV。我们还基于生成的对抗网络(GAN)开发了一个模型故事游戏,以进行故事的延续,并将其与StoryDall-E模型进行比较,以展示我们方法的优势。我们表明,我们的复古拟合方法优于基于GAN的模型,用于故事延续,并促进从源图像中复制视觉元素,从而改善了生成的视觉故事中的连续性。最后,我们的分析表明,经过审计的变压器努力理解包含几个角色的叙述。总体而言,我们的工作表明,可以验证的文本对图像合成模型可以适应复杂和低资源的任务,例如故事延续。
translated by 谷歌翻译
用于图像文本生成任务的传统方法主要是分别解决自然双向生成任务,专注于设计任务特定的框架以提高所生成的样本的质量和保真度。最近,Vision-Language预训练模型大大提高了图像到文本生成任务的性能,但仍未开发出用于文本到图像综合任务的大规模预训练模型。在本文中,我们提出了一个具有变压器模型的双向图像文本生成的统一生成的预训练框架的Ernie-Vi​​lg。基于图像量化模型,我们将图像生成和文本生成标准为在文本/图像输入上调节的自回归生成任务。双向图像文本生成建模简化了视觉和语言的语义对齐。对于文本到图像生成过程,我们进一步提出了端到端的训练方法,共同学习视觉序列发生器和图像重建。为了探讨双向文本图像生成的大规模预培训景观,我们在大规模数据集中培训了100亿参数的Ernie-Vi​​lg模型,以145百万(中文)图像 - 文本对实现了达到的状态 - 文本到图像和图像到文本任务的最佳性能,以便在MS-Coco上获取7.9的FID,用于文本到图像合成以及用于图像标题的Coco-CN和AIC-ICC的最佳结果。
translated by 谷歌翻译