学习为仅基于几个图像(称为少数图像生成的少数图像)生成新类别的新图像,引起了研究的兴趣。几项最先进的作品取得了令人印象深刻的结果,但多样性仍然有限。在这项工作中,我们提出了一个新型的三角洲生成对抗网络(Deltagan),该网络由重建子网和一代子网组成。重建子网捕获了类别内转换,即同一类别对之间的三角洲。该生成子网为输入图像生成了特定于样本的三角洲,该图像与此输入图像结合使用,以在同一类别中生成新图像。此外,对抗性的三角洲匹配损失旨在将上述两个子网链接在一起。六个基准数据集的广泛实验证明了我们提出的方法的有效性。我们的代码可从https://github.com/bcmi/deltagan-few-shot-image-generation获得。
translated by 谷歌翻译
学习为仅基于几个图像(称为少数图像生成的少数图像)生成新类别的新图像,引起了研究的兴趣。几项最先进的作品取得了令人印象深刻的结果,但多样性仍然有限。在这项工作中,我们提出了一个新型的三角洲生成对抗网络(Deltagan),该网络由重建子网和一代子网组成。重建子网捕获了类别内转换,即“ delta”,在相同类别对之间。生成子网为输入图像生成了特定于样本的“ delta”,该图像与此输入图像结合使用,以在同一类别中生成新图像。此外,对抗性的三角洲匹配损失旨在将上述两个子网链接在一起。在五个少量图像数据集上进行的广泛实验证明了我们提出的方法的有效性。
translated by 谷歌翻译
很少有图像生成和几张相关的图像翻译是两个相关的任务,这两个任务旨在为只有几张图像的看不见类别生成新图像。在这项工作中,我们首次尝试将几张图像翻译方法调整为几乎没有图像生成任务。几乎没有图像翻译将图像分解为样式向量和内容图。看不见的样式矢量可以与不同的见面内容映射结合使用,以产生不同的图像。但是,它需要存储可见的图像以提供内容图,并且看不见的样式向量可能与可见的内容映射不相容。为了使其适应少量图像生成任务,我们通过将连续内容映射量化为离散的内容映射而不是存储可见图像,从而学习了局部内容向量的紧凑词字典。此外,我们对根据样式向量进行的离散内容图的自回归分布进行建模,这可以减轻内容映射和样式向量之间的不兼容。三个真实数据集的定性和定量结果表明,与以前的方法相比,我们的模型可以为看不见的类别产生更高的多样性和忠诚度图像。
translated by 谷歌翻译
现有的少量图像生成方法通常在图像或特征级别采用基于融合的策略来生成新图像。但是,以前的方法很难通过细节良好的细节合成高频信号,从而恶化了合成质量。为了解决这个问题,我们提出了Wovegan,这是一种用于几弹图像生成的频率感知模型。具体而言,我们将编码的特征分解为多个频率组件,并执行低频跳过连接以保留轮廓和结构信息。然后,我们通过采用高频跳过连接来减轻发电机综合细节的斗争,从而为发电机提供信息频率信息。此外,我们在生成的图像和真实图像上利用频率L1损失来进一步阻碍频率信息丢失。广泛的实验证明了我们方法在三个数据集上的有效性和进步。值得注意的是,我们以FID 42.17,LPIPS 0.3868,FID 30.35,LPIPS 0.5076和FID 4.96,LPIPS分别为0.3822,在花,动物面和VGGFace上分别为0.3822。 github:https://github.com/kobeshegu/eccv2022_wavegan
translated by 谷歌翻译
Unsupervised image-to-image translation is an important and challenging problem in computer vision. Given an image in the source domain, the goal is to learn the conditional distribution of corresponding images in the target domain, without seeing any examples of corresponding image pairs. While this conditional distribution is inherently multimodal, existing approaches make an overly simplified assumption, modeling it as a deterministic one-to-one mapping. As a result, they fail to generate diverse outputs from a given source domain image. To address this limitation, we propose a Multimodal Unsupervised Image-to-image Translation (MUNIT) framework. We assume that the image representation can be decomposed into a content code that is domain-invariant, and a style code that captures domain-specific properties. To translate an image to another domain, we recombine its content code with a random style code sampled from the style space of the target domain. We analyze the proposed framework and establish several theoretical results. Extensive experiments with comparisons to state-of-the-art approaches further demonstrate the advantage of the proposed framework. Moreover, our framework allows users to control the style of translation outputs by providing an example style image. Code and pretrained models are available at https://github.com/nvlabs/MUNIT.
translated by 谷歌翻译
使用诸如GAN的生成模型产生多样化和现实图像通常需要大量的图像训练。具有极其限制的数据培训的GAN可以容易地覆盖很少的训练样本,并显示出“楼梯”潜在的空间,如潜在空间的过渡存在不连续性,偶尔会产生输出的突然变化。在这项工作中,我们认为我们的兴趣或可转让源数据集没有大规模数据集的情况,并寻求培训具有最小的过度和模式折叠的现有生成模型。我们在发电机和对应鉴别器的特征空间上提出基于潜在的混合距离正则化,这促使这两个玩家不仅仅是关于稀缺观察到的数据点,而且驻留的特征空间中的相对距离。不同数据集的定性和定量评估表明,我们的方法通常适用于现有模型,以在有限数据的约束下提高保真度和多样性。代码将公开。
translated by 谷歌翻译
图像构成目标在将前景对象插入到背景图像中。最先前的图像构成方法专注于调整前景,使其与背景兼容,同时忽略背景的前景的阴影效果。在这项工作中,我们专注于为复合图像中的前景对象产生合理的阴影。首先,我们通过基于配对的真实图像和deshadowed图像生成合成合成图像来贡献实际阴影生成数据集脱差。然后,我们提出了一种新的阴影生成网络SGRNet,其包括阴影掩模预测阶段和阴影填充阶段。在阴影掩模预测阶段,前景和背景信息彻底互动以产生前景影掩模。在阴影填充阶段,预计暗影参数填充阴影区域。我们的Desoba数据集和真实复合图像的广泛实验证明了我们所提出的方法的有效性。我们的数据集和代码可在https://github.com/bcmi/object-shadow-generation-dataset-desoba获得。
translated by 谷歌翻译
生成的对抗网络(GAN)已受过培训,成为能够创作出令人惊叹的艺术品(例如面部生成和图像样式转移)的专业艺术家。在本文中,我们专注于现实的业务方案:具有所需的移动应用程序和主题样式的可自定义图标的自动生成。我们首先引入一个主题应用图标数据集,称为Appicon,每个图标都有两个正交主题和应用标签。通过研究强大的基线样式,我们观察到由正交标签的纠缠引起的模式崩溃。为了解决这一挑战,我们提出了由有条件的发电机和双重歧视器组成的ICONGAN,具有正交扩大,并且进一步设计了对比的特征分离策略,以使两个歧视器的特征空间正常。与其他方法相比,ICONGAN在Appicon基准测试中表明了优势。进一步的分析还证明了解开应用程序和主题表示的有效性。我们的项目将在以下网址发布:https://github.com/architect-road/icongan。
translated by 谷歌翻译
尽管具有生成对抗网络(GAN)的图像到图像(I2I)翻译的显着进步,但使用单对生成器和歧视器将图像有效地转换为多个目标域中的一组不同图像仍然具有挑战性。现有的I2i翻译方法采用多个针对不同域的特定于域的内容编码,其中每个特定于域的内容编码器仅经过来自同一域的图像的训练。然而,我们认为应从所有域之间的图像中学到内容(域变相)特征。因此,现有方案的每个特定于域的内容编码器都无法有效提取域不变特征。为了解决这个问题,我们提出了一个灵活而通用的Sologan模型,用于在多个域之间具有未配对数据的多模式I2I翻译。与现有方法相反,Solgan算法使用具有附加辅助分类器的单个投影鉴别器,并为所有域共享编码器和生成器。因此,可以使用来自所有域的图像有效地训练Solgan,从而可以有效提取域 - 不变性内容表示。在多个数据集中,针对多个同行和sologan的变体的定性和定量结果证明了该方法的优点,尤其是对于挑战i2i翻译数据集的挑战,即涉及极端形状变化的数据集或在翻译后保持复杂的背景,需要保持复杂的背景。此外,我们通过消融研究证明了Sogan中每个成分的贡献。
translated by 谷歌翻译
在本文中,我们提出了一种有效且有效的单级框架(Divergan),根据自然语言描述产生多样化,可粘性和语义一致的图像。 Divergan采用两种新颖的单词级注意模块,即通道关注模块(CAM)和像素 - 注意模块(PAM),这在允许网络允许将较大的权重分配给定句子中的每个单词的重要性与突出字,语义对齐的重要通道和像素。之后,引入了条件自适应实例层归一化(CADailn)以使语言提示嵌入的句子中的语言线索灵活地操纵形状和纹理的变化量,进一步改善视觉语义表示和帮助稳定训练。此外,开发了双剩余结构以保持更多原始的视觉功能,同时允许更深的网络,从而产生更快的收敛速度和更生动的细节。此外,我们建议将完全连接的层插入管道以解决缺乏多样性问题,因为我们观察到致密层会显着提高网络的生成能力,平衡低于之间的权衡尺寸随机潜代码有助于使用高维和文本上下文来强度特征映射的变体和调制模块。在第二个残差块之后插入线性层,实现最佳品种和质量。基准数据集的定性和定量结果都展示了我们的潜水员实现多样性的优越性,而不会损害质量和语义一致性。
translated by 谷歌翻译
生成的对抗网络(GANS)最近引入了执行图像到图像翻译的有效方法。这些模型可以应用于图像到图像到图像转换中的各种域而不改变任何参数。在本文中,我们调查并分析了八个图像到图像生成的对策网络:PIX2PX,Cyclegan,Cogan,Stargan,Munit,Stargan2,Da-Gan,以及自我关注GaN。这些模型中的每一个都呈现了最先进的结果,并引入了构建图像到图像的新技术。除了对模型的调查外,我们还调查了他们接受培训的18个数据集,并在其上进行了评估的9个指标。最后,我们在常见的一组指标和数据集中呈现6种这些模型的受控实验的结果。结果混合并显示,在某些数据集,任务和指标上,某些型号优于其他型号。本文的最后一部分讨论了这些结果并建立了未来研究领域。由于研究人员继续创新新的图像到图像GAN,因此他们非常重要地了解现有方法,数据集和指标。本文提供了全面的概述和讨论,以帮助构建此基础。
translated by 谷歌翻译
对象放置旨在将前景对象放在具有合适位置和大小的背景图像上。在这项工作中,我们将对象放置视为图形完成问题,并提出一个新的图形完成模块(GCM)。背景场景由一个图形表示,在不同的空间位置具有多个节点,并带有各种接收场。前景对象被编码为应插入该图中合理位置的特殊节点。我们还在GCM的结构上设计了一个双路径框架,以完全利用带注释的复合图像。通过在OPA数据集上进行广泛的实验,我们的方法证明在生成合理的对象放置而不会丧失多样性方面显着胜过现有的方法。
translated by 谷歌翻译
Automatic font generation without human experts is a practical and significant problem, especially for some languages that consist of a large number of characters. Existing methods for font generation are often in supervised learning. They require a large number of paired data, which are labor-intensive and expensive to collect. In contrast, common unsupervised image-to-image translation methods are not applicable to font generation, as they often define style as the set of textures and colors. In this work, we propose a robust deformable generative network for unsupervised font generation (abbreviated as DGFont++). We introduce a feature deformation skip connection (FDSC) to learn local patterns and geometric transformations between fonts. The FDSC predicts pairs of displacement maps and employs the predicted maps to apply deformable convolution to the low-level content feature maps. The outputs of FDSC are fed into a mixer to generate final results. Moreover, we introduce contrastive self-supervised learning to learn a robust style representation for fonts by understanding the similarity and dissimilarities of fonts. To distinguish different styles, we train our model with a multi-task discriminator, which ensures that each style can be discriminated independently. In addition to adversarial loss, another two reconstruction losses are adopted to constrain the domain-invariant characteristics between generated images and content images. Taking advantage of FDSC and the adopted loss functions, our model is able to maintain spatial information and generates high-quality character images in an unsupervised manner. Experiments demonstrate that our model is able to generate character images of higher quality than state-of-the-art methods.
translated by 谷歌翻译
Generative Adversarial Networks (GANs) typically suffer from overfitting when limited training data is available. To facilitate GAN training, current methods propose to use data-specific augmentation techniques. Despite the effectiveness, it is difficult for these methods to scale to practical applications. In this work, we present ScoreMix, a novel and scalable data augmentation approach for various image synthesis tasks. We first produce augmented samples using the convex combinations of the real samples. Then, we optimize the augmented samples by minimizing the norms of the data scores, i.e., the gradients of the log-density functions. This procedure enforces the augmented samples close to the data manifold. To estimate the scores, we train a deep estimation network with multi-scale score matching. For different image synthesis tasks, we train the score estimation network using different data. We do not require the tuning of the hyperparameters or modifications to the network architecture. The ScoreMix method effectively increases the diversity of data and reduces the overfitting problem. Moreover, it can be easily incorporated into existing GAN models with minor modifications. Experimental results on numerous tasks demonstrate that GAN models equipped with the ScoreMix method achieve significant improvements.
translated by 谷歌翻译
有条件图像生成的最新方法受益于密集的监督,例如分割标签图,以实现高保真性。但是,很少探索使用密集的监督进行无条件的图像生成。在这里,我们探讨了密集监督在无条件生成中的功效,找到生成器特征图可以替代成本昂贵的语义标签图。从我们的经验证据来看,我们提出了一种新的生成器引导的鉴别剂正则化(GGDR),其中生成器的特征地图监督了歧视者在无条件生成中具有丰富的语义表示。具体而言,我们采用了一个U-NET架构进行鉴别器,该体系结构经过训练,可以预测发电机特征图作为输入的伪造图像。关于Mulitple数据集的广泛实验表明,我们的GGDR始终在定量和定性方面提高基线方法的性能。代码可从https://github.com/naver-ai/ggdr获得
translated by 谷歌翻译
In this work, we are dedicated to text-guided image generation and propose a novel framework, i.e., CLIP2GAN, by leveraging CLIP model and StyleGAN. The key idea of our CLIP2GAN is to bridge the output feature embedding space of CLIP and the input latent space of StyleGAN, which is realized by introducing a mapping network. In the training stage, we encode an image with CLIP and map the output feature to a latent code, which is further used to reconstruct the image. In this way, the mapping network is optimized in a self-supervised learning way. In the inference stage, since CLIP can embed both image and text into a shared feature embedding space, we replace CLIP image encoder in the training architecture with CLIP text encoder, while keeping the following mapping network as well as StyleGAN model. As a result, we can flexibly input a text description to generate an image. Moreover, by simply adding mapped text features of an attribute to a mapped CLIP image feature, we can effectively edit the attribute to the image. Extensive experiments demonstrate the superior performance of our proposed CLIP2GAN compared to previous methods.
translated by 谷歌翻译
我们建议使用单个图像进行面部表达到表达翻译的简单而强大的地标引导的生成对抗网络(Landmarkgan),这在计算机视觉中是一项重要且具有挑战性的任务,因为表达到表达的翻译是非 - 线性和非对准问题。此外,由于图像中的对象可以具有任意的姿势,大小,位置,背景和自我观念,因此需要在输入图像和输出图像之间有一个高级的语义理解。为了解决这个问题,我们建议明确利用面部地标信息。由于这是一个具有挑战性的问题,我们将其分为两个子任务,(i)类别引导的地标生成,以及(ii)具有里程碑意义的指导表达式对表达的翻译。两项子任务以端到端的方式进行了培训,旨在享受产生的地标和表情的相互改善的好处。与当前的按键指导的方法相比,提议的Landmarkgan只需要单个面部图像即可产生各种表达式。四个公共数据集的广泛实验结果表明,与仅使用单个图像的最先进方法相比,所提出的Landmarkgan获得了更好的结果。该代码可从https://github.com/ha0tang/landmarkgan获得。
translated by 谷歌翻译
最近已经示出了从2D图像中提取隐式3D表示的生成神经辐射场(GNERF)模型,以产生代表刚性物体的现实图像,例如人面或汽车。然而,他们通常难以产生代表非刚性物体的高质量图像,例如人体,这对许多计算机图形应用具有很大的兴趣。本文提出了一种用于人类图像综合的3D感知语义导向生成模型(3D-SAGGA),其集成了GNERF和纹理发生器。前者学习人体的隐式3D表示,并输出一组2D语义分段掩模。后者将这些语义面部掩模转化为真实的图像,为人类的外观添加了逼真的纹理。如果不需要额外的3D信息,我们的模型可以使用照片现实可控生成学习3D人类表示。我们在Deepfashion DataSet上的实验表明,3D-SAGGAN显着优于最近的基线。
translated by 谷歌翻译