生成的对抗网络(GAN)在图像翻译和操纵方面取得了巨大成功。但是,具有忠实风格控制的高保真形象生成仍然是计算机视觉中的巨大挑战。本文提出了一种多功能的图像翻译和操纵框架,该框架通过明确构建信件来实现图像生成中准确的语义和样式指导。为了处理通过构建密集的对应关系产生的二次复杂性,我们引入了双层功能对齐策略,该策略采用顶部$ k $操作来对块构成块的功能进行排名,然后在块功能之间进行密集的关注,从而降低了内存成本的降低。由于顶部$ k $操作涉及索引交换,从而排除了梯度传播,因此我们近似具有正则地球搬运工问题的非差异上的顶部$ K $操作,以便可以有效地向后传播其梯度。此外,我们设计了一个新颖的语义位置编码机制,该机制为每个单个语义区域建立坐标,以在建立对应关系时保持纹理结构。此外,我们设计了一种新颖的置信度注入模块,该模块通过根据内置对应关系的可靠性适应特征来减轻不匹配问题。广泛的实验表明,与最先进的方法相比,我们的方法在定性和定量上取得了出色的性能。
translated by 谷歌翻译
示例引导图像生成的一个关键挑战在于在输入图像和引导图像之间建立细粒度的对应关系。尽管结果有令人鼓舞,但先前的方法还是依赖于对计算每点匹配的密集关注的依赖。在本文中,我们提出了一个动态稀疏注意的变压器模型,称为动态稀疏变压器(Dynast),以实现具有优惠效率的优质匹配。我们方法的核心是一个新颖的动态注意事项单元,致力于涵盖最佳代币数量的差异。具体而言,Dynast利用变压器结构的多层性质,并以级联的方式执行动态注意力方案,以完善匹配结果并合成视觉上令人愉悦的输出。此外,我们还为Dynast引入了一个统一的培训目标,使其成为监督和无监督场景的广泛参考图像翻译框架。对三种应用,姿势引导的人形象产生,基于边缘的面部合成以及未变形的图像样式转移的广泛实验表明,朝代在本地细节中实现了卓越的性能,超过了最新的技术,同时降低了计算成本。我们的代码可从https://github.com/huage001/dynast获得
translated by 谷歌翻译
深层生成模型在逼真的图像合成中取得了显着的进展,并具有多种有条件的输入,而生成多样化但高保真的图像仍然是有条件图像生成的巨大挑战。本文介绍了有条件图像生成的多功能框架,其中包含了CNN的电感偏置和自动回归的强大序列建模,自然会导致图像生成多样化。我们没有像在先前的研究中独立量化多个域的特征,而是设计了一个具有变异正常化程序的集成量化方案,该方案将特征离散化在多个域中,并显着提高了自动回归建模性能。值得注意的是,变异正常器使通过惩罚分布的内域变化来使特征分布在无与伦比的潜在空间中进行正规化。此外,我们设计了一种牙龈样本策略,该策略允许将分配不确定性纳入自动回归训练程序中。牙胶采样大大减轻了暴露偏见,通常会在训练和推理阶段造成未对准并严重损害推理性能。对多条条件图像生成任务进行的广泛实验表明,与最先进的方法相比,我们的方法在定性和定量上实现了卓越的图像生成性能。
translated by 谷歌翻译
我们提出了一种基于示例的图像翻译的新方法,称为匹配交织的扩散模型(MIDMS)。该任务的大多数现有方法都是基于GAN的匹配,然后代表了代代框架。但是,在此框架中,跨跨域的语义匹配难度引起的匹配误差,例如草图和照片,可以很容易地传播到生成步骤,从而导致结果退化。由于扩散模型的最新成功激发了克服GAN的缺点,我们结合了扩散模型以克服这些局限性。具体而言,我们制定了一个基于扩散的匹配和生成框架,该框架通过将中间扭曲馈入尖锐的过程并将其变形以生成翻译的图像,从而交织了潜在空间中的跨域匹配和扩散步骤。此外,为了提高扩散过程的可靠性,我们使用周期一致性设计了一种置信度的过程,以在翻译过程中仅考虑自信区域。实验结果表明,我们的MIDM比最新方法产生的图像更合理。
translated by 谷歌翻译
随着信息中的各种方式存在于现实世界中的各种方式,多式联信息之间的有效互动和融合在计算机视觉和深度学习研究中的多模式数据的创造和感知中起着关键作用。通过卓越的功率,在多式联运信息中建模互动,多式联运图像合成和编辑近年来已成为一个热门研究主题。与传统的视觉指导不同,提供明确的线索,多式联路指南在图像合成和编辑方面提供直观和灵活的手段。另一方面,该领域也面临着具有固有的模态差距的特征的几个挑战,高分辨率图像的合成,忠实的评估度量等。在本调查中,我们全面地阐述了最近多式联运图像综合的进展根据数据模型和模型架构编辑和制定分类。我们从图像合成和编辑中的不同类型的引导方式开始介绍。然后,我们描述了多模式图像综合和编辑方法,其具有详细的框架,包括生成的对抗网络(GAN),GaN反转,变压器和其他方法,例如NERF和扩散模型。其次是在多模式图像合成和编辑中广泛采用的基准数据集和相应的评估度量的综合描述,以及分析各个优点和限制的不同合成方法的详细比较。最后,我们为目前的研究挑战和未来的研究方向提供了深入了解。与本调查相关的项目可在HTTPS://github.com/fnzhan/mise上获得
translated by 谷歌翻译
语义图像编辑利用本地语义标签图来生成所需的内容。最近的工作借用了Spade Block来实现语义图像编辑。但是,由于编辑区域和周围像素之间的样式差异,它无法产生令人愉悦的结果。我们将其归因于以下事实:Spade仅使用与图像无关的局部语义布局,但忽略了已知像素中包含的图像特定样式。为了解决此问题,我们提出了一个样式保存的调制(SPM),其中包括两个调制过程:第一个调制包含上下文样式和语义布局,然后生成两个融合的调制参数。第二次调制采用融合参数来调制特征图。通过使用这两种调制,SPM可以在保留特定图像的上下文样式的同时注入给定的语义布局。此外,我们设计了一种渐进式体系结构,以粗到精细的方式生成编辑的内容。提出的方法可以获得上下文一致的结果,并显着减轻生成区域和已知像素之间的不愉快边界。
translated by 谷歌翻译
Unpaired exemplar-based image-to-image (UEI2I) translation aims to translate a source image to a target image domain with the style of a target image exemplar, without ground-truth input-translation pairs. Existing UEI2I methods represent style using either a global, image-level feature vector, or one vector per object instance/class but requiring knowledge of the scene semantics. Here, by contrast, we propose to represent style as a dense feature map, allowing for a finer-grained transfer to the source image without requiring any external semantic information. We then rely on perceptual and adversarial losses to disentangle our dense style and content representations, and exploit unsupervised cross-domain semantic correspondences to warp the exemplar style to the source content. We demonstrate the effectiveness of our method on two datasets using standard metrics together with a new localized style metric measuring style similarity in a class-wise manner. Our results evidence that the translations produced by our approach are more diverse and closer to the exemplars than those of the state-of-the-art methods while nonetheless preserving the source content.
translated by 谷歌翻译
在本文中,我们专注于人物图像的生成,即在各种条件下产生人物图像,例如腐败的纹理或不同的姿势。在此任务中解决纹理遮挡和大构成错位,以前的作品只使用相应的区域的风格来推断遮挡区域并依靠点明智的对齐来重新组织上下文纹理信息,缺乏全局关联地区的能力代码并保留源的局部结构。为了解决这些问题,我们提出了一种Glocal框架,通过全球推理不同语义区域之间的样式相互关系来改善遮挡感知纹理估计,这也可以用于恢复纹理染色中的损坏图像。对于本地结构信息保存,我们进一步提取了源图像的本地结构,并通过本地结构传输在所生成的图像中重新获得。我们基准测试我们的方法,以充分表征其对Deepfashion DataSet的性能,并显示出突出我们方法的新颖性的广泛消融研究。
translated by 谷歌翻译
人物图像的旨在在源图像上执行非刚性变形,这通常需要未对准数据对进行培训。最近,自我监督的方法通过合并自我重建的解除印章表达来表达这项任务的巨大前景。然而,这些方法未能利用解除戒断功能之间的空间相关性。在本文中,我们提出了一种自我监督的相关挖掘网络(SCM-NET)来重新排列特征空间中的源图像,其中两种协作模块是集成的,分解的样式编码器(DSE)和相关挖掘模块(CMM)。具体地,DSE首先在特征级别创建未对齐的对。然后,CMM建立用于特征重新排列的空间相关领域。最终,翻译模块将重新排列的功能转换为逼真的结果。同时,为了提高跨尺度姿态变换的保真度,我们提出了一种基于曲线图的体结构保持损失(BSR损耗),以保持半体上的合理的身体结构到全身。与Deepfashion DataSet进行的广泛实验表明了与其他监督和无监督和无监督的方法相比的方法的优势。此外,对面部的令人满意的结果显示了我们在其他变形任务中的方法的多功能性。
translated by 谷歌翻译
我们呈现SeveryGan,一种能够从单个输入示例自动生成砖纹理映射的方法。与大多数现有方法相比,专注于解决合成问题,我们的工作同时解决问题,合成和涤纶性。我们的关键思想是认识到,通过越野落扩展技术训练的生成网络内的潜伏空间产生具有在接缝交叉点的连续性的输出,然后可以通过裁剪中心区域进入彩色图像。由于不是潜在空间的每个值都有有效的来产生高质量的输出,因此我们利用鉴别者作为能够在采样过程中识别无伪纹理的感知误差度量。此外,与之前的深度纹理合成的工作相比,我们的模型设计和优化,以便使用多层纹理表示,使由多个地图组成的纹理,例如Albedo,法线等。我们广泛地测试网络的设计选择架构,丢失功能和采样参数。我们在定性和定量上展示我们的方法优于以前的方法和适用于不同类型的纹理。
translated by 谷歌翻译
We propose semantic region-adaptive normalization (SEAN), a simple but effective building block for Generative Adversarial Networks conditioned on segmentation masks that describe the semantic regions in the desired output image. Using SEAN normalization, we can build a network architecture that can control the style of each semantic region individually, e.g., we can specify one style reference image per region. SEAN is better suited to encode, transfer, and synthesize style than the best previous method in terms of reconstruction quality, variability, and visual quality. We evaluate SEAN on multiple datasets and report better quan-titative metrics (e.g. FID, PSNR) than the current state of the art. SEAN also pushes the frontier of interactive image editing. We can interactively edit images by changing segmentation masks or the style for any given region. We can also interpolate styles from two reference images per region. Code: https://github.com/ZPdesu/SEAN .
translated by 谷歌翻译
近年来,由于其在图像生成过程中的可控性,有条件的图像合成引起了不断的关注。虽然最近的作品取得了现实的结果,但大多数都没有处理细微细节的细粒度风格。为了解决这个问题,提出了一种名为DRAN的新型归一化模块。它学会了细粒度的风格表示,同时保持普通风格的稳健性。具体来说,我们首先引入多级结构,空间感知金字塔汇集,以指导模型学习粗略的功能。然后,为了自适应地保险熔断不同的款式,我们提出动态门控,使得可以根据不同的空间区域选择不同的样式。为了评估DRAN的有效性和泛化能力,我们对化妆和语义图像合成进行了一组实验。定量和定性实验表明,配备了DRAN,基线模型能够实现复杂风格转移和纹理细节重建的显着改善。
translated by 谷歌翻译
我们提出了Exe-Gan,这是一种新型的使用生成对抗网络的典范引导的面部介绍框架。我们的方法不仅可以保留输入面部图像的质量,而且还可以使用类似示例性的面部属性来完成图像。我们通过同时利用输入图像的全局样式,从随机潜在代码生成的随机样式以及示例图像的示例样式来实现这一目标。我们介绍了一个新颖的属性相似性指标,以鼓励网络以一种自我监督的方式从示例中学习面部属性的风格。为了确保跨地区边界之间的自然过渡,我们引入了一种新型的空间变体梯度反向传播技术,以根据空间位置调整损耗梯度。关于公共Celeba-HQ和FFHQ数据集的广泛评估和实际应用,可以验证Exe-GAN的优越性,从面部镶嵌的视觉质量来看。
translated by 谷歌翻译
图像合成的现有方法利用基于堆叠的堆叠和池层的样式编码器,以从输入图像生成样式代码。然而,编码的矢量不一定包含相应图像的本地信息,因为通过这种缩小程序往往将小规模对象倾向于“撤离”。在本文中,我们提出了基于Superpixel的式编码器的深度图像合成,名为SuperstyLeNet。首先,我们基于SuperPixels直接从原始图像中提取样式代码,以考虑本地对象。其次,基于图形分析,我们在矢量化风格代码中恢复空间关系。因此,所提出的网络通过将样式代码映射到语义标签来实现高质量的图像合成。实验结果表明,该方法在视觉质量和定量测量方面优于最先进的方法。此外,我们通过调整样式代码来实现精心制作的空间方式编辑。
translated by 谷歌翻译
交换自动编码器在深层图像操纵和图像到图像翻译中实现了最先进的性能。我们通过基于梯度逆转层引入简单而有效的辅助模块来改善这项工作。辅助模块的损失迫使发电机学会使用全零纹理代码重建图像,从而鼓励结构和纹理信息之间更好地分解。提出的基于属性的转移方法可以在样式传输中进行精致的控制,同时在不使用语义掩码的情况下保留结构信息。为了操纵图像,我们将对象的几何形状和输入图像的一般样式编码为两个潜在代码,并具有实施结构一致性的附加约束。此外,由于辅助损失,训练时间大大减少。提出的模型的优越性在复杂的域中得到了证明,例如已知最先进的卫星图像。最后,我们表明我们的模型改善了广泛的数据集的质量指标,同时通过多模式图像生成技术实现了可比的结果。
translated by 谷歌翻译
近年来,双相面孔皮草草图合成的显着进展随着生成的对抗性网络(GAN)的发展。双相面孔光学素材合成可以应用于数字娱乐和执法等宽范围的领域。然而,由于实际场景中的草图和复杂的照片变化,产生现实照片和不同的草图遭受了极大的挑战。为此,我们提出了一种新颖的语义驱动生成的对抗网络来解决上述问题,与图形表示学习合作。具体而言,我们将Class-Wise语义布局注入发电机以提供基于样式的空间监督,用于合成面部照片和草图。此外,为了提高生成的结果的保真度,我们利用语义布局来构造两种类型的代表性图,该图表示综合图像的类内语义特征和级别的结构特征。此外,我们基于所提出的代表性图设计了两种类型的约束,其便于保存生成的面部照片和草图中的细节。此外,为了进一步增强合成图像的感知质量,我们提出了一种新的双相培训策略,致力于通过迭代周期培训来细化所产生的结果。在CUFS和CUFSF数据集上进行了广泛的实验,以证明我们提出的方法实现了最先进的性能的突出能力。
translated by 谷歌翻译
在本文中,我们介绍了纹理改革器,一个快速和通用的神经基础框架,用于使用用户指定的指导进行交互式纹理传输。挑战在三个方面:1)任务的多样性,2)引导图的简单性,以及3)执行效率。为了解决这些挑战,我们的主要思想是使用由i)全球视图结构对准阶段,ii)局部视图纹理细化阶段和III)的新的前馈多视图和多级合成程序。效果增强阶段用相干结构合成高质量结果,并以粗略的方式进行细纹细节。此外,我们还介绍了一种新颖的无学习视图特定的纹理改革(VSTR)操作,具有新的语义地图指导策略,以实现更准确的语义引导和结构保存的纹理传输。关于各种应用场景的实验结果展示了我们框架的有效性和优越性。并与最先进的交互式纹理转移算法相比,它不仅可以实现更高的质量结果,而且更加显着,也是更快的2-5个数量级。代码可在https://github.com/endywon/texture --reformer中找到。
translated by 谷歌翻译
可控的人图像合成任务可以通过对身体姿势和外观的明确控制来实现广泛的应用。在本文中,我们提出了一个基于跨注意的样式分布模块,该模块在源语义样式和目标姿势转移的目标姿势之间计算。该模块故意选择每个语义表示的样式,并根据目标姿势分配它们。交叉注意的注意力矩阵表达了目标姿势与所有语义的源样式之间的动态相似性。因此,可以利用它来从源图像路由颜色和纹理,并受到目标解析图的进一步限制,以实现更清晰的目标。同时,为了准确编码源外观,还添加了不同语义样式之间的自我注意力。我们的模型的有效性在姿势转移和虚拟的尝试任务上进行了定量和质量验证。
translated by 谷歌翻译
我们提出了第一个统一的框架Unicolor,以支持多种方式的着色,包括无条件和条件性的框架,例如中风,示例,文本,甚至是它们的混合。我们没有为每种类型的条件学习单独的模型,而是引入了一个两阶段的着色框架,以将各种条件纳入单个模型。在第一阶段,多模式条件将转换为提示点的共同表示。特别是,我们提出了一种基于剪辑的新方法,将文本转换为提示点。在第二阶段,我们提出了一个基于变压器的网络,该网络由Chroma-vqgan和Hybrid-Transformer组成,以生成以提示点为条件的多样化和高质量的着色结果。定性和定量比较都表明,我们的方法在每种控制方式中都优于最先进的方法,并进一步实现了以前不可行的多模式着色。此外,我们设计了一个交互式界面,显示了我们统一框架在实际用法中的有效性,包括自动着色,混合控制着色,局部再现和迭代色彩编辑。我们的代码和型号可在https://luckyhzt.github.io/unicolor上找到。
translated by 谷歌翻译
In this work, we propose TediGAN, a novel framework for multi-modal image generation and manipulation with textual descriptions. The proposed method consists of three components: StyleGAN inversion module, visual-linguistic similarity learning, and instance-level optimization. The inversion module maps real images to the latent space of a well-trained StyleGAN. The visual-linguistic similarity learns the text-image matching by mapping the image and text into a common embedding space. The instancelevel optimization is for identity preservation in manipulation. Our model can produce diverse and high-quality images with an unprecedented resolution at 1024 2 . Using a control mechanism based on style-mixing, our Tedi-GAN inherently supports image synthesis with multi-modal inputs, such as sketches or semantic labels, with or without instance guidance. To facilitate text-guided multimodal synthesis, we propose the Multi-Modal CelebA-HQ, a large-scale dataset consisting of real face images and corresponding semantic segmentation map, sketch, and textual descriptions. Extensive experiments on the introduced dataset demonstrate the superior performance of our proposed method. Code and data are available at https://github.com/weihaox/TediGAN.
translated by 谷歌翻译