While 3D GANs have recently demonstrated the high-quality synthesis of multi-view consistent images and 3D shapes, they are mainly restricted to photo-realistic human portraits. This paper aims to extend 3D GANs to a different, but meaningful visual form: artistic portrait drawings. However, extending existing 3D GANs to drawings is challenging due to the inevitable geometric ambiguity present in drawings. To tackle this, we present Dr.3D, a novel adaptation approach that adapts an existing 3D GAN to artistic drawings. Dr.3D is equipped with three novel components to handle the geometric ambiguity: a deformation-aware 3D synthesis network, an alternating adaptation of pose estimation and image synthesis, and geometric priors. Experiments show that our approach can successfully adapt 3D GANs to drawings and enable multi-view consistent semantic editing of drawings.
translated by 谷歌翻译
The time-series forecasting (TSF) problem is a traditional problem in the field of artificial intelligence. Models such as Recurrent Neural Network (RNN), Long Short Term Memory (LSTM), and GRU (Gate Recurrent Units) have contributed to improving the predictive accuracy of TSF. Furthermore, model structures have been proposed to combine time-series decomposition methods, such as seasonal-trend decomposition using Loess (STL) to ensure improved predictive accuracy. However, because this approach is learned in an independent model for each component, it cannot learn the relationships between time-series components. In this study, we propose a new neural architecture called a correlation recurrent unit (CRU) that can perform time series decomposition within a neural cell and learn correlations (autocorrelation and correlation) between each decomposition component. The proposed neural architecture was evaluated through comparative experiments with previous studies using five univariate time-series datasets and four multivariate time-series data. The results showed that long- and short-term predictive performance was improved by more than 10%. The experimental results show that the proposed CRU is an excellent method for TSF problems compared to other neural architectures.
translated by 谷歌翻译
由于发型的复杂性和美味,编辑发型是独一无二的,而且具有挑战性。尽管最近的方法显着改善了头发的细节,但是当源图像的姿势与目标头发图像的姿势大不相同时,这些模型通常会产生不良的输出,从而限制了其真实世界的应用。发型是一种姿势不变的发型转移模型,可以减轻这种限制,但在保留精致的头发质地方面仍然表现出不令人满意的质量。为了解决这些局限性,我们提出了配备潜在优化和新呈现的局部匹配损失的高性能姿势不变的发型转移模型。在stylegan2潜在空间中,我们首先探索目标头发的姿势对准的潜在代码,并根据本地风格匹配保留了详细纹理。然后,我们的模型对源的遮挡构成了对齐的目标头发的遮挡,并将两个图像混合在一起以产生最终输出。实验结果表明,我们的模型在在较大的姿势差异和保留局部发型纹理下转移发型方面具有优势。
translated by 谷歌翻译
对于现实和生动的着色,最近已经利用了生成先验。但是,由于其表示空间有限,因此这种生成先验的野外复杂图像通常会失败。在本文中,我们提出了BigColor,这是一种新型的着色方法,可为具有复杂结构的不同野外图像提供生动的着色。虽然先前的生成先验训练以综合图像结构和颜色,但我们在关注颜色合成之前就学会了一种生成颜色,鉴于图像的空间结构。通过这种方式,我们减轻了从生成先验中合成图像结构的负担,并扩大其表示空间以覆盖各种图像。为此,我们提出了一个以Biggan启发的编码生成网络,该网络使用空间特征映射而不是空间框架的Biggan潜在代码,从而产生了扩大的表示空间。我们的方法可以在单个正向传球中为各种输入提供强大的着色,支持任意输入分辨率,并提供多模式着色结果。我们证明,BigColor明显优于现有方法,尤其是在具有复杂结构的野外图像上。
translated by 谷歌翻译
联合学习(FL)是一种新颖的学习范式,可解决集中学习的隐私泄漏挑战。但是,在FL中,具有非独立和相同分布(非IID)特征的用户可能会恶化全局模型的性能。具体而言,由于非IID数据,全局模型受到权重差异的挑战。为了应对上述挑战,我们提出了机器学习(ML)模型(FIDDIF)的新型扩散策略,以通过非IID数据最大化FL性能。在FedDif中,用户通过D2D通信将本地模型传播给相邻用户。 FedDif使本地模型能够在参数聚合之前体验不同的分布。此外,从理论上讲,我们证明了FedDif可以规避体重差异挑战。在理论的基础上,我们提出了ML模型的沟通效率扩散策略,该策略可以决定基于拍卖理论的学习绩效和沟通成本之间的权衡。绩效评估结果表明,与非IID设置相比,FedDIF将全球模型的测试准确性提高了11%。此外,与最新方法相比
translated by 谷歌翻译
发型转移是将源发型修改为目标的任务。尽管最近的发型转移模型可以反映发型的精致特征,但它们仍然有两个主要局限性。首先,当源和目标图像具有不同的姿势(例如,查看方向或面部尺寸)时,现有方法无法转移发型,这在现实世界中很普遍。同样,当源图像中有非平凡的区域被其原始头发遮住时,先前的模型会产生不切实际的图像。当将长发修改为短发时,肩膀或背景被长发遮住了。为了解决这些问题,我们为姿势不变的发型转移,发型提出了一个新颖的框架。我们的模型包括两个阶段:1)基于流动的头发对齐和2)头发合成。在头发对齐阶段,我们利用基于关键点的光流估计器将目标发型与源姿势对齐。然后,我们基于语义区域感知的嵌入面膜(SIM)估计器在头发合成阶段生成最终的发型转移图像。我们的SIM估计器将源图像中的封闭区域划分为不同的语义区域,以反映其在涂料过程中的独特特征。为了证明我们的模型的有效性,我们使用多视图数据集(K-Hairstyle和Voxceleb)进行定量和定性评估。结果表明,发型通过在不同姿势的图像之间成功地转移发型来实现最先进的表现,而这是以前从未实现的。
translated by 谷歌翻译
基于训练学习的脱毛方法需要大量的模糊和尖锐的图像对。不幸的是,现有的合成数据集还不够现实,对其进行训练的Deblurring模型无法有效处理真正的模糊图像。尽管最近提出了真实的数据集,但它们提供了有限的场景和相机设置,并且为不同的设置捕获真实数据集仍然具有挑战性。为了解决这一问题,本文分析了各种因素,这些因素引入了真实和合成模糊图像之间的差异。为此,我们提出了RSBlur,这是一个具有真实图像的新型数据集和相应的尖锐图像序列,以详细分析真实和合成模糊之间的差异。使用数据集,我们揭示了不同因素在模糊生成过程中的影响。基于分析,我们还提出了一种新型的模糊合成管道,以综合更现实的模糊。我们表明,我们的合成管道可以改善实际模糊图像上的脱毛性能。
translated by 谷歌翻译
为了执行无条件的视频生成,我们必须学习现实世界的分布。为了综合高质量视频,各种研究试图学习噪声和视频之间的映射函数,包括最近的努力来分离运动分配和外观分布。然而,以前的方法在离散的固定间隔时间内学习运动动态,这与物体体的运动的连续性相反。在本文中,我们提出了一种新颖的视频生成方法,了解运动和外观的单独分布,前者由神经颂歌建模,以学习自然运动动态。具体地,我们采用两级方法,其中第一阶段将噪声向量转换为任意帧速率的一系列关键点,并且第二级基于给定的关键点序列和外观噪声向量来合成视频。我们的模型不仅定量优于最近的视频生成基线,而且还演示了多功能功能,例如动态帧速率操纵和两个数据集之间的运动传输,从而打开新的门以不同的视频生成应用。
translated by 谷歌翻译
由于新兴的深度神经网络(DNN)模型的规模继续增大,使用大型GPU集群培训DNN是实现可接受培训时间的基本要求。在本文中,我们考虑了集群大小的未来增加的情况将导致全局批量大小用于培训模型以达到基本限制:超出某个点,更大的全球批量尺寸会导致样品效率降低,总体上升准确性的时间。因此,为了实现培训性能的进一步改进,我们必须考虑“强大的缩放”策略,该策略保持全局批量大小常量,并将较小的批次分配给每个GPU。不幸的是,这使得能够有效地使用群集资源。我们呈现DeepPool,通过两个关键思想解决这种效率挑战的系统。首先,突发并行性将大量GPU分配给突发中的前景作业,以利用整个层的并行性的不均匀性。其次,GPU多路复用优先考虑前台培训工作的吞吐量,而背景培训作业包装以回收未充分利用的GPU资源,从而提高集群范围利用率。这两个想法在一起使DeepPool能够在群集刻度大的单一任务中通过标准数据并行度进行2.2 - 2.4倍的完整性。
translated by 谷歌翻译
尽管基于深度学习的面部相关模型成功显着,但这些模型仍然仅限于真正人类面的领域。另一方面,由于缺乏组织良好的数据集,由于缺乏组织的数据集,动画面的域已经不太积极地研究。在本文中,我们通过可控的合成动画模型介绍了一个大规模动画CeleBfaces数据集(AnimeCeleb),以提高动画面域的研究。为了促进数据生成过程,我们基于开放式3D软件和开发的注释系统构建半自动管道。这导致构建大型动画面部数据集,包括具有丰富注释的多姿态和多样式动画面。实验表明,我们的数据集适用于各种动画相关的任务,如头部重新创建和着色。
translated by 谷歌翻译