The success of Deep Generative Models at high-resolution image generation has led to their extensive utilization for style editing of real images. Most existing methods work on the principle of inverting real images onto their latent space, followed by determining controllable directions. Both inversion of real images and determination of controllable latent directions are computationally expensive operations. Moreover, the determination of controllable latent directions requires additional human supervision. This work aims to explore the efficacy of mask-guided feature modulation in the latent space of a Deep Generative Model as a solution to these bottlenecks. To this end, we present the SemanticStyle Autoencoder (SSAE), a deep Generative Autoencoder model that leverages semantic mask-guided latent space manipulation for highly localized photorealistic style editing of real images. We present qualitative and quantitative results for the same and their analysis. This work shall serve as a guiding primer for future work.
translated by 谷歌翻译
随着越来越多的增强和虚拟现实应用程序的出现,旨在对人脸的图像进行有意义和控制的样式编辑,因此解析面部图像的任务的动力以生成准确而细粒度的语义细分映射超出以前。很少有解决此问题的最新技术(SOTA)方法通过将先验的面部结构或其他面部属性(例如表达和姿势)纳入其深层分类器架构中来做到这一点。我们在这项工作中的努力是消除SOTA多级面部分割模型所需的先验和复杂的预处理操作,该操作通过将此操作重新构架为在面部语义语义区域(ROIS)的下游任务后,作为下游任务后的下游任务(ROIS)。在生成自动编码器模型的潜在空间中。我们在Celebamask-HQ和Helen数据集上介绍了模型性能的结果。与其他SOTA作品相比,我们模型的编码潜在空间在语义ROI方面的分离明显更高。此外,它在公开可用的SOTA方面,可以实现13 \%的推理率和可比的精度,用于面部图像的语义分割的下游任务。
translated by 谷歌翻译
图像恢复是从降级版本中恢复清洁图像的任务。在大多数情况下,劣化是空间变化的,并且它需要恢复网络到本地化并恢复受影响的区域。在本文中,我们提出了一种适用于处理受实际发生的伪像(如模糊,雨杆)的图像中的图像中降解的图像特异性和空间不同性质的新方法。与直接学习劣化和清洁图像之间的映射直接学习映射的现有方法不同,我们将恢复任务分解为劣化定位和降级的区域引导恢复的两个阶段。我们的前提是使用劣化掩模预测的辅助任务来指导恢复过程。我们展示了对此辅助任务培训的模型包含重要地区知识,可以利用使用细心知识蒸馏技术来指导恢复网络的培训。此外,我们提出了掩模引导的卷积和全局上下文聚合模块,专注于恢复劣化区域。通过实现强大基线的显着改善,证明了所提出的方法的有效性。
translated by 谷歌翻译
通过最近使用深神经网络,图像纯洁方法显示出显着的改进。然而,许多这些技术经常产生与周围区域不一致的扭曲的结构或模糊纹理。该问题植根于编码器层的无效,在建立缺失地区的完全和忠实的嵌入时。为了解决这个问题,两阶段方法部署了两个单独的网络,用于对染色图像的粗略和精细估计。一些方法利用手工制作的特征,如边缘或轮廓,以指导重建过程。由于多个发电机网络,手工特征有限,并且在地面真理中存在的信息的次优,这些方法遭受巨大的计算开销。通过这些观察结果,我们提出了一种基于蒸馏的方法,用于以自适应方式为编码器层提供直接特征级监督。我们部署交叉和自蒸馏技术,并讨论了对编码器中专用完成块的需要,以实现蒸馏靶。我们对多个数据集进行广泛的评估以验证我们的方法。
translated by 谷歌翻译
本文解决了视频解训的挑战性问题。现有的大多数作品依赖于用于时间信息融合的隐式或显式对齐,其由于错误的对准而增加计算成本或导致次优的性能。在这项研究中,我们提出了一个分解的时空关注,以在不考虑的情况下完全使用可用信息的空间和时间来执行非本地操作。与现有融合技术相比,它显示出优异的性能,同时高效。多个数据集的广泛实验证明了我们方法的优越性。
translated by 谷歌翻译
本文铲球动态场景去模糊的问题。虽然终端到终端的全卷积的设计最近提出的国家的最先进的非匀速运动去模糊,他们的表现复杂的权衡仍是次优的。现有的方法在普通卷积层,内核尺寸的数量,来与模型的大小和推理速度的增加的负担,一个简单的增量实现大的感受野。在这项工作中,我们提出了一个有效的像素适应并配内和跨不同的图像处理大量的模糊变化周到的设计。我们还提出了一种有效的内容感知全局 - 局部滤波模块通过不仅考虑像素的全局依赖关系还动态使用相邻像素是显著提高性能。我们使用上述模块构成的补丁分层架构周到隐式地发现存在于所述输入图像并依次模糊的空间变化进行的中间特征局部和全局调制。与现有技术的上去模糊基准广泛的定性和定量的比较表明了该网络的优越性。
translated by 谷歌翻译
在实践中,图像可以包含不同颜色通道的不同噪声,这不受现有的超分辨率方法确认。在本文中,我们通过关注颜色通道来提出超声噪音图像。噪声统计从输入的低分辨率图像盲目地估计,并且用于以数据成本为不同颜色信道分配不同权重。通过与自适应权重相关联的核规范最小化,通过核标准最小化强制强制执行视觉数据的隐式低秩结构,这将作为正则化术语添加到成本中。另外,通过涉及投影到PCA的另一个正则化术语将图像的多尺度细节添加到模型中,该术语是使用在输入图像的不同尺度上提取的类似斑块构造的。结果展示了在实际方案中的方法的超声解决能力。
translated by 谷歌翻译
在文献中,粗细或缩放 - 重复性方法是从其低分辨率版本逐步恢复清洁图像,已成功用于单图像去孔。然而,现有方法的主要缺点是需要配对数据;即夏普尔图像对同一场景,这是一种复杂和繁琐的采集程序。此外,由于对损耗功能的强烈监督,此类网络的预先训练模型对训练期间的模糊强烈偏向,并且在推理时间内的新模糊内核面对时倾向于提供子最佳性能。为了解决上述问题,我们使用秤 - 自适应注意模块(Saam)提出了无监督的域特定的去孔。我们的网络不需要监督对进行训练,并且防夹机制主要由逆势丢失引导,从而使我们的网络适用于模糊功能的分布。给定模糊的输入图像,在训练期间我们的模型中使用相同图像的不同分辨率,Saam允许在整个分辨率上有效的信息流。对于特定规模的网络培训,Saam作为当前规模的函数参加较低的尺度功能。不同的消融研究表明,我们的粗细机制优于端到端无监督的模型,而Saam能够与文学中使用的注意力相比更好地参加。定性和定量比较(在无参考度量标准)表明我们的方法优于现有无监督的方法。
translated by 谷歌翻译
CMOS传感器采用行明智的采集机制,同时成像一个场景,这可能导致已知被称为捕获图像中的滚动快门(RS)失真的不希望的运动伪影。现有的单图像RS整流方法尝试通过使用针对特定的场景量身定制的算法来计算这些扭曲,该算法根据具有已知的地面真理运动参数的内在相机参数或基于学习的框架的信息。在本文中,我们提出了一个端到端的深神经网络,用于单幅图像RS整流的具有挑战性的任务。我们的网络由运动块,轨迹模块,行块,RS整流模块和RS再生模块(仅在训练期间使用)组成。当轨迹模块将估计的运动参数拟合到三阶多项式时,运动块预测输入RS失真图像的每一行的摄像机姿势。行块预测必须与目标I.E中的每个像素相关联的相机运动,RS整流图像。最后,RS整流模块使用运动轨迹和行块的输出来扭曲输入RS图像以到达畸变互联图像。为了在训练期间更快的收敛,我们还使用RS再生模块,该RS再生模块将输入RS图像与估计的运动参数失真的地面真理图像进行比较。我们模型中的端到端制定不会将估计的动作限制为地面真理运动参数,从而成功地将RS图像与复杂的现实生活相机运动进行了整理。合成和实时数据集的实验表明,我们的网络在定性和定量上占据了现有技术的现有技术。
translated by 谷歌翻译
相机万向节系统在各种空气或水系统中非常重要,用于导航,目标跟踪,安全性和监视等应用。由于在短时间内可以重新讨论给定的视野(FOV),因此对于实时应用,对于实时应用,优选用于实时应用的更高的转向速率(旋转角度)。然而,由于Gimbal和场景之间的相对运动在曝光时间期间,捕获的视频帧可能遭受运动模糊。由于大多数后捕获后应用需要模糊图像,因此实时运动脱棕色是重要的需求。尽管存在盲的去欺诈方法,其旨在从模糊输入中检索潜像,因此它们受到非常高维优化的约束,从而产生大的执行时间。另一方面,对于运动去掩盖的深度学习方法,虽然快速,但不令人满意地概括到不同的域(例如,空气,水等)。在这项工作中,我们解决了基于Gimbal的系统捕获的红外线(IR)图像中实时运动去纹的问题。我们揭示了模糊 - 内核的先验知识如何结合非盲去欺诈方法来实现实时性能。重要的是,我们的数学模型可以利用,以创建具有现实万向动动运动模糊的大型数据集。这种数据集是一种罕见的数据集可以是当代深度学习方法的有价值资产。我们表明,与去纹理中的最先进技术相比,我们的方法更适合实用的基于Gimbal的成像系统。
translated by 谷歌翻译