由于大气湍流的扭曲而恢复图像是一个长期存在的问题,这是由于变形的空间变化,图像形成过程的非线性以及训练和测试数据的稀缺性。现有方法通常在失真模型上具有强大的统计假设,在许多情况下,由于没有概括,因此在现实世界中的性能有限。为了克服挑战,本文提出了一种端到端物理驱动的方法,该方法有效,可以推广到现实世界的湍流。在数据合成方面,我们通过通过宽sense式的平稳性近似随机场来显着增加SOTA湍流模拟器可以处理的图像分辨率。新的数据合成过程使大规模的多级湍流和训练的地面真相对产生。在网络设计方面,我们提出了湍流缓解变压器(TMT),这是一个两级U-NET形状的多帧恢复网络,该网络具有Noval有效的自发机制,称为暂时通道关节关注(TCJA)。我们还引入了一种新的培训方案,该方案由新的模拟器启用,并设计新的变压器单元以减少内存消耗。在静态场景和动态场景上的实验结果是有希望的,包括各种真实的湍流场景。
translated by 谷歌翻译
已知大气湍流的图像恢复算法对设计比模糊或噪声等传统湍流更具挑战性,因为湍流引起的失真是空间变化的模糊,几何变形,传感器噪声的纠缠。现有的基于CNN的恢复方法建立在具有静态重量的卷积内核上,不足以处理空间动态的大气湍流效果。为了解决这个问题,在本文中,我们提出了一个以物理启发的变压器模型,用于通过大气湍流进行成像。提出的网络利用变压器块的功率共同提取动态湍流失真图并恢复无湍流图像。此外,我们认识到缺乏全面的数据集,我们收集并介绍了两个新的现实世界湍流数据集,这些数据集允许使用经典目标指标(例如PSNR和SSIM)进行评估,并使用文本识别精度进行了新的任务驱动指标。实际测试集和所有相关代码都将公开可用。
translated by 谷歌翻译
用于深度卷积神经网络的视频插值的现有方法,因此遭受其内在限制,例如内部局限性核心权重和受限制的接收领域。为了解决这些问题,我们提出了一种基于变换器的视频插值框架,允许内容感知聚合权重,并考虑具有自我关注操作的远程依赖性。为避免全球自我关注的高计算成本,我们将当地注意的概念引入视频插值并将其扩展到空间域。此外,我们提出了一个节省时间的分离策略,以节省内存使用,这也提高了性能。此外,我们开发了一种多尺度帧合成方案,以充分实现变压器的潜力。广泛的实验证明了所提出的模型对最先进的方法来说,定量和定性地在各种基准数据集上进行定量和定性。
translated by 谷歌翻译
使用注意机制的深度卷积神经网络(CNN)在动态场景中取得了巨大的成功。在大多数这些网络中,只能通过注意图精炼的功能传递到下一层,并且不同层的注意力图彼此分开,这并不能充分利用来自CNN中不同层的注意信息。为了解决这个问题,我们引入了一种新的连续跨层注意传播(CCLAT)机制,该机制可以利用所有卷积层的分层注意信息。基于CCLAT机制,我们使用非常简单的注意模块来构建一个新型残留的密集注意融合块(RDAFB)。在RDAFB中,从上述RDAFB的输出中推断出的注意图和每一层直接连接到后续的映射,从而导致CRLAT机制。以RDAFB为基础,我们为动态场景Deblurring设计了一个名为RDAFNET的有效体系结构。基准数据集上的实验表明,所提出的模型的表现优于最先进的脱毛方法,并证明了CCLAT机制的有效性。源代码可在以下网址提供:https://github.com/xjmz6/rdafnet。
translated by 谷歌翻译
大多数现有的基于深度学习的单图像动态场景盲目脱毛(SIDSBD)方法通常设计深网络,以直接从一个输入的运动模糊图像中直接删除空间变化的运动模糊,而无需模糊的内核估计。在本文中,受投射运动路径模糊(PMPB)模型和可变形卷积的启发,我们提出了一个新颖的约束可变形的卷积网络(CDCN),以进行有效的单图像动态场景,同时实现了准确的空间变化,以及仅观察到的运动模糊图像的高质量图像恢复。在我们提出的CDCN中,我们首先构建了一种新型的多尺度多级多输入多输出(MSML-MIMO)编码器架构,以提高功能提取能力。其次,与使用多个连续帧的DLVBD方法不同,提出了一种新颖的约束可变形卷积重塑(CDCR)策略,其中首先将可变形的卷积应用于输入的单运动模糊图像的模糊特征,用于学习学习的抽样点,以学习学习的采样点每个像素的运动模糊内核类似于PMPB模型中摄像机震动的运动密度函数的估计,然后提出了一种基于PMPB的新型重塑损耗函数来限制学习的采样点收敛,这可以使得可以使得可以使其产生。学习的采样点与每个像素的相对运动轨迹匹配,并促进空间变化的运动模糊内核估计的准确性。
translated by 谷歌翻译
夜间摄影通常由于昏暗的环境和长期使用而遭受弱光和模糊问题。尽管现有的光增强和脱毛方法可以单独解决每个问题,但一系列此类方法不能和谐地适应可见性和纹理的共同降解。训练端到端网络也是不可行的,因为没有配对数据可以表征低光和模糊的共存。我们通过引入新的数据合成管道来解决该问题,该管道对现实的低光模糊降解进行建模。使用管道,我们介绍了第一个用于关节低光增强和去皮的大型数据集。数据集,LOL-BLUR,包含12,000个低Blur/正常出现的对,在不同的情况下具有不同的黑暗和运动模糊。我们进一步提出了一个名为LEDNET的有效网络,以执行关节弱光增强和脱毛。我们的网络是独一无二的,因为它是专门设计的,目的是考虑两个相互连接的任务之间的协同作用。拟议的数据集和网络都为这项具有挑战性的联合任务奠定了基础。广泛的实验证明了我们方法对合成和现实数据集的有效性。
translated by 谷歌翻译
最近的变形金刚和多层Perceptron(MLP)模型的进展为计算机视觉任务提供了新的网络架构设计。虽然这些模型在许多愿景任务中被证明是有效的,但在图像识别之类的愿景中,仍然存在挑战,使他们适应低级视觉。支持高分辨率图像和本地注意力的局限性的不灵活性可能是使用变压器和MLP在图像恢复中的主要瓶颈。在这项工作中,我们介绍了一个多轴MLP基于MARIC的架构,称为Maxim,可用作用于图像处理任务的高效和灵活的通用视觉骨干。 Maxim使用UNET形的分层结构,并支持由空间门控MLP启用的远程交互。具体而言,Maxim包含两个基于MLP的构建块:多轴门控MLP,允许局部和全球视觉线索的高效和可扩展的空间混合,以及交叉栅栏,替代跨关注的替代方案 - 细分互补。这两个模块都仅基于MLP,而且还受益于全局和“全卷积”,两个属性对于图像处理是可取的。我们广泛的实验结果表明,所提出的Maxim模型在一系列图像处理任务中实现了十多个基准的最先进的性能,包括去噪,失败,派热,脱落和增强,同时需要更少或相当的数量参数和拖鞋而不是竞争模型。
translated by 谷歌翻译
我们提出了一个大规模的真实世界和干净的图像对数据集,以及一种从图像中降低降解的方法,从图像中降低了降解。由于没有用于降低的现实世界数据集,因此当前的最新方法依赖于合成数据,因此受SIM2REAL域间隙的限制。此外,由于没有真实的配对数据集,严格的评估仍然是一个挑战。我们通过通过对非鼻子变化的细致控制收集第一个真实的配对数据集来填补这一空白。我们的数据集对各种现实世界的雨水现象(例如雨条和雨水积累)进行了配对的培训和定量评估。为了学习对雨现象不变的代表,我们提出了一个深层神经网络,该网络通过最大程度地减少雨水和干净图像之间的雨水不变损失来重建基础场景。广泛的实验表明,所提出的数据集使现有的DERAINER受益,我们的模型可以在各种条件下对真实雨水图像的最先进方法优于最先进的方法。
translated by 谷歌翻译
为了促进视频降解研究,我们构建了一个引人注目的数据集,即“实用的视频Denoising DataSet”(PVDD),其中包含200个SRGB和RAW格式的嘈杂清洁动态视频对。与由有限运动信息组成的现有数据集相比,PVDD涵盖了具有变化和自然运动的动态场景。与使用主要高斯或泊松分布的数据集不同,以合成SRGB域中的噪声,PVDD通过具有物理意义的传感器噪声模型,然后进行ISP处理,将原始域中的现实噪声合成现实的噪声。此外,基于此数据集,我们提出了一个基于洗牌的实用降解模型,以增强现实世界中SRGB视频的视频DeNoising网络的性能。广泛的实验表明,接受PVDD培训的模型在许多具有挑战性的现实视频上实现了优越的DeNo绩效,而不是在其他现有数据集中训练的模型上。
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译
现有的视频denoising方法通常假设嘈杂的视频通过添加高斯噪声从干净的视频中降低。但是,经过这种降解假设训练的深层模型将不可避免地导致由于退化不匹配而导致的真实视频的性能差。尽管一些研究试图在摄像机捕获的嘈杂和无噪声视频对上训练深层模型,但此类模型只能对特定的相机很好地工作,并且对其他视频的推广不佳。在本文中,我们建议提高此限制,并专注于一般真实视频的问题,目的是在看不见的现实世界视频上概括。我们首先调查视频噪音的共同行为来解决这个问题,并观察两个重要特征:1)缩减有助于降低空间空间中的噪声水平; 2)来自相邻框架的信息有助于消除时间上的当前框架的噪声空间。在这两个观察结果的推动下,我们通过充分利用上述两个特征提出了多尺度的复发架构。其次,我们通过随机调整不同的噪声类型来训练Denoising模型来提出合成真实的噪声降解模型。借助合成和丰富的降解空间,我们的退化模型可以帮助弥合训练数据和现实世界数据之间的分布差距。广泛的实验表明,与现有方法相比,我们所提出的方法实现了最先进的性能和更好的概括能力,而在合成高斯denoising和实用的真实视频denoisising方面都具有现有方法。
translated by 谷歌翻译
Motion blur from camera shake is a major problem in videos captured by hand-held devices. Unlike single-image deblurring, video-based approaches can take advantage of the abundant information that exists across neighboring frames. As a result the best performing methods rely on the alignment of nearby frames. However, aligning images is a computationally expensive and fragile procedure, and methods that aggregate information must therefore be able to identify which regions have been accurately aligned and which have not, a task that requires high level scene understanding. In this work, we introduce a deep learning solution to video deblurring, where a CNN is trained end-toend to learn how to accumulate information across frames. To train this network, we collected a dataset of real videos recorded with a high frame rate camera, which we use to generate synthetic motion blur for supervision. We show that the features learned from this dataset extend to deblurring motion blur that arises due to camera shake in a wide range of videos, and compare the quality of results to a number of other baselines 1 .
translated by 谷歌翻译
由少量镜头组成的全景环形镜头(PAL)在全景周围具有巨大潜力,该镜头围绕着移动和可穿戴设备的传感任务,因为其尺寸很小,并且视野很大(FOV)。然而,由于缺乏畸变校正的镜头,小体积PAL的图像质量仅限于光学极限。在本文中,我们提出了一个环形计算成像(ACI)框架,以打破轻质PAL设计的光学限制。为了促进基于学习的图像恢复,我们引入了基于波浪的模拟管道,用于全景成像,并通过多个数据分布来应对合成间隙。提出的管道可以轻松地适应具有设计参数的任何PAL,并且适用于宽松的设计。此外,我们考虑了全景成像和物理知识学习的物理先验,我们设计了物理知情的图像恢复网络(PI2RNET)。在数据集级别,我们创建了Divpano数据集,其广泛的实验表明,我们提出的网络在空间变化的降级下在全景图像恢复中设置了新的最新技术。此外,对只有3个球形镜头的简单PAL上提议的ACI的评估揭示了高质量全景成像与紧凑设计之间的微妙平衡。据我们所知,我们是第一个探索PAL中计算成像(CI)的人。代码和数据集将在https://github.com/zju-jiangqi/aci-pi2rnet上公开提供。
translated by 谷歌翻译
放映摄像头(UDC)为全屏智能手机提供了优雅的解决方案。但是,由于传感器位于显示屏下,UDC捕获的图像遭受了严重的降解。尽管可以通过图像恢复网络解决此问题,但这些网络需要大规模的图像对进行培训。为此,我们提出了一个模块化网络,称为MPGNET,该网络使用生成对抗网络(GAN)框架来模拟UDC成像。具体而言,我们注意到UDC成像降解过程包含亮度衰减,模糊和噪声损坏。因此,我们将每个降解与特征相关的模块化网络建模,并将所有模块化网络级联成型以形成生成器。加上像素的歧视器和受监督的损失,我们可以训练发电机以模拟UDC成像降解过程。此外,我们提出了一个用于UDC图像恢复的Dwformer的变压器式网络。出于实际目的,我们使用深度卷积而不是多头自我注意力来汇总本地空间信息。此外,我们提出了一个新型的渠道注意模块来汇总全局信息,这对于亮度恢复至关重要。我们对UDC基准进行了评估,我们的方法在P-Oled轨道上超过了先前的最新模型和T-Oled轨道上的0.71 dB。
translated by 谷歌翻译
由于长时间曝光时间,传统的基于帧的相机不可避免地遭受运动模糊。作为一种生物启发相机,事件摄像机以具有高时间分辨率的异步方式记录强度变化,在曝光时间内提供有效的图像劣化信息。在本文中,我们重新思考基于事件的图像去掩盖问题并将其展开成为端到端的两级图像恢复网络。为了有效地利用事件信息,我们设计(i)专门用于图像去纹理的新型对称累积事件表示,以及(ii)在我们网络的多个级别应用的仿射事件图像融合模块。我们还提出了网络的两个阶段之间的事件掩码所连接的连接,以避免信息丢失。在数据集级别,为了促进基于事件的运动解训,并促进挑战真实世界图像的评估,我们介绍了在照明控制的光学实验室中使用活动摄像机捕获的高质量模糊(HQBLUR)数据集。我们的多尺度事件融合网络(MEFNET)设置了用于运动解训的新技术,超越了先前最佳的基于图像的方法和GoPro上的公共实现的所有基于事件的方法(高达2.38dB即使在极端模糊条件下,也是HQBLUR Datasets。源代码和数据集将公开可用。
translated by 谷歌翻译
视频框架插值(VFI)旨在合成两个连续帧之间的中间框架。最先进的方法通常采用两步解决方案,其中包括1)通过基于流动的运动估计来生成本地光线的像素,2)将扭曲的像素混合以通过深神经合成网络形成全帧。但是,由于两个连续的帧不一致,新帧的扭曲功能通常不会对齐,这会导致扭曲和模糊的帧,尤其是在发生大型和复杂的运动时。为了解决这个问题,在本文中,我们提出了一种新颖的视频框架插值变压器(TTVFI)。特别是,我们以不一致的动作为查询令牌制定了扭曲的特征,并将运动轨迹中的相关区域从两个原始的连续帧中提出到键和值。在沿轨迹的相关令牌上学习了自我注意力,以通过端到端训练将原始特征融合到中间框架中。实验结果表明,我们的方法在四个广泛使用的VFI基准中优于其他最先进的方法。代码和预培训模型都将很快发布。
translated by 谷歌翻译
派生是一个重要而基本的计算机视觉任务,旨在消除在下雨天捕获的图像或视频中的雨条纹和累积。现有的派威方法通常会使雨水模型的启发式假设,这迫使它们采用复杂的优化或迭代细化以获得高回收质量。然而,这导致耗时的方法,并影响解决从假设偏离的雨水模式的有效性。在本文中,我们通过在没有复杂的雨水模型假设的情况下,通过在没有复杂的雨水模型假设的情况下制定污染作为预测滤波问题的简单而有效的污染方法。具体地,我们识别通过深网络自适应地预测适当的核的空间变型预测滤波(SPFILT以过滤不同的各个像素。由于滤波可以通过加速卷积来实现,因此我们的方法可以显着效率。我们进一步提出了eFderain +,其中包含三个主要贡献来解决残留的雨迹,多尺度和多样化的雨水模式而不会损害效率。首先,我们提出了不确定感知的级联预测滤波(UC-PFILT),其可以通过预测的内核来识别重建清洁像素的困难,并有效地移除残留的雨水迹线。其次,我们设计重量共享多尺度扩张过滤(WS-MS-DFILT),以处理多尺度雨条纹,而不会损害效率。第三,消除各种雨水模式的差距,我们提出了一种新颖的数据增强方法(即Rainmix)来培养我们的深层模型。通过对不同变体的复杂分析的所有贡献相结合,我们的最终方法在恢复质量和速度方面优于四个单像辐照数据集和一个视频派威数据集的基线方法。
translated by 谷歌翻译
在本文中,我们研究了现实世界图像脱毛的问题,并考虑了改善深度图像脱布模型的性能的两个关键因素,即培训数据综合和网络体系结构设计。经过现有合成数据集训练的脱毛模型在由于域移位引起的真实模糊图像上的表现较差。为了减少合成和真实域之间的域间隙,我们提出了一种新颖的现实模糊合成管道来模拟摄像机成像过程。由于我们提出的合成方法,可以使现有的Deblurring模型更强大,以处理现实世界的模糊。此外,我们开发了一个有效的脱蓝色模型,该模型同时捕获特征域中的非本地依赖性和局部上下文。具体而言,我们将多路径变压器模块介绍给UNET架构,以进行丰富的多尺度功能学习。在三个现实世界数据集上进行的全面实验表明,所提出的Deblurring模型的性能优于最新方法。
translated by 谷歌翻译
旨在恢复降级视频清晰框架的视频修复一直在吸引越来越多的关注。需要进行视频修复来建立来自多个未对准帧的时间对应关系。为了实现这一目标,现有的深层方法通常采用复杂的网络体系结构,例如集成光流,可变形卷积,跨框或跨像素自我发项层,从而导致昂贵的计算成本。我们认为,通过适当的设计,视频修复中的时间信息利用可能会更加有效。在这项研究中,我们提出了一个简单,快速但有效的视频修复框架。我们框架的关键是分组的时空转移,它简单且轻巧,但可以隐式建立框架间的对应关系并实现多框架聚合。加上用于框架编码和解码的基本2D U-NET,这种有效的时空移位模块可以有效地应对视频修复中的挑战。广泛的实验表明,我们的框架超过了先前的最先进方法,其计算成本的43%在视频DeBlurring和Video Denoisising上。
translated by 谷歌翻译
Video Super-Resolution (VSR) aims to restore high-resolution (HR) videos from low-resolution (LR) videos. Existing VSR techniques usually recover HR frames by extracting pertinent textures from nearby frames with known degradation processes. Despite significant progress, grand challenges are remained to effectively extract and transmit high-quality textures from high-degraded low-quality sequences, such as blur, additive noises, and compression artifacts. In this work, a novel Frequency-Transformer (FTVSR) is proposed for handling low-quality videos that carry out self-attention in a combined space-time-frequency domain. First, video frames are split into patches and each patch is transformed into spectral maps in which each channel represents a frequency band. It permits a fine-grained self-attention on each frequency band, so that real visual texture can be distinguished from artifacts. Second, a novel dual frequency attention (DFA) mechanism is proposed to capture the global frequency relations and local frequency relations, which can handle different complicated degradation processes in real-world scenarios. Third, we explore different self-attention schemes for video processing in the frequency domain and discover that a ``divided attention'' which conducts a joint space-frequency attention before applying temporal-frequency attention, leads to the best video enhancement quality. Extensive experiments on three widely-used VSR datasets show that FTVSR outperforms state-of-the-art methods on different low-quality videos with clear visual margins. Code and pre-trained models are available at https://github.com/researchmm/FTVSR.
translated by 谷歌翻译