视频框架插值(VFI)旨在合成两个连续帧之间的中间框架。最先进的方法通常采用两步解决方案,其中包括1)通过基于流动的运动估计来生成本地光线的像素,2)将扭曲的像素混合以通过深神经合成网络形成全帧。但是,由于两个连续的帧不一致,新帧的扭曲功能通常不会对齐,这会导致扭曲和模糊的帧,尤其是在发生大型和复杂的运动时。为了解决这个问题,在本文中,我们提出了一种新颖的视频框架插值变压器(TTVFI)。特别是,我们以不一致的动作为查询令牌制定了扭曲的特征,并将运动轨迹中的相关区域从两个原始的连续帧中提出到键和值。在沿轨迹的相关令牌上学习了自我注意力,以通过端到端训练将原始特征融合到中间框架中。实验结果表明,我们的方法在四个广泛使用的VFI基准中优于其他最先进的方法。代码和预培训模型都将很快发布。
translated by 谷歌翻译
视频框架插值(VFI)旨在通过从双向历史参考文献中扭曲可学习的动作来产生预测帧。大多数现有的作品都利用时空语义信息提取器来实现运动估计和插值建模,考虑到产生的中间运动的实际机械合理性,没有足够的考虑。在本文中,我们将VFI重新制定为多变量的非线性(MNL)回归问题,并提出了联合非线性运动回归(JNMR)策略来模拟框架间的复杂运动。为了建立MNL回归,采用ConvlSTM来构建时间维度的完整运动的分布。目标框架和多个参考帧之间的运动相关性可以通过建模的分布进行回归。此外,功能学习网络旨在为MNL回归建模进行优化。进一步进行了一个粗到精细的合成增强模块,以通过重复回归和插值来学习不同分辨率的视觉动力学。框架插值上的高度竞争性实验结果表明,与最先进的性能相比,有效性和显着提高,以及复杂运动估计的鲁棒性通过MNL运动回归提高。
translated by 谷歌翻译
视频框架合成由插值和外推组成,是一种必不可少的视频处理技术,可应用于各种情况。但是,大多数现有方法无法处理小物体或大型运动,尤其是在高分辨率视频(例如4K视频)中。为了消除此类局限性,我们引入了基于流动帧合成的邻居对应匹配(NCM)算法。由于当前的帧在视频框架合成中不可用,因此NCM以当前框架的方式进行,以在每个像素的空间型社区中建立多尺度对应关系。基于NCM的强大运动表示能力,我们进一步建议在异质的粗到细节方案中估算框架合成的中间流。具体而言,粗尺度模块旨在利用邻居的对应关系来捕获大型运动,而细尺度模块在计算上更有效地加快了估计过程。两个模块都经过逐步训练,以消除培训数据集和现实世界视频之间的分辨率差距。实验结果表明,NCM在多个基准测试中实现了最先进的性能。此外,NCM可以应用于各种实践场景,例如视频压缩,以实现更好的性能。
translated by 谷歌翻译
在时空邻域中利用类似和更清晰的场景补丁对于视频去纹理至关重要。然而,基于CNN的方法显示了捕获远程依赖性和建模非本地自相相似性的限制。在本文中,我们提出了一种新颖的框架,流引导稀疏变压器(FGST),用于视频去掩模。在FGST中,我们定制自我关注模块,流动引导的基于稀疏窗口的多头自我关注(FGSW-MSA)。对于模糊参考帧上的每个$查询$元素,FGSW-MSA享有估计的光流向全局样本的指导,其空间稀疏但与相邻帧中相同的场景补丁对应的高度相关$键$元素。此外,我们介绍了一种反复嵌入(RE)机制,以从过去的框架转移信息并加强远程时间依赖性。综合实验表明,我们提出的FGST优于DVD和GoPro数据集的最先进的(SOTA)方法,甚至在真实视频去纹理中产生更多视觉上令人愉悦的结果。代码和型号将发布给公众。
translated by 谷歌翻译
图像增强旨在通过修饰颜色和音调来提高照片的美学视觉质量,并且是专业数字摄影的必不可少的技术。近年来,基于学习的图像增强算法已达到有希望的表现,并吸引了日益普及。但是,典型的努力试图为所有像素的颜色转换构建一个均匀的增强子。它忽略了对照片重要的不同内容(例如,天空,海洋等)之间的像素差异,从而导致结果不令人满意。在本文中,我们提出了一个新颖的可学习背景知觉的4维查找表(4D LUT),该表通过适应性地学习照片上下文来实现每个图像中不同内容的增强。特别是,我们首先引入一个轻量级上下文编码器和一个参数编码器,以分别学习像素级类别的上下文图和一组图像自适应系数。然后,通过通过系数集成多个基础4D LUT来生成上下文感知的4D LUT。最后,可以通过将源图像和上下文图馈入融合的上下文感知的4D〜LUT来获得增强的图像。与传统的3D LUT(即RGB映射到RGB)相比,通常用于摄像机成像管道系统或工具,4D LUT,即RGBC(RGB+上下文)映射到RGB,可实现具有不同像素的颜色转换的最佳控制每个图像中的内容,即使它们具有相同的RGB值。实验结果表明,我们的方法在广泛使用的基准中优于其他最先进的方法。
translated by 谷歌翻译
用于深度卷积神经网络的视频插值的现有方法,因此遭受其内在限制,例如内部局限性核心权重和受限制的接收领域。为了解决这些问题,我们提出了一种基于变换器的视频插值框架,允许内容感知聚合权重,并考虑具有自我关注操作的远程依赖性。为避免全球自我关注的高计算成本,我们将当地注意的概念引入视频插值并将其扩展到空间域。此外,我们提出了一个节省时间的分离策略,以节省内存使用,这也提高了性能。此外,我们开发了一种多尺度帧合成方案,以充分实现变压器的潜力。广泛的实验证明了所提出的模型对最先进的方法来说,定量和定性地在各种基准数据集上进行定量和定性。
translated by 谷歌翻译
translated by 谷歌翻译
时空视频超分辨率(STVSR)的目标是增加低分辨率(LR)和低帧速率(LFR)视频的空间分辨率。基于深度学习的最新方法已取得了重大改进,但是其中大多数仅使用两个相邻帧,即短期功能,可以合成缺失的框架嵌入,这无法完全探索连续输入LR帧的信息流。此外,现有的STVSR模型几乎无法明确利用时间上下文以帮助高分辨率(HR)框架重建。为了解决这些问题,在本文中,我们提出了一个称为STDAN的可变形注意网络。首先,我们设计了一个长短的术语特征插值(LSTFI)模块,该模块能够通过双向RNN结构从更相邻的输入帧中挖掘大量的内容,以进行插值。其次,我们提出了一个空间 - 周期性变形特征聚合(STDFA)模块,其中动态视频框架中的空间和时间上下文被自适应地捕获并汇总以增强SR重建。几个数据集的实验结果表明,我们的方法的表现优于最先进的STVSR方法。该代码可在https://github.com/littlewhitesea/stdan上找到。
translated by 谷歌翻译
我们提出了一种称为基于DNN的基于DNN的框架,称为基于增强的相关匹配的视频帧插值网络,以支持4K的高分辨率,其具有大规模的运动和遮挡。考虑到根据分辨率的网络模型的可扩展性,所提出的方案采用经常性金字塔架构,该架构分享每个金字塔层之间的参数进行光学流量估计。在所提出的流程估计中,通过追踪具有最大相关性的位置来递归地改进光学流。基于前扭曲的相关匹配可以通过排除遮挡区域周围的错误扭曲特征来提高流量更新的准确性。基于最终双向流动,使用翘曲和混合网络合成任意时间位置的中间帧,通过细化网络进一步改善。实验结果表明,所提出的方案在4K视频数据和低分辨率基准数据集中占据了之前的工作,以及具有最小型号参数的客观和主观质量。
translated by 谷歌翻译
视频帧插值(VFI)目前是一个非常活跃的研究主题,具有跨越计算机视觉,后期生产和视频编码的应用程序。 VFI可能非常具有挑战性,特别是在含有大型运动,闭塞或动态纹理的序列中,现有方法未能提供感知鲁棒的插值性能。在这种情况下,我们基于时空多流量架构介绍了一种基于深度学习的VFI方法ST-MFNET。 ST-MFNET采用新的多尺度多流量预测器来估计多对一的中间流动,它们与传统的一对一光流组合以捕获大型和复杂的运动。为了增强各种纹理的插值性能,还用于在扩展时间窗口上模拟内容动态的3D CNN。此外,ST-MFNET已经在ST-GaN框架内培训,该框架最初是为纹理合成而开发的,目的是进一步提高感知插值质量。我们的方法已被全面评估 - 与十四个最先进的VFI算法相比 - 清楚地展示了ST-MFNET在各种和代表性测试数据集上始终如一地优于这些基准,在PSNR中具有显着的收益,用于案件在PSNR中高达1.09dB包括大型运动和动态纹理。项目页面:https://danielism97.github.io/st-mfnet。
translated by 谷歌翻译
我们提出了一种用于视频帧插值(VFI)的实时中流估计算法。许多最近的基于流的VFI方法首先估计双向光学流,然后缩放并将它们倒转到近似中间流动,导致运动边界上的伪像。RIFE使用名为IFNET的神经网络,可以直接估计中间流量从粗细流,速度更好。我们设计了一种用于训练中间流动模型的特权蒸馏方案,这导致了大的性能改善。Rife不依赖于预先训练的光流模型,可以支持任意时间的帧插值。实验表明,普里埃雷在若干公共基准上实现了最先进的表现。\ url {https://github.com/hzwer/arxiv2020-rife}。
translated by 谷歌翻译
视频通常将流和连续的视觉数据记录为离散的连续帧。由于存储成本对于高保真度的视频来说是昂贵的,因此大多数存储以相对较低的分辨率和帧速率存储。最新的时空视频超分辨率(STVSR)的工作是开发出来的,以将时间插值和空间超分辨率纳入统一框架。但是,其中大多数仅支持固定的上采样量表,这限制了其灵活性和应用。在这项工作中,我们没有遵循离散表示,我们提出了视频隐式神经表示(videoinr),并显示了其对STVSR的应用。学到的隐式神经表示可以解码为任意空间分辨率和帧速率的视频。我们表明,Videoinr在常见的上采样量表上使用最先进的STVSR方法实现了竞争性能,并且在连续和训练的分布量表上显着优于先前的作品。我们的项目页面位于http://zeyuan-chen.com/videoinr/。
translated by 谷歌翻译
由于大气湍流的扭曲而恢复图像是一个长期存在的问题,这是由于变形的空间变化,图像形成过程的非线性以及训练和测试数据的稀缺性。现有方法通常在失真模型上具有强大的统计假设,在许多情况下,由于没有概括,因此在现实世界中的性能有限。为了克服挑战,本文提出了一种端到端物理驱动的方法,该方法有效,可以推广到现实世界的湍流。在数据合成方面,我们通过通过宽sense式的平稳性近似随机场来显着增加SOTA湍流模拟器可以处理的图像分辨率。新的数据合成过程使大规模的多级湍流和训练的地面真相对产生。在网络设计方面,我们提出了湍流缓解变压器(TMT),这是一个两级U-NET形状的多帧恢复网络,该网络具有Noval有效的自发机制,称为暂时通道关节关注(TCJA)。我们还引入了一种新的培训方案,该方案由新的模拟器启用,并设计新的变压器单元以减少内存消耗。在静态场景和动态场景上的实验结果是有希望的,包括各种真实的湍流场景。
translated by 谷歌翻译
Video restoration tasks, including super-resolution, deblurring, etc, are drawing increasing attention in the computer vision community. A challenging benchmark named REDS is released in the NTIRE19 Challenge. This new benchmark challenges existing methods from two aspects:(1) how to align multiple frames given large motions, and (2) how to effectively fuse different frames with diverse motion and blur. In this work, we propose a novel Video Restoration framework with Enhanced Deformable convolutions, termed EDVR, to address these challenges. First, to handle large motions, we devise a Pyramid, Cascading and Deformable (PCD) alignment module, in which frame alignment is done at the feature level using deformable convolutions in a coarse-to-fine manner. Second, we propose a Temporal and Spatial Attention (TSA) fusion module, in which attention is applied both temporally and spatially, so as to emphasize important features for subsequent restoration. Thanks to these modules, our EDVR wins the champions and outperforms the second place by a large margin in all four tracks in the NTIRE19 video restoration and enhancement challenges. EDVR also demonstrates superior performance to state-of-the-art published methods on video super-resolution and deblurring. The code is available at https://github.com/xinntao/EDVR.
translated by 谷歌翻译
我们为基于运动的视频框架插值提供了一种新颖的简单而有效的算法。现有的基于运动的插值方法通常依赖于预先训练的光流模型或基于U-NET的金字塔网络进行运动估计,该运动估计要么具有较大的模型大小或有限的处理复合物和大型运动案例的容量。在这项工作中,通过仔细整合了中间方向的前射击,轻质特征编码器和相关量为金字塔复发框架,我们得出一个紧凑的模型,以同时估计输入帧之间的双向运动。它的尺寸比PWC-NET小15倍,但可以更可靠,更灵活地处理具有挑战性的运动案例。基于估计的双向运动,我们向前射击输入帧及其上下文特征到中间帧,并采用合成网络来估算扭曲表示的中间帧。我们的方法在广泛的视频框架插值基准测试中实现了出色的性能。代码将很快可用。
translated by 谷歌翻译
视频修复(例如,视频超分辨率)旨在从低品质框架中恢复高质量的帧。与单图像恢复不同,视频修复通常需要从多个相邻但通常未对准视频帧的时间信息。现有的深度方法通常通过利用滑动窗口策略或经常性体系结构来解决此问题,该策略要么受逐帧恢复的限制,要么缺乏远程建模能力。在本文中,我们提出了一个带有平行框架预测和远程时间依赖性建模能力的视频恢复变压器(VRT)。更具体地说,VRT由多个量表组成,每个量表由两种模块组成:时间相互注意(TMSA)和平行翘曲。 TMSA将视频分为小剪辑,将相互关注用于关节运动估计,特征对齐和特征融合,而自我注意力则用于特征提取。为了启用交叉交互,视频序列对其他每一层都发生了变化。此外,通过并行功能翘曲,并行翘曲用于进一步从相邻帧中融合信息。有关五项任务的实验结果,包括视频超分辨率,视频脱张,视频denoising,视频框架插值和时空视频超级分辨率,证明VRT优于大幅度的最先进方法($ \ textbf) {最高2.16db} $)在十四个基准数据集上。
translated by 谷歌翻译
Flow-guide synthesis provides a common framework for frame interpolation, where optical flow is typically estimated by a pyramid network, and then leveraged to guide a synthesis network to generate intermediate frames between input frames. In this paper, we present UPR-Net, a novel Unified Pyramid Recurrent Network for frame interpolation. Cast in a flexible pyramid framework, UPR-Net exploits lightweight recurrent modules for both bi-directional flow estimation and intermediate frame synthesis. At each pyramid level, it leverages estimated bi-directional flow to generate forward-warped representations for frame synthesis; across pyramid levels, it enables iterative refinement for both optical flow and intermediate frame. In particular, we show that our iterative synthesis can significantly improve the robustness of frame interpolation on large motion cases. Despite being extremely lightweight (1.7M parameters), UPR-Net achieves excellent performance on a large range of benchmarks. Code will be available soon.
translated by 谷歌翻译
我们提出了Tain(视频插值的变压器和注意力),这是一个用于视频插值的残留神经网络,旨在插入中间框架,并在其周围连续两个图像框架下进行插值。我们首先提出一个新型的视觉变压器模块,称为交叉相似性(CS),以与预测插值框架相似的外观相似的外观。然后,这些CS特征用于完善插值预测。为了说明CS功能中的遮挡,我们提出了一个图像注意(IA)模块,以使网络可以从另一个框架上关注CS功能。此外,我们还使用封闭式贴片来增强培训数据集,该补丁可以跨帧移动,以改善网络对遮挡和大型运动的稳健性。由于现有方法产生平滑的预测,尤其是在MB附近,因此我们根据图像梯度使用额外的训练损失来产生更清晰的预测。胜过不需要流量估计并与基于流程的方法相当执行的现有方法,同时在VIMEO90K,UCF101和SNU-FILM基准的推理时间上具有计算有效的效率。
translated by 谷歌翻译
高速,高分辨率的立体视频(H2-STEREO)视频使我们能够在细粒度上感知动态3D内容。然而,对商品摄像机的收购H2-STEREO视频仍然具有挑战性。现有的空间超分辨率或时间框架插值方法分别提供了缺乏时间或空间细节的折衷解决方案。为了减轻这个问题,我们提出了一个双摄像头系统,其中一台相机捕获具有丰富空间细节的高空间分辨率低框架速率(HSR-LFR)视频,而另一个摄像头则捕获了低空间分辨率的高架框架-Rate(LSR-HFR)视频带有光滑的时间细节。然后,我们设计了一个学习的信息融合网络(LIFNET),该网络利用跨摄像机冗余,以增强两种相机视图,从而有效地重建H2-STEREO视频。即使在大型差异场景中,我们也利用一个差异网络将时空信息传输到视图上,基于该视图,我们建议使用差异引导的LSR-HFR视图基于差异引导的流量扭曲,并针对HSR-LFR视图进行互补的扭曲。提出了特征域中的多尺度融合方法,以最大程度地减少HSR-LFR视图中闭塞引起的翘曲幽灵和孔。 LIFNET使用YouTube收集的高质量立体视频数据集以端到端的方式进行训练。广泛的实验表明,对于合成数据和摄像头捕获的真实数据,我们的模型均优于现有的最新方法。消融研究探讨了各个方面,包括时空分辨率,摄像头基线,摄像头解理,长/短曝光和应用程序,以充分了解其对潜在应用的能力。
translated by 谷歌翻译
视频框架插值是一项经典且具有挑战性的低级计算机视觉任务。最近,基于深度学习的方法取得了令人印象深刻的结果,并且已证明基于光流的方法可以合成具有更高质量的帧。但是,大多数基于流动的方法都假设两个输入帧之间具有恒定速度的线轨迹。只有一点点工作可以使用曲线轨迹执行预测,但这需要两个以上的框架作为输入来估计加速度,这需要更多的时间和内存才能执行。为了解决这个问题,我们提出了一个基于ARC轨迹的模型(ATCA),该模型仅从连续两个帧中就可以在前学习运动,而且轻量级。实验表明,我们的方法的性能要比许多参数较少且推理速度更快的SOTA方法更好。
translated by 谷歌翻译