本文的目的是一个模型,能够在视频中发现,跟踪和细分多个移动对象。我们做出四个贡献:首先,我们引入了一个以对象为中心的分段模型,具有深度订购的层表示。这是使用摄入光流的变压器体系结构的变体来实现的,每个查询向量为整个视频指定对象及其层。该模型可以有效地发现多个移动对象并处理相互阻塞。其次,我们引入了一条可扩展的管道,用于生成具有多个对象的合成训练数据,从而大大降低了对劳动密集型注释的要求,并支持SIM2REAL概括;第三,我们表明该模型能够学习对象的持久性和时间形状的一致性,并能够预测Amodal分割掩码。第四,我们评估了标准视频细分基准测试模型,戴维斯,MOCA,SEGTRACK,FBMS-59,并实现最新的无监督分割性能,甚至优于几种监督方法。通过测试时间适应,我们观察到进一步的性能提高。
translated by 谷歌翻译
以对象为中心的表示是通过提供柔性抽象可以在可以建立的灵活性抽象来实现更系统的推广的有希望的途径。最近的简单2D和3D数据集的工作表明,具有对象的归纳偏差的模型可以学习段,并代表单独的数据的统计结构中的有意义对象,而无需任何监督。然而,尽管使用越来越复杂的感应偏差(例如,用于场景的尺寸或3D几何形状),但这种完全无监督的方法仍然无法扩展到不同的现实数据。在本文中,我们采取了弱监督的方法,并专注于如何使用光流的形式的视频数据的时间动态,2)调节在简单的对象位置上的模型可以用于启用分段和跟踪对象在明显更现实的合成数据中。我们介绍了一个顺序扩展,以便引入我们训练的推出,我们训练用于预测现实看的合成场景的光流,并显示调节该模型的初始状态在一小组提示,例如第一帧中的物体的质量中心,是足以显着改善实例分割。这些福利超出了新型对象,新颖背景和更长的视频序列的培训分配。我们还发现,在推论期间可以使用这种初始状态调节作为对特定物体或物体部分的型号查询模型,这可能会为一系列弱监管方法铺平,并允许更有效的互动训练有素的型号。
translated by 谷歌翻译
视觉世界可以以稀疏相互作用的不同实体来嘲笑。在动态视觉场景中发现这种组合结构已被证明对端到端的计算机视觉方法有挑战,除非提供明确的实例级别的监督。利用运动提示的基于老虎机的模型最近在学习代表,细分和跟踪对象的情况下没有直接监督显示了巨大的希望,但是它们仍然无法扩展到复杂的现实世界多对象视频。为了弥合这一差距,我们从人类发展中汲取灵感,并假设以深度信号形式的场景几何形状的信息可以促进以对象为中心的学习。我们介绍了一种以对象为中心的视频模型SAVI ++,该模型经过训练,可以预测基于插槽的视频表示的深度信号。通过进一步利用模型缩放的最佳实践,我们能够训练SAVI ++以细分使用移动摄像机记录的复杂动态场景,其中包含在自然主义背景上具有不同外观的静态和移动对象,而无需进行分割监督。最后,我们证明,通过使用从LIDAR获得的稀疏深度信号,Savi ++能够从真实World Waymo Open DataSet中的视频中学习新兴对象细分和跟踪。
translated by 谷歌翻译
人类可以轻松地在不知道它们的情况下段移动移动物体。从持续的视觉观测中可能出现这种对象,激励我们与未标记的视频同时进行建模和移动。我们的前提是视频具有通过移动组件相关的相同场景的不同视图,并且右区域分割和区域流程将允许相互视图合成,其可以从数据本身检查,而无需任何外部监督。我们的模型以两个单独的路径开头:一种外观途径,其输出单个图像的基于特征的区域分割,以及输出一对图像的运动功能的运动路径。然后,它将它们绑定在称为段流的联合表示中,该分段流汇集在每个区域上的流程偏移,并提供整个场景的移动区域的总表征。通过培训模型,以最小化基于段流的视图综合误差,我们的外观和运动路径自动学习区域分割和流量估计,而不分别从低级边缘或光学流量构建它们。我们的模型展示了外观途径中对象的令人惊讶的出现,超越了从图像的零射对对象分割上的工作,从带有无监督的测试时间适应的视频移动对象分割,并通过监督微调,通过监督微调。我们的工作是来自视频的第一个真正的零点零点对象分段。它不仅开发了分割和跟踪的通用对象,而且还优于无增强工程的基于普遍的图像对比学习方法。
translated by 谷歌翻译
现有的基于深度学习的无监督视频对象分割方法仍依靠地面真实的细分面具来训练。在这种情况下令人未知的意味着在推理期间没有使用注释帧。由于获得真实图像场景的地面真实的细分掩码是一种艰苦的任务,我们想到了一个简单的框架,即占主导地位的移动对象分割,既不需要注释数据训练,也不依赖于显着的电视或预先训练的光流程图。灵感来自分层图像表示,我们根据仿射参数运动引入对像素区域进行分组的技术。这使我们的网络能够仅使用RGB图像对为培训和推理的输入来学习主要前景对象的分割。我们使用新的MOVERCARS DataSet为这项新颖任务建立了基线,并对最近的方法表现出竞争性能,这些方法需要培训带有注释面具的最新方法。
translated by 谷歌翻译
视频分割,即将视频帧分组到多个段或对象中,在广泛的实际应用中扮演关键作用,例如电影中的视觉效果辅助,自主驾驶中的现场理解,以及视频会议中的虚拟背景创建,名称一些。最近,由于计算机愿景中的联系复兴,一直存在众多深度学习的方法,这一直专用于视频分割并提供引人注目的性能。在这项调查中,通过引入各自的任务设置,背景概念,感知需要,开发历史,以及开发历史,综合审查这一领域的两种基本研究,即在视频和视频语义分割中,即视频和视频语义分割中的通用对象分段(未知类别)。主要挑战。我们还提供关于两种方法和数据集的代表文学的详细概述。此外,我们在基准数据集中呈现了审查方法的定量性能比较。最后,我们指出了这一领域的一套未解决的开放问题,并提出了进一步研究的可能机会。
translated by 谷歌翻译
We present IMAS, a method that segments the primary objects in videos without manual annotation in training or inference. Previous methods in unsupervised video object segmentation (UVOS) have demonstrated the effectiveness of motion as either input or supervision for segmentation. However, motion signals may be uninformative or even misleading in cases such as deformable objects and objects with reflections, causing unsatisfactory segmentation. In contrast, IMAS achieves Improved UVOS with Motion-Appearance Synergy. Our method has two training stages: 1) a motion-supervised object discovery stage that deals with motion-appearance conflicts through a learnable residual pathway; 2) a refinement stage with both low- and high-level appearance supervision to correct model misconceptions learned from misleading motion cues. Additionally, we propose motion-semantic alignment as a model-agnostic annotation-free hyperparam tuning method. We demonstrate its effectiveness in tuning critical hyperparams previously tuned with human annotation or hand-crafted hyperparam-specific metrics. IMAS greatly improves the segmentation quality on several common UVOS benchmarks. For example, we surpass previous methods by 8.3% on DAVIS16 benchmark with only standard ResNet and convolutional heads. We intend to release our code for future research and applications.
translated by 谷歌翻译
视频对象细分(VOS)是视频理解的基础。基于变压器的方法在半监督VOS上显示出显着的性能改善。但是,现有的工作面临着挑战在彼此近距离接近视觉上类似对象的挑战。在本文中,我们提出了一种新型的双边注意力变压器,以进行半监督VO的运动出现空间(蝙蝠侠)。它通过新型的光流校准模块在视频中捕获对象运动,该模块将分割面膜与光流估计融合在一起,以改善对象内光流平滑度并减少物体边界处的噪声。然后在我们的新型双边注意力中采用了这种校准的光流,该流动流在相邻双边空间中的查询和参考帧之间的对应关系考虑,考虑到运动和外观。广泛的实验通过在所有四个流行的VOS基准上胜过所有现有最新的实验:YouTube-VOS 2019(85.0%),YouTube-VOS 2018(85.3%),Davis 2017VAL/TESTDEV(86.2.2 %/82.2%)和戴维斯(Davis)2016(92.5%)。
translated by 谷歌翻译
基于文本的视频细分旨在通过用文本查询指定演员及其表演动作来细分视频序列中的演员。由于\ emph {emph {语义不对称}的问题,以前的方法无法根据演员及其动作以细粒度的方式将视频内容与文本查询对齐。 \ emph {语义不对称}意味着在多模式融合过程中包含不同量的语义信息。为了减轻这个问题,我们提出了一个新颖的演员和动作模块化网络,该网络将演员及其动作分别定位在两个单独的模块中。具体来说,我们首先从视频和文本查询中学习与参与者相关的内容,然后以对称方式匹配它们以定位目标管。目标管包含所需的参与者和动作,然后将其送入完全卷积的网络,以预测演员的分割掩模。我们的方法还建立了对象的关联,使其与所提出的时间建议聚合机制交叉多个框架。这使我们的方法能够有效地细分视频并保持预测的时间一致性。整个模型允许联合学习参与者的匹配和细分,并在A2D句子和J-HMDB句子数据集上实现单帧细分和完整视频细分的最新性能。
translated by 谷歌翻译
光流是一种易于构思和珍贵的提示,用于推进无监督的视频对象细分(UVOS)。以前的大多数方法直接提取并融合了在UVOS设置中分割目标对象的运动和外观特征。但是,光流本质上是连续帧之间所有像素的瞬时速度,因此使运动特征与相应帧之间的主要对象不太对齐。为了解决上述挑战,我们为外观和运动特征对齐方式提出了一个简洁,实用和有效的体系结构,称为层次特征对齐网络(HFAN)。具体而言,HFAN中的关键优点是顺序特征对齐(FAM)模块和特征适应(FAT)模块,这些模块被利用用于处理外观和运动特征。 FAM能够分别将外观和运动特征与主要对象语义表示分别对齐。此外,脂肪是针对外观和运动特征的自适应融合而显式设计的,以实现跨模式特征之间的理想权衡。广泛的实验证明了拟议的HFAN的有效性,该实验在Davis-16上达到了新的最新性能,达到88.7 $ \ MATHCAL {J} \&\ MATHCAL {F} $,即相对改进,即相对改进比最佳发布结果比3.5%。
translated by 谷歌翻译
The appearance of an object can be fleeting when it transforms. As eggs are broken or paper is torn, their color, shape and texture can change dramatically, preserving virtually nothing of the original except for the identity itself. Yet, this important phenomenon is largely absent from existing video object segmentation (VOS) benchmarks. In this work, we close the gap by collecting a new dataset for Video Object Segmentation under Transformations (VOST). It consists of more than 700 high-resolution videos, captured in diverse environments, which are 20 seconds long on average and densely labeled with instance masks. A careful, multi-step approach is adopted to ensure that these videos focus on complex object transformations, capturing their full temporal extent. We then extensively evaluate state-of-the-art VOS methods and make a number of important discoveries. In particular, we show that existing methods struggle when applied to this novel task and that their main limitation lies in over-reliance on static appearance cues. This motivates us to propose a few modifications for the top-performing baseline that improve its capabilities by better modeling spatio-temporal information. But more broadly, the hope is to stimulate discussion on learning more robust video object representations.
translated by 谷歌翻译
We propose a novel solution for semi-supervised video object segmentation. By the nature of the problem, available cues (e.g. video frame(s) with object masks) become richer with the intermediate predictions. However, the existing methods are unable to fully exploit this rich source of information. We resolve the issue by leveraging memory networks and learn to read relevant information from all available sources. In our framework, the past frames with object masks form an external memory, and the current frame as the query is segmented using the mask information in the memory. Specifically, the query and the memory are densely matched in the feature space, covering all the space-time pixel locations in a feed-forward fashion. Contrast to the previous approaches, the abundant use of the guidance information allows us to better handle the challenges such as appearance changes and occlussions. We validate our method on the latest benchmark sets and achieved the state-of-the-art performance (overall score of 79.4 on Youtube-VOS val set,
translated by 谷歌翻译
我们为视频中的无监督对象细分提出了一种简单而强大的方法。我们引入了一个目标函数,其最小值代表输入序列上主要显着对象的掩码。它仅依赖于独立的图像特征和光流,可以使用现成的自我监督方法获得。它以序列的长度缩放,不需要超级像素或稀疏,并且在没有任何特定培训的情况下将其推广到不同的数据集。该目标函数实际上可以从应用于整个视频的光谱群集形式得出。我们的方法通过标准基准(Davis2016,segtrack-v2,fbms59)实现了PAR的性能,同时在概念上且实际上更简单。代码可从https://ponimatkin.github.io/ssl-vos获得。
translated by 谷歌翻译
半监督视频对象分割(VOS)的任务已经大大提升,最先进的性能是通过密集的基于匹配的方法进行的。最近的方法利用时空存储器(STM)网络并学习从所有可用源检索相关信息,其中使用对象掩模的过去帧形成外部存储器,并且使用存储器中的掩码信息分段为查询作为查询的当前帧进行分割。然而,当形成存储器并执行匹配时,这些方法仅在忽略运动信息的同时利用外观信息。在本文中,我们倡导\ emph {motion信息}的返回,并提出了一个用于半监督VOS的运动不确定性感知框架(MUMET)。首先,我们提出了一种隐含的方法来学习相邻帧之间的空间对应,构建相关成本卷。在构建密集的对应期间处理遮挡和纹理区域的挑战性案例,我们将不确定性纳入密集匹配并实现运动不确定性感知特征表示。其次,我们介绍了运动感知的空间注意模块,以有效地融合了语义特征的运动功能。关于具有挑战性的基准的综合实验表明,\ TextBF {\ Textit {使用少量数据并将其与强大的动作信息组合可以带来显着的性能Boost}}。我们只使用Davis17达到$ \ Mathcal {} $培训{76.5 \%} $ \ mathcal {f} $培训,这显着优于低数据协议下的\ texit {sota}方法。 \ textit {代码将被释放。}
translated by 谷歌翻译
无监督的视频对象分割(VOS)旨在在像素级别的视频序列中检测最显着的对象。在无监督的VO中,大多数最先进的方法除了外观提示外,还利用从光流图获得的运动提示来利用与背景相比,显着物体通常具有独特运动的属性。但是,由于它们过于依赖运动提示,在某些情况下可能是不可靠的,因此它们无法实现稳定的预测。为了减少现有两流VOS方法的这种运动依赖性,我们提出了一个新型的运动 - 选项网络,该网络可选地利用运动提示。此外,为了充分利用并非总是需要运动网络的属性,我们引入了协作网络学习策略。在所有公共基准数据集中,我们提出的网络以实时推理速度提供最先进的性能。
translated by 谷歌翻译
半监控视频对象分段(VOS)旨在在视频序列中分段一些移动对象,其中通过注释第一帧来指定这些对象。已经考虑了许多现有的半监督VOS方法以提高分割精度的光学流程。然而,由于光学流量估计的高复杂性,光流基的半监控VOS方法不能实时运行。在该研究中提出了由特征提取网络(F),外观网络(A),运动网络(A)和集成网络(I)组成的FAMINET,以解决上述问题。外观网络基于对象的静态外观输出初始分割结果。运动网络通过很少的参数估计光学流量,这些参数通过在线记忆算法快速优化,该算法被称为松弛最陡血迹。集成网络使用光流来改进初始分割结果。广泛的实验表明,FAMINET在DAVIS和YOUTUBE-VOS基准上表现出其他最先进的半监督VOS方法,并且它在准确性和效率之间实现了良好的权衡。我们的代码可在https://github.com/liuziyang123/faminet获得。
translated by 谷歌翻译
在本文中,我们描述了一种基于图的算法,该算法使用自我监管的变压器获得的功能来检测图像和视频中的显着对象。使用这种方法,将构成图像或视频的图像贴片组织成一个完全连接的图,其中每对贴片之间的边缘使用变压器学到的功能在补丁之间标记为相似性得分。然后将显着物体的检测和分割作为图形问题配制,并使用经典的归一化切割算法解决。尽管这种方法很简单,但它仍可以在几个常见的图像和视频检测和分割任务上实现最新结果。对于无监督的对象发现,当使用VOC07,VOC12和COCO20K数据集进行测试时,这种方法的优于竞争方法的差距分别为6.1%,5.7%和2.6%。对于图像中无监督的显着性检测任务,此方法将联合(IOU)的交叉分数提高了4.4%,5.6%和5.2%。与当前最新技术相比,与ECSD,DUTS和DUT-OMRON数据集进行测试时。该方法还通过戴维斯,SEGTV2和FBMS数据集为无监督的视频对象分割任务实现了竞争结果。
translated by 谷歌翻译
在本文中,我们介绍了Siammask,这是一个实时使用相同简单方法实时执行视觉对象跟踪和视频对象分割的框架。我们通过通过二进制细分任务来增强其损失,从而改善了流行的全面暹罗方法的离线培训程序。离线训练完成后,SiamMask只需要一个单个边界框来初始化,并且可以同时在高框架速率下进行视觉对象跟踪和分割。此外,我们表明可以通过简单地以级联的方式重新使用多任务模型来扩展框架以处理多个对象跟踪和细分。实验结果表明,我们的方法具有较高的处理效率,每秒约55帧。它可以在视觉对象跟踪基准测试中产生实时最新结果,同时以高速进行视频对象分割基准测试以高速显示竞争性能。
translated by 谷歌翻译
分割高度重叠的图像对象是具有挑战性的,因为图像上的真实对象轮廓和遮挡边界之间通常没有区别。与先前的实例分割方法不同,我们将图像形成模拟为两个重叠层的组成,并提出了双层卷积网络(BCNET),其中顶层检测到遮挡对象(遮挡器),而底层则渗透到部分闭塞实例(胶囊)。遮挡关系与双层结构的显式建模自然地将遮挡和遮挡实例的边界解散,并在掩模回归过程中考虑了它们之间的相互作用。我们使用两种流行的卷积网络设计(即完全卷积网络(FCN)和图形卷积网络(GCN))研究了双层结构的功效。此外,我们通过将图像中的实例表示为单独的可学习封闭器和封闭者查询,从而使用视觉变压器(VIT)制定双层解耦。使用一个/两个阶段和基于查询的对象探测器具有各种骨架和网络层选择验证双层解耦合的概括能力,如图像实例分段基准(可可,亲戚,可可)和视频所示实例分割基准(YTVIS,OVIS,BDD100K MOTS),特别是对于重闭塞病例。代码和数据可在https://github.com/lkeab/bcnet上找到。
translated by 谷歌翻译
在这项工作中,我们呈现SEQFormer,这是一个令人沮丧的视频实例分段模型。 SEQFormer遵循Vision变换器的原理,该方法模型视频帧之间的实例关系。然而,我们观察到一个独立的实例查询足以捕获视频中的时间序列,但应该独立地使用每个帧进行注意力机制。为此,SEQFormer在每个帧中定位一个实例,并聚合时间信息以学习视频级实例的强大表示,其用于动态地预测每个帧上的掩模序列。实例跟踪自然地实现而不进行跟踪分支或后处理。在YouTube-VIS数据集上,SEQFormer使用Reset-50个骨干和49.0 AP实现47.4个AP,其中Reset-101骨干,没有响铃和吹口哨。此类成果分别显着超过了以前的最先进的性能4.6和4.4。此外,与最近提出的Swin变压器集成,SEQFormer可以实现59.3的高得多。我们希望SEQFormer可能是一个强大的基线,促进了视频实例分段中的未来研究,同时使用更强大,准确,整洁的模型来实现该字段。代码和预先训练的型号在https://github.com/wjf5203/seqformer上公开使用。
translated by 谷歌翻译