我们介绍一个新颖的成本聚合网络,用变压器(VAT)被复制体积聚集,通过使用卷曲和变压器来解决几次拍摄分段任务,以有效地处理查询和支持之间的高维相关映射。具体而言,我们提出了由卷嵌入模块组成的编码器,不仅将相关性图转换为更具易易概要,而且为成本聚合注入一些卷积电感偏置和体积变压器模块。我们的编码器具有金字塔形结构,让较粗糙的级别聚合来指导更精细的水平并强制执行互补匹配分数。然后,我们将输出送入我们的亲和感知解码器以及投影特征映射,以指导分割过程。组合这些组件,我们进行实验以证明所提出的方法的有效性,我们的方法为几次拍摄分割任务中的所有标准基准设置了新的最先进的。此外,我们发现所提出的方法甚至可以在语义对应任务中的标准基准中获得最先进的性能,尽管没有专门为此任务设计。我们还提供广泛的消融研究,以验证我们的建筑选择。培训的权重和代码可用于:https://seokju-cho.github.io/vat/。
translated by 谷歌翻译
本文介绍了一个新颖的成本聚合网络,称为变压器(VAT),称为体积聚集,以进行几次分割。变压器的使用可以通过在全球接收场上的自我注意来使相关图的聚集受益。但是,变压器处理的相关图的令牌化可能是有害的,因为令牌边界处的不连续性会降低令牌边缘附近可用的局部环境,并减少电感偏差。为了解决这个问题,我们提出了一个4D卷积的SWIN变压器,在该问题上,高维的SWIN变压器之前是一系列的小内核卷积,这些卷积将局部环境赋予所有像素并引入卷积归纳偏置。另外,我们通过在锥体结构中应用变压器来提高聚合性能,在锥体结构中,在更粗糙的水平上的聚集指导聚集在较好的水平上。然后,在查询的外观嵌入中,在随后的解码器中过滤变压器输出中的噪声。使用此模型,为所有标准基准设置了一个新的最新基准,以几次射击分段设置。结果表明,增值税还达到了语义通信的最先进的性能,而成本汇总也起着核心作用。
translated by 谷歌翻译
我们提出了一种新的成本聚合网络,称为成本聚合变压器(CAT),在语义类似的图像之间找到密集的对应关系,其中具有大型类内外观和几何变化构成的额外挑战。成本聚合是匹配任务的一个非常重要的过程,匹配精度取决于其输出的质量。与寻址成本聚集的手工制作或基于CNN的方法相比,缺乏严重变形的鲁棒性或继承了由于接受领域有限而无法区分错误匹配的CNN的限制,猫探讨了初始相关图之间的全球共识一些建筑设计的帮助,使我们能够充分利用自我关注机制。具体地,我们包括外观亲和力建模,以帮助成本聚合过程,以消除嘈杂的初始相关映射并提出多级聚合,以有效地从分层特征表示中捕获不同的语义。然后,我们与交换自我关注技术和残留连接相结合,不仅要强制执行一致的匹配,而且还可以缓解学习过程,我们发现这些结果导致了表观性能提升。我们进行实验,以证明拟议模型在最新方法中的有效性,并提供广泛的消融研究。代码和培训的型号可以在https://github.com/sunghwanhong/cats提供。
translated by 谷歌翻译
具有很少带注释的样本的训练语义分割模型在各种现实世界中具有巨大的潜力。对于少数拍摄的分段任务,主要的挑战是如何准确地测量使用有限的培训数据之间的支持样本和查询样品之间的语义对应关系。为了解决这个问题,我们建议用可变形的4D变压器汇总可学习的协方差矩阵,以有效预测分割图。具体而言,在这项工作中,我们首先设计了一种新颖的艰难示例挖掘机制,以学习高斯过程的协方差内核。在对应测量中,学到的协方差内核函数比现有基于余弦相似性的方法具有很大的优势。基于学到的协方差内核,设计有效的双重变形4D变压器模块旨在适应骨料特征相似性图中的分割结果。通过组合这两种设计,提出的方法不仅可以在公共基准测试上设置新的最新性能,而且比现有方法更快地收敛。三个公共数据集的实验证明了我们方法的有效性。
translated by 谷歌翻译
我们提出了一个新颖的建筑,以实现密集的对应关系。当前的最新方法是基于变压器的方法,它们专注于功能描述符或成本量集合。但是,尽管关节聚集会通过提供一个人(即图像的结构或语义信息)或像素匹配的相似性来提高一个或另一个,但并非两者都聚集,但并非两者都汇总,尽管关节聚集会相互促进。在这项工作中,我们提出了一个基于变压器的新型网络,该网络以利用其互补信息的方式交织了两种形式的聚合。具体而言,我们设计了一个自我发项层,该层利用描述符来消除嘈杂的成本量,并且还利用成本量以促进准确匹配的方式汇总特征。随后的跨意思层执行进一步的聚合,该聚集在图像的描述上,并由早期层的聚合输出有助于。我们通过层次处理进一步提高了性能,在该处理中,更粗糙的聚合指导那些处于优质水平的过程。我们评估了所提出的方法对密集匹配任务的有效性,并在所有主要基准上实现最先进的性能。还提供了广泛的消融研究来验证我们的设计选择。
translated by 谷歌翻译
对少量语义分割(FSS)的研究引起了极大的关注,目的是在查询图像中仅给出目标类别的少数注释的支持图像。这项具有挑战性的任务的关键是通过利用查询和支持图像之间的细粒度相关性来充分利用支持图像中的信息。但是,大多数现有方法要么将支持信息压缩为几个班级原型,要么在像素级别上使用的部分支持信息(例如,唯一的前景),从而导致不可忽略的信息损失。在本文中,我们提出了密集的像素,互源和支持的注意力加权面膜聚合(DCAMA),其中前景和背景支持信息都是通过配对查询和支持特征之间的多级像素的相关性通过多级像素的相关性充分利用的。 DCAMA在变压器体系结构中以缩放点产生的关注实现,将每个查询像素视为令牌,计算其与所有支持像素的相似之处,并预测其分割标签是所有支持像素标签的添加剂聚集 - 相似之处。基于DCAMA的唯一公式,我们进一步提出了对N-shot分割的有效有效的一通推断,其中所有支持图像的像素立即为掩模聚集收集。实验表明,我们的DCAMA在Pascal-5i,Coco-20i和FSS-1000的标准FSS基准上显着提高了最先进的状态以前的最佳记录。烧烤研究还验证了设计dcama。
translated by 谷歌翻译
很少有分割的目的是仅给出少数标记的样品,旨在细分看不见的级对象。原型学习,支持功能通过平均全局和局部对象信息产生单个原型,在FSS中已广泛使用。但是,仅利用原型矢量可能不足以代表所有训练数据的功能。为了提取丰富的特征并做出更精确的预测,我们提出了一个多相似性和注意力网络(MSANET),包括两个新型模块,一个多相似性模块和一个注意模块。多相似模块利用支持图像和查询图像的多个特征图来估计准确的语义关系。注意模块指示网络专注于相关的信息。该网络在标准FSS数据集,Pascal-5i 1-Shot,Pascal-5i 5-Shot,Coco-20i 1-Shot和Coco-20i 5-Shot上进行了测试。具有RESNET-101骨架的MSANET可在所有4基准测试数据集中达到最先进的性能,而平均交叉点(MIOU)为69.13%,73.99%,51.09%,56.80%。代码可在https://github.com/aivresearch/msanet上获得
translated by 谷歌翻译
少量分割旨在培训一个分割模型,可以快速适应具有少量示例的新型课程。传统的训练范例是学习对从支持图像的特征上的查询图像进行预测。以前的方法仅利用支持图像的语义级原型作为条件信息。这些方法不能利用用于查询预测的所有像素 - WISE支持信息,这对于分割任务来说是至关重要的。在本文中,我们专注于利用支持和查询图像之间的像素方面的关系来促进几次拍摄分段任务。我们设计一种新颖的循环一致的变压器(Cyctr)模块,将像素天然气支持功能聚合到查询中。 Cyctr在来自不同图像的特征之间进行跨关注,即支持和查询图像。我们观察到可能存在意外的无关像素级支持特征。直接执行跨关注可以将这些功能从支持汇总到查询和偏置查询功能。因此,我们建议使用新的循环一致的注意机制来滤除可能的有害支持特征,并鼓励查询功能从支持图像上参加最富有信息的像素。所有几次分割基准测试的实验表明,与以前的最先进的方法相比,我们所提出的Cyctr导致显着的改进。具体而言,在Pascal-$ 5 ^ i $和20 ^ i $ datasets上,我们达到了66.6%和45.6%的5次分割,优于以前的最先进方法分别为4.6%和7.1%。
translated by 谷歌翻译
Few-shot semantic segmentation aims to learn to segment new object classes with only a few annotated examples, which has a wide range of real-world applications. Most existing methods either focus on the restrictive setting of one-way few-shot segmentation or suffer from incomplete coverage of object regions. In this paper, we propose a novel few-shot semantic segmentation framework based on the prototype representation. Our key idea is to decompose the holistic class representation into a set of part-aware prototypes, capable of capturing diverse and fine-grained object features. In addition, we propose to leverage unlabeled data to enrich our part-aware prototypes, resulting in better modeling of intra-class variations of semantic objects. We develop a novel graph neural network model to generate and enhance the proposed part-aware prototypes based on labeled and unlabeled images. Extensive experimental evaluations on two benchmarks show that our method outperforms the prior art with a sizable margin.
translated by 谷歌翻译
几乎没有射击的细分是一项具有挑战性的密集预测任务,它需要分割新的查询图像,仅给出一个小注释的支持集。因此,关键问题是设计一种方法,该方法可以从支持集中汇总详细信息,同时对外观和上下文的巨大变化进行稳健。为此,我们提出了基于密集的高斯过程(GP)回归的几种分割方法。鉴于支持集,我们密集的GP了解了从局部深层图像特征到掩模值的映射,能够捕获复杂的外观分布。此外,它提供了一种捕获不确定性的原则方法,这是CNN解码器获得的最终分割的另一种强大提示。我们进一步利用了我们方法的端到端学习能力,以学习GP的高维输出空间。我们的方法在Pascal-5 $^i $和Coco-20 $^i $ Benchmarks上设定了新的最新技术,在Coco-20 $^i $中获得了绝对的$+8.4 $ MIOU的绝对增益5杆设置。此外,在增加支撑设置大小时,我们的方法的分割质量会优雅地缩放,同时实现强大的跨数据库转移。代码和训练有素的模型可在\ url {https://github.com/joakimjohnander/dgpnet}上获得。
translated by 谷歌翻译
在这项工作中,我们解决了艰巨的任务。几次射击语义细分至关重要,以充分利用支持信息。以前的方法通常采用蒙版的平均池在支持功能上,以将支持线索作为全球向量提取,通常由显着部分主导并失去了某些基本线索。在这项工作中,我们认为希望每个支持像素的信息都需要传输到所有查询像素,并提出一个具有最佳传输匹配模块的对应匹配网络(CMNET),以挖掘查询和支持图像之间的对应关系。此外,从注释的支持图像中充分利用本地和全局信息至关重要。为此,我们提出了一个消息流模块,以沿着同一图像内的内流传播消息,并在支持图像和查询图像之间进行交叉流,这极大地有助于增强本地特征表示。 Pascal VOC 2012,Coco女士和FSS-1000数据集的实验表明,我们的网络实现了新的最先进的少细分性能。
translated by 谷歌翻译
在图像变压器网络的编码器部分中的FineTuning佩带的骨干网一直是语义分段任务的传统方法。然而,这种方法揭示了图像在编码阶段提供的语义上下文。本文认为将图像的语义信息纳入预磨料的基于分层变换器的骨干,而FineTuning可显着提高性能。为实现这一目标,我们提出了一个简单且有效的框架,在语义关注操作的帮助下将语义信息包含在编码器中。此外,我们在训练期间使用轻量级语义解码器,为每个阶段提供监督对中间语义的先前地图。我们的实验表明,结合语义前导者增强了所建立的分层编码器的性能,随着絮凝物的数量略有增加。我们通过将Sromask集成到Swin-Cransformer的每个变体中提供了经验证明,因为我们的编码器与不同的解码器配对。我们的框架在CudeScapes数据集上实现了ADE20K数据集的新型58.22%的MIOU,并在Miou指标中提高了超过3%的内容。代码和检查点在https://github.com/picsart-ai-research/semask-egation上公开使用。
translated by 谷歌翻译
图像中的场景细分是视觉内容理解中的一个基本而又具有挑战性的问题,即学习一个模型,将每个图像像素分配给分类标签。这项学习任务的挑战之一是考虑空间和语义关系以获得描述性特征表示,因此从多个量表中学习特征图是场景细分中的一种常见实践。在本文中,我们探讨了在多尺度图像窗口中自我发挥的有效使用来学习描述性视觉特征,然后提出三种不同的策略来汇总这些特征图以解码特征表示形式以进行密集的预测。我们的设计基于最近提出的SWIN Transformer模型,该模型完全放弃了卷积操作。借助简单而有效的多尺度功能学习和聚合,我们的模型在四个公共场景细分数据集,Pascal VOC2012,Coco-STUFF 10K,ADE20K和CITYSCAPES上实现了非常有希望的性能。
translated by 谷歌翻译
在视觉上或在视觉上或语义上相似的图像中建立密集的技术的传统技术集中在设计特定的任务特定匹配之前,这难以模拟。为了克服这一点,最近的基于学习的方法已经试图在大型训练数据上学习模型本身之前的良好匹配。性能改善是明显的,但需要足够的培训数据和密集学习阻碍了他们的适用性。此外,在测试时间中使用固定模型不考虑一对图像可能需要其自身的事实,从而提供有限的性能和未遵守观看图像的较差。在本文中,我们示出了通过仅优化在输入对图像上的未训练匹配网络上,可以捕获特定于图像对特定的。针对密集对应的这种测试时间优化量身定制,我们提出了一个残留的匹配网络和信心感知对比损失,以保证有意义的收敛性。实验表明,我们的框架被称为最先前(DMP)的深度匹配,是竞争力的,甚至优于几何与几何匹配和语义匹配的基准测试的最新学习方法,即使它既不需要大型培训数据也不需要深入学习。通过预先培训的网络,DMP在所有基准上达到最先进的性能。
translated by 谷歌翻译
FSS(Few-shot segmentation)~aims to segment a target class with a small number of labeled images (support Set). To extract information relevant to target class, a dominant approach in best performing FSS baselines removes background features using support mask. We observe that this support mask presents an information bottleneck in several challenging FSS cases e.g., for small targets and/or inaccurate target boundaries. To this end, we present a novel method (MSI), which maximizes the support-set information by exploiting two complementary source of features in generating super correlation maps. We validate the effectiveness of our approach by instantiating it into three recent and strong FSS baselines. Experimental results on several publicly available FSS benchmarks show that our proposed method consistently improves the performance by visible margins and allows faster convergence. Our codes and models will be publicly released.
translated by 谷歌翻译
很少有分段旨在学习一个细分模型,该模型可以推广到只有几个培训图像的新课程。在本文中,我们提出了一个交叉引用和局部全球条件网络(CRCNET),以进行几次分割。与以前仅预测查询图像掩码的作品不同,我们提出的模型同时对支持图像和查询图像进行了预测。我们的网络可以更好地在两个图像中使用交叉引用机制找到同时出现的对象,从而有助于少量分割任务。为了进一步改善功能比较,我们开发了一个局部全球条件模块,以捕获全球和本地关系。我们还开发了一个掩模修补模块,以重新完善前景区域的预测。Pascal VOC 2012,MS Coco和FSS-1000数据集的实验表明,我们的网络实现了新的最新性能。
translated by 谷歌翻译
几次拍摄的语义分割旨在将新颖的类对象分段为仅具有少数标记的支持图像。大多数高级解决方案利用度量学习框架,通过将每个查询功能与学习的类特定的原型匹配来执行分段。然而,由于特征比较不完整,该框架遭受了偏见的分类。为了解决这个问题,我们通过引入类别特定的和类别不可知的原型来提出自适应原型表示,从而构建与查询功能学习语义对齐的完整样本对。互补特征学习方式有效地丰富了特征比较,并有助于在几次拍摄设置中产生一个非偏见的分段模型。它用双分支端到端网络(\即,特定于类分支和类别不可知分支)实现,它生成原型,然后组合查询特征以执行比较。此外,所提出的类别无神不可话的分支简单而且有效。在实践中,它可以自适应地为查询图像生成多种类别 - 不可知的原型,并以自我对比方式学习特征对齐。广泛的Pascal-5 $ ^ i $和Coco-20 $ ^ i $展示了我们方法的优越性。在不牺牲推理效率的费用中,我们的模型实现了最先进的,导致1-Shot和5-Shot Settings进行语义分割。
translated by 谷歌翻译
现有的少数射击分段方法基于支持 - 引人入胜的匹配框架取得了巨大进展。但是,他们仍然受到所提供的少量支撑的覆盖率有限的覆盖范围。由简单的格式塔原理激励,即属于同一对象的像素比同一班级的不同对象的像素更相似,我们提出了一种新颖的自支撑匹配策略来减轻此问题,该策略使用查询原型来匹配查询功能查询原型是从高信心查询预测中收集的。该策略可以有效地捕获查询对象的一致潜在特性,从而符合查询功能。我们还提出了一个自适应的自支持背景原型生成模块和自支撑损失,以进一步促进自支撑匹配过程。我们的自支撑网络大大提高了原型质量,更强的骨架和更多支持,并在多个数据集上实现了SOTA。代码位于\ url {https://github.com/fanq15/ssp}。
translated by 谷歌翻译
由于长距离依赖性建模的能力,变压器在各种自然语言处理和计算机视觉任务中表现出令人印象深刻的性能。最近的进展证明,将这种变压器与基于CNN的语义图像分割模型相结合非常有前途。然而,目前还没有很好地研究了纯变压器的方法如何实现图像分割。在这项工作中,我们探索了语义图像分割的新框架,它是基于编码器 - 解码器的完全变压器网络(FTN)。具体地,我们首先提出金字塔组变压器(PGT)作为逐步学习分层特征的编码器,同时降低标准视觉变压器(VIT)的计算复杂性。然后,我们将特征金字塔变换器(FPT)提出了来自PGT编码器的多电平进行语义图像分割的多级别的语义级别和空间级信息。令人惊讶的是,这种简单的基线可以在多个具有挑战性的语义细分和面部解析基准上实现更好的结果,包括帕斯卡背景,ADE20K,Cocostuff和Celebamask-HQ。源代码将在https://github.com/br -dl/paddlevit上发布。
translated by 谷歌翻译
Few-shot segmentation aims to devise a generalizing model that segments query images from unseen classes during training with the guidance of a few support images whose class tally with the class of the query. There exist two domain-specific problems mentioned in the previous works, namely spatial inconsistency and bias towards seen classes. Taking the former problem into account, our method compares the support feature map with the query feature map at multi scales to become scale-agnostic. As a solution to the latter problem, a supervised model, called as base learner, is trained on available classes to accurately identify pixels belonging to seen classes. Hence, subsequent meta learner has a chance to discard areas belonging to seen classes with the help of an ensemble learning model that coordinates meta learner with the base learner. We simultaneously address these two vital problems for the first time and achieve state-of-the-art performances on both PASCAL-5i and COCO-20i datasets.
translated by 谷歌翻译