零件级别的属性解析是一项基本但具有挑战性的任务,它需要区域级的视觉理解以提供可解释的身体部位细节。大多数现有方法通过添加具有属性预测头到两阶段检测器的区域卷积神经网络(RCNN)来解决此问题,其中从本地零件框中确定了身体部位的属性。但是,具有极限视觉线索的本地零件框(即仅零件外观)会导致不满意的解析结果,因为身体部位的属性高度依赖于它们之间的全面关系。在本文中,我们建议通过利用丰富的知识来识别嵌入式RCNN(KE-RCNN)来识别属性-hip)和显式知识(例如,``短裤''的一部分不能具有``连帽衫''或``衬里''的属性)。具体而言,KE-RCNN由两个新型组件,即基于隐式知识的编码器(IK-en)和基于知识的显式解码器(EK-DE)组成。前者旨在通过将部分的关系上下文编码到部分框中来增强零件级的表示,而后者则建议通过有关\ textit {part-attribute}关系的先验知识的指导来解码属性。这样,KE-RCNN就是插件播放,可以集成到任何两阶段检测器中,例如attribute-rcnn,cascade-rcnn,基于HRNET的RCNN和基于Swintransformer的RCNN。在两个具有挑战性的基准上进行的广泛实验,例如Fashionpedia和Kinetics-TPS,证明了KE-RCNN的有效性和概括性。特别是,它比所有现有方法都取得了更高的改进,在时尚Pedia上达到了3%的AP,而动力学TPS的ACC约为4%。
translated by 谷歌翻译
人类茂密的估计旨在建立人体2D像素与3D人体模板之间的密集对应关系,是使机器能够了解图像中人员的关键技术。由于实际场景是复杂的,只有部分注释可用,导致无能为力或错误的估计,它仍然构成了几个挑战。在这项工作中,我们提出了一个新颖的框架,以检测图像中多人的密集。我们指的是知识转移网络(KTN)的建议方法解决了两个主要问题:1)如何完善图像表示以减轻不完整的估计,以及2)如何减少由低质量培训标签引起的错误估计(即。 ,有限的注释和班级不平衡标签)。与现有的作品直接传播区域的锥体特征以进行致密估计,KTN使用金字塔表示的改进,同时它可以维持特征分辨率并抑制背景像素,并且这种策略导致准确性大幅提高。此外,KTN通过外部知识增强了基于3D的身体解析的能力,在该知识中,它通过结构性的身体知识图,从足够的注释作为基于3D的身体解析器进行训练。通过这种方式,它大大减少了由低质量注释引起的不利影响。 KTN的有效性通过其优越的性能优于致密coco数据集的最先进方法。关于代表性任务(例如,人体分割,人体部分分割和关键点检测)和两个流行的致密估计管道(即RCNN和全面卷积框架)的广泛消融研究和实验结果,进一步表明了提议方法的概括性。
translated by 谷歌翻译
多次人类解析的现有方法通常采用两阶段的策略(通常是自下而上和自下而上),这遭受了对先前检测的强烈依赖,或者在集体后过程中高度计算的冗余。在这项工作中,我们使用代表性零件(称为Repparser)提出了一个端到端的多个人类解析框架。与主流方法不同,repparser以新的单阶段的方式解决了多个人的解析,而无需诉诸于人的检测或组后。为此,repparser将解析管道解析为实例感知的内核产生和部分意识到的人类解析,并将其分解为部分。分别负责实例分离和特定于实例的部分分割。特别是,我们通过代表性部分赋予解析管道的能力,因为它们的特征是通过实例感知关键点,并且可以用来动态解析每个人的实例。具体而言,代表性零件是通过共同定位实例中心和估计身体部位区域的关键来获得的。之后,我们通过代表性部分动态预测实例感知的卷积内核,从而将人零件的上下文编码为每个负责将图像特征施放为实例特定表示的内核。furthermore。采用多支出结构来分割每个实例 - 特定的表示单独的部分分割的几个部分感知表示。这样,以代表性零件的指导,重新集中在人实例上,并直接为每个人实例输出解析结果,从而消除了先前检测或发布的要求-grouping。在两个具有挑战性的基准上进行的扩展实验表明,我们提出的repparser是一个简单而有效的框架,并取得了竞争性的表现。
translated by 谷歌翻译
人类时尚理解是一项至关重要的计算机视觉任务,因为它具有用于现实世界应用的全面信息。这种关注人类时装细分和属性识别。与以前的作品相反,将每个任务分别建模为多头预测问题,我们的见解是通过Vision Transformer建模将这两个任务用一个统一的模型桥接,以使每个任务受益。特别是,我们介绍了分割的对象查询和属性预测的属性查询。查询及其相应的功能都可以通过掩码预测链接。然后,我们采用两流查询学习框架来学习解耦的查询表示。我们为属性流设计了一种新颖的多层渲染模块,以探索更细粒度的功能。解码器设计与DETR具有相同的精神。因此,我们将提出的方法\ textit {fahsionformer}命名。在三个人类时尚数据集上进行的广泛实验说明了我们方法的有效性。特别是,在\ textit {a intivit {a intim trictric(ap $^{\ text {mask}} _ {_ {\ text {iou+f text {iou+f textiT { } _1} $)用于分割和属性识别}。据我们所知,我们是人类时装分析的第一个统一的端到端视觉变压器框架。我们希望这种简单而有效的方法可以作为时尚分析的新灵活基准。代码可从https://github.com/xushilin1/fashionformer获得。
translated by 谷歌翻译
大多数最先进的实例级人类解析模型都采用了两阶段的基于锚的探测器,因此无法避免启发式锚盒设计和像素级别缺乏分析。为了解决这两个问题,我们设计了一个实例级人类解析网络,该网络在像素级别上无锚固且可解决。它由两个简单的子网络组成:一个用于边界框预测的无锚检测头和一个用于人体分割的边缘引导解析头。无锚探测器的头继承了像素样的优点,并有效地避免了对象检测应用中证明的超参数的敏感性。通过引入部分感知的边界线索,边缘引导的解析头能够将相邻的人类部分与彼此区分开,最多可在一个人类实例中,甚至重叠的实例。同时,利用了精炼的头部整合盒子级别的分数和部分分析质量,以提高解析结果的质量。在两个多个人类解析数据集(即CIHP和LV-MHP-V2.0)和一个视频实例级人类解析数据集(即VIP)上进行实验,表明我们的方法实现了超过全球级别和实例级别的性能最新的一阶段自上而下的替代方案。
translated by 谷歌翻译
部分一级的行动解析针对部分状态解析为影片提升动作识别。尽管在视频分类研究领域戏剧性的进展,面临的社会的一个严重问题是,人类活动的详细了解被忽略。我们的动机是,解析人的行动需要建立模型,专注于特定的问题。我们提出了一个简单而有效的方法,迎刃而解命名解析动作(DAP)。具体来说,我们划分部分一级行动解析为三个阶段:1)人的检测,当一个人检测器采用检测从影片的所有人员以及进行实例级动作识别; 2)部分解析,其中解析部分模型提出了识别来自检测到的人物图像人类份;和3)动作解析,其中,多模态动作解析网络用于分析动作类别调节对从先前阶段获得的所有检测结果。随着应用这三大车型,我们DAP的方法记录$ 0.605 $得分的全球平均在2021动力学-TPS挑战。
translated by 谷歌翻译
深度学习技术导致了通用对象检测领域的显着突破,近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解,场景图一直是研究的焦点。场景图生成(SGG)是指自动将图像映射到语义结构场景图中的任务,这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务,但社区已经提出了许多SGG方法并取得了良好的效果。在本文中,我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品,涵盖了不同的输入方式,并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法,概述和解释SGG的机制和策略。最后,我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。
translated by 谷歌翻译
The goal of this paper is to detect objects by exploiting their interrelationships. Rather than relying on predefined and labeled graph structures, we infer a graph prior from object co-occurrence statistics. The key idea of our paper is to model object relations as a function of initial class predictions and co-occurrence priors to generate a graph representation of an image for improved classification and bounding box regression. We additionally learn the object-relation joint distribution via energy based modeling. Sampling from this distribution generates a refined graph representation of the image which in turn produces improved detection performance. Experiments on the Visual Genome and MS-COCO datasets demonstrate our method is detector agnostic, end-to-end trainable, and especially beneficial for rare object classes. What is more, we establish a consistent improvement over object detectors like DETR and Faster-RCNN, as well as state-of-the-art methods modeling object interrelationships.
translated by 谷歌翻译
在用于对象识别的神经网络中包含关系推理仍然是一个打开问题。虽然已经用于关系推理的许多尝试,但它们通常只考虑单一类型的关系。例如,通过自我关注(例如,非本地网络),通过特征融合(例如,特征金字塔网络)或通过图形卷积来规模关系(例如,推理-RCNN)的对象关系。对更广泛的框架来说,这几乎没有注意这些关系。在本文中,我们提出了一种用于对象检测的分层关系推理框架(HR-RCNN),其利用新的图表注意模块(GAM)。此GAM是一个简洁的模块,通过直接在图形边缘上操作,可以通过在图形边缘上操作来推理异构节点。利用异构关系,我们的HR-RCNN在Coco DataSet上显示了很大的改进,用于对象检测和实例分割。
translated by 谷歌翻译
标记数据通常昂贵且耗时,特别是对于诸如对象检测和实例分割之类的任务,这需要对图像的密集标签进行密集的标签。虽然几张拍摄对象检测是关于培训小说中的模型(看不见的)对象类具有很少的数据,但它仍然需要在许多标记的基础(见)类的课程上进行训练。另一方面,自我监督的方法旨在从未标记数据学习的学习表示,该数据转移到诸如物体检测的下游任务。结合几次射击和自我监督的物体检测是一个有前途的研究方向。在本调查中,我们审查并表征了几次射击和自我监督对象检测的最新方法。然后,我们给我们的主要外卖,并讨论未来的研究方向。https://gabrielhuang.github.io/fsod-survey/的项目页面
translated by 谷歌翻译
随着深度卷积神经网络的兴起,对象检测在过去几年中取得了突出的进步。但是,这种繁荣无法掩盖小物体检测(SOD)的不令人满意的情况,这是计算机视觉中臭名昭著的挑战性任务之一,这是由于视觉外观不佳和由小目标的内在结构引起的嘈杂表示。此外,用于基准小对象检测方法基准测试的大规模数据集仍然是瓶颈。在本文中,我们首先对小物体检测进行了详尽的审查。然后,为了催化SOD的发展,我们分别构建了两个大规模的小物体检测数据集(SODA),SODA-D和SODA-A,分别集中在驾驶和空中场景上。 SODA-D包括24704个高质量的交通图像和277596个9个类别的实例。对于苏打水,我们收集2510个高分辨率航空图像,并在9个类别上注释800203实例。众所周知,拟议的数据集是有史以来首次尝试使用针对多类SOD量身定制的大量注释实例进行大规模基准测试。最后,我们评估主流方法在苏打水上的性能。我们预计发布的基准可以促进SOD的发展,并产生该领域的更多突破。数据集和代码将很快在:\ url {https://shaunyuan22.github.io/soda}上。
translated by 谷歌翻译
如果没有图像中的密集瓷砖锚点或网格点,稀疏的R-CNN可以通过以级联的训练方式更新的一组对象查询和建议框来实现有希望的结果。但是,由于性质稀疏以及查询与其参加地区之间的一对一关系,它在很大程度上取决于自我注意力,这通常在早期训练阶段不准确。此外,在密集对象的场景中,对象查询与许多无关的物体相互作用,从而降低了其独特性并损害了性能。本文提议在不同的框之间使用iOU作为自我注意力的价值路由的先验。原始注意力矩阵乘以从提案盒中计算出的相同大小的矩阵,并确定路由方案,以便可以抑制无关的功能。此外,为了准确提取分类和回归的功能,我们添加了两个轻巧投影头,以根据对象查询提供动态通道掩码,并且它们随动态convs的输出而繁殖,从而使结果适合两个不同的任务。我们在包括MS-Coco和CrowdHuman在内的不同数据集上验证了所提出的方案,这表明它可显着提高性能并提高模型收敛速度。
translated by 谷歌翻译
Panoptic Part Segmentation (PPS) unifies panoptic segmentation and part segmentation into one task. Previous works utilize separated approaches to handle thing, stuff, and part predictions without shared computation and task association. We aim to unify these tasks at the architectural level, designing the first end-to-end unified framework named Panoptic-PartFormer. Moreover, we find the previous metric PartPQ biases to PQ. To handle both issues, we make the following contributions: Firstly, we design a meta-architecture that decouples part feature and things/stuff feature, respectively. We model things, stuff, and parts as object queries and directly learn to optimize all three forms of prediction as a unified mask prediction and classification problem. We term our model as Panoptic-PartFormer. Secondly, we propose a new metric Part-Whole Quality (PWQ) to better measure such task from both pixel-region and part-whole perspectives. It can also decouple the error for part segmentation and panoptic segmentation. Thirdly, inspired by Mask2Former, based on our meta-architecture, we propose Panoptic-PartFormer++ and design a new part-whole cross attention scheme to further boost part segmentation qualities. We design a new part-whole interaction method using masked cross attention. Finally, the extensive ablation studies and analysis demonstrate the effectiveness of both Panoptic-PartFormer and Panoptic-PartFormer++. Compared with previous Panoptic-PartFormer, our Panoptic-PartFormer++ achieves 2% PartPQ and 3% PWQ improvements on the Cityscapes PPS dataset and 5% PartPQ on the Pascal Context PPS dataset. On both datasets, Panoptic-PartFormer++ achieves new state-of-the-art results with a significant cost drop of 70% on GFlops and 50% on parameters. Our models can serve as a strong baseline and aid future research in PPS. Code will be available.
translated by 谷歌翻译
同一场景中的不同对象彼此之间或多或少相关,但是只有有限数量的这些关系值得注意。受到对象检测效果的DETR的启发,我们将场景图生成视为集合预测问题,并提出了具有编码器decoder架构的端到端场景图生成模型RELTR。关于视觉特征上下文的编码器原因是,解码器使用带有耦合主题和对象查询的不同类型的注意机制渗透了一组固定大小的三胞胎主题prodicate-object。我们设计了一套预测损失,以执行地面真相与预测三胞胎之间的匹配。与大多数现有场景图生成方法相反,Reltr是一种单阶段方法,它仅使用视觉外观直接预测一组关系,而无需结合实体并标记所有可能的谓词。视觉基因组和开放图像V6数据集的广泛实验证明了我们模型的出色性能和快速推断。
translated by 谷歌翻译
人类对象相互作用(HOI)检测是一项具有挑战性的任务,需要区分人类对象对之间的相互作用。基于注意力的关系解析是HOI中使用的一种流行而有效的策略。但是,当前方法以“自下而上”的方式执行关系解析。我们认为,在HOI中,独立使用自下而上的解析策略是违反直觉的,可能导致注意力的扩散。因此,我们将新颖的知识引导自上而下的关注引入HOI,并提议将关系解析为“外观和搜索”过程:执行场景 - 文化建模(即外观),然后给定对知识的知识。目标对,搜索视觉线索,以区分两对之间的相互作用。我们通过基于单个编码器模型统一自下而上的注意力来实现该过程。实验结果表明,我们的模型在V-Coco和Hico-Det数据集上实现了竞争性能。
translated by 谷歌翻译
Human parsing aims to partition humans in image or video into multiple pixel-level semantic parts. In the last decade, it has gained significantly increased interest in the computer vision community and has been utilized in a broad range of practical applications, from security monitoring, to social media, to visual special effects, just to name a few. Although deep learning-based human parsing solutions have made remarkable achievements, many important concepts, existing challenges, and potential research directions are still confusing. In this survey, we comprehensively review three core sub-tasks: single human parsing, multiple human parsing, and video human parsing, by introducing their respective task settings, background concepts, relevant problems and applications, representative literature, and datasets. We also present quantitative performance comparisons of the reviewed methods on benchmark datasets. Additionally, to promote sustainable development of the community, we put forward a transformer-based human parsing framework, providing a high-performance baseline for follow-up research through universal, concise, and extensible solutions. Finally, we point out a set of under-investigated open issues in this field and suggest new directions for future study. We also provide a regularly updated project page, to continuously track recent developments in this fast-advancing field: https://github.com/soeaver/awesome-human-parsing.
translated by 谷歌翻译
Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
分割高度重叠的图像对象是具有挑战性的,因为图像上的真实对象轮廓和遮挡边界之间通常没有区别。与先前的实例分割方法不同,我们将图像形成模拟为两个重叠层的组成,并提出了双层卷积网络(BCNET),其中顶层检测到遮挡对象(遮挡器),而底层则渗透到部分闭塞实例(胶囊)。遮挡关系与双层结构的显式建模自然地将遮挡和遮挡实例的边界解散,并在掩模回归过程中考虑了它们之间的相互作用。我们使用两种流行的卷积网络设计(即完全卷积网络(FCN)和图形卷积网络(GCN))研究了双层结构的功效。此外,我们通过将图像中的实例表示为单独的可学习封闭器和封闭者查询,从而使用视觉变压器(VIT)制定双层解耦。使用一个/两个阶段和基于查询的对象探测器具有各种骨架和网络层选择验证双层解耦合的概括能力,如图像实例分段基准(可可,亲戚,可可)和视频所示实例分割基准(YTVIS,OVIS,BDD100K MOTS),特别是对于重闭塞病例。代码和数据可在https://github.com/lkeab/bcnet上找到。
translated by 谷歌翻译
在本文中,我们提出了简单的关注机制,我们称之为箱子。它可以实现网格特征之间的空间交互,从感兴趣的框中采样,并提高变压器的学习能力,以获得几个视觉任务。具体而言,我们呈现拳击手,短暂的框变压器,通过从输入特征映射上的参考窗口预测其转换来参加一组框。通过考虑其网格结构,拳击手通过考虑其网格结构来计算这些框的注意力。值得注意的是,Boxer-2D自然有关于其注意模块内容信息的框信息的原因,使其适用于端到端实例检测和分段任务。通过在盒注意模块中旋转的旋转的不变性,Boxer-3D能够从用于3D端到端对象检测的鸟瞰图平面产生识别信息。我们的实验表明,拟议的拳击手-2D在Coco检测中实现了更好的结果,并且在Coco实例分割上具有良好的和高度优化的掩模R-CNN可比性。 Boxer-3D已经为Waymo开放的车辆类别提供了令人信服的性能,而无需任何特定的类优化。代码将被释放。
translated by 谷歌翻译
场景分类已确定为一个具有挑战性的研究问题。与单个对象的图像相比,场景图像在语义上可能更为复杂和抽象。它们的差异主要在于识别的粒度水平。然而,图像识别是场景识别良好表现的关键支柱,因为从对象图像中获得的知识可用于准确识别场景。现有场景识别方法仅考虑场景的类别标签。但是,我们发现包含详细的本地描述的上下文信息也有助于允许场景识别模型更具歧视性。在本文中,我们旨在使用对象中编码的属性和类别标签信息来改善场景识别。基于属性和类别标签的互补性,我们提出了一个多任务属性识别识别(MASR)网络,该网络学习一个类别嵌入式,同时预测场景属性。属性采集和对象注释是乏味且耗时的任务。我们通过提出部分监督的注释策略来解决该问题,其中人类干预大大减少。该策略为现实世界情景提供了更具成本效益的解决方案,并且需要减少注释工作。此外,考虑到对象检测到的分数所指示的重要性水平,我们重新进行了权威预测。使用提出的方法,我们有效地注释了四个大型数据集的属性标签,并系统地研究场景和属性识别如何相互受益。实验结果表明,与最先进的方法相比
translated by 谷歌翻译