This work focuses on unsupervised representation learning in person re-identification (ReID). Recent self-supervised contrastive learning methods learn invariance by maximizing the representation similarity between two augmented views of a same image. However, traditional data augmentation may bring to the fore undesirable distortions on identity features, which is not always favorable in id-sensitive ReID tasks. In this paper, we propose to replace traditional data augmentation with a generative adversarial network (GAN) that is targeted to generate augmented views for contrastive learning. A 3D mesh guided person image generator is proposed to disentangle a person image into id-related and id-unrelated features. Deviating from previous GAN-based ReID methods that only work in id-unrelated space (pose and camera style), we conduct GAN-based augmentation on both id-unrelated and id-related features. We further propose specific contrastive losses to help our network learn invariance from id-unrelated and id-related augmentations. By jointly training the generative and the contrastive modules, our method achieves new state-of-the-art unsupervised person ReID performance on mainstream large-scale benchmarks.
translated by 谷歌翻译
当前的骨架动作表示方法学习的方法通常集中在受约束的场景上,其中在实验室环境中记录了视频和骨骼数据。在处理现实世界视频中估计的骨骼数据时,由于受试者和摄像机观点之间的差异很大,因此此类方法的性能差。为了解决这个问题,我们通过一种新颖的视图自动编码器介绍了自我监视的骨架动作表示学习。通过Leverage在不同的人类表演者之间进行运动重新定位作为借口任务,以便在2D或3D骨架序列的视觉表示之上删除潜在的动作特异性“运动”特征。这种“运动”功能对于骨架几何和相机视图是不变的,并允许通过辅助,跨视图和跨视图动作分类任务。我们进行了一项研究,重点是针对基于骨架的动作识别的转移学习,并在现实世界数据(例如Posetics)上进行自我监督的预训练。我们的结果表明,从VIA中学到的骨架表示足以提高最新动作分类精度,不仅在3D实验室数据集(例如NTU-RGB+D 60和NTU-RGB+D 120)上,而且还在在仅准确估计2D数据的现实数据集中,例如Toyota Smarthome,UAV-Human和Penn Action。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
人格计算和情感计算最近在许多研究领域获得了兴趣。任务的数据集通常具有视频,音频,语言和生物信号等多种方式。在本文中,我们提出了一种灵活的型号,用于利用所有可用数据的任务。该任务涉及复杂的关系,并避免使用大型模型进行视频处理,我们提出了使用行为编码,该行为编码具有对模型的最小变化的性能提升性能。近期使用变压器的横向感到流行,并且用于融合不同的方式。由于可能存在长期关系,因此不希望将输入破坏到块中,因此所提出的模型将整个输入处理在一起。我们的实验表明了上述每个贡献的重要性
translated by 谷歌翻译
动作检测是一个必不可少的和具有挑战性的任务,特别是对于未经监测视频的密集标记数据集。在这些数据集中,时间关系是复杂的,包括综合动作等挑战和共同发生的动作。为了检测这些复杂视频中的动作,有效地捕获视频中的短期和长期时间信息是至关重要的。为此,我们提出了一种用于动作检测的新型Converransformer网络。该网络包括三个主要组件:(1)时间编码器模块广泛探讨多个时间分辨率的全局和局部时间关系。 (2)时间尺度混频器模块有效地熔化多尺度特征以具有统一的特征表示。 (3)分类模块用于学习实例中心相对位置并预测帧级分类分数。多个数据集的大量实验,包括Charades,TSU和Multithumos,确认了我们所提出的方法的有效性。我们的网络在所有三个数据集上占据了最先进的方法。
translated by 谷歌翻译
动作检测是一项必不可少且具有挑战性的任务,尤其是对于未修剪视频的密集标记的数据集。这些数据集中有许多现实世界中的挑战,例如复合动作,共存在的动作和实例持续时间的高时间变化。为了应对这些挑战,我们建议探索被检测行动的阶级和时间关系。在这项工作中,我们介绍了一个端到端网络:阶级关系网络(CTRN)。它包含三个关键组件:(1)表示变换模块过滤了从混合表示形式中特定的特定功能来构建图形结构化数据。 (2)阶级模块以顺序的方式对类和时间关系进行建模。 (3)G分类器利用摘要的共同出现作用对的特权知识,以进一步改善同时发生的动作检测。我们在三个具有挑战性的密集标签数据集上评估CTRN,并实现最先进的性能,以反映我们方法的有效性和鲁棒性。
translated by 谷歌翻译
3D凝视估计是关于预测3D空间中人的视线。由于受试者的解剖学差异,与人无关的模型缺乏精确度,而特定于人的校准技术对可伸缩性增加了严格的限制。为了克服这些问题,我们提出了一种新颖的技术,面部标志热图激活的多模式凝视估计(火焰),作为使用Eye Landmark Heatmap的眼睛解剖信息结合的一种方式,以获得精确的凝视估计,而无需任何人特定的校准。我们的评估表明,在基准数据集Columbiagaze和Eyediap上的竞争性能提高了约10%。我们还进行了消融研究以验证我们的方法。
translated by 谷歌翻译
面部识别已被广泛接受为从边境控制到银行业安全的申请中的识别手段。令人惊讶的是,尽管被广泛接受,但我们仍然缺乏对面部独特性或独特性作为生物识别方式的理解。在这项工作中,我们研究了图像分辨率,特征表示,数据库规模,年龄和性别等因素的影响,对真实分布和冒名顶替者分布之间的Kullback-Leibler差异表示的独特性。为了理解影响,我们对数据集AT&T,LFW,IMDB-FACE以及ND-TWIN进行了实验结果,并具有功能提取算法VGGFACE,VGG16,RESNET50,InceptionV3,Mobilenet和Densenet121,这揭示指定的因素。尽管这些是早期的结果,但我们的发现表明需要更好地理解生物特征识别的概念及其对面部识别的影响。
translated by 谷歌翻译
设计可以成功部署在日常生活环境中的活动检测系统需要构成现实情况典型挑战的数据集。在本文中,我们介绍了一个新的未修剪日常生存数据集,该数据集具有几个现实世界中的挑战:Toyota Smarthome Untrimmed(TSU)。 TSU包含以自发方式进行的各种活动。数据集包含密集的注释,包括基本的,复合活动和涉及与对象相互作用的活动。我们提供了对数据集所需的现实世界挑战的分析,突出了检测算法的开放问题。我们表明,当前的最新方法无法在TSU数据集上实现令人满意的性能。因此,我们提出了一种新的基线方法,以应对数据集提供的新挑战。此方法利用一种模态(即视线流)生成注意力权重,以指导另一种模态(即RGB)以更好地检测活动边界。这对于检测以高时间差异为特征的活动特别有益。我们表明,我们建议在TSU和另一个受欢迎的挑战数据集Charades上优于最先进方法的方法。
translated by 谷歌翻译
3D autonomous driving semantic segmentation using deep learning has become, a well-studied subject, providing methods that can reach very high performance. Nonetheless, because of the limited size of the training datasets, these models cannot see every type of object and scenes found in real-world applications. The ability to be reliable in these various unknown environments is called domain generalization. Despite its importance, domain generalization is relatively unexplored in the case of 3D autonomous driving semantic segmentation. To fill this gap, this paper presents the first benchmark for this application by testing state-of-the-art methods and discussing the difficulty of tackling LiDAR domain shifts. We also propose the first method designed to address this domain generalization, which we call 3DLabelProp. This method relies on leveraging the geometry and sequentiality of the LiDAR data to enhance its generalization performances by working on partially accumulated point clouds. It reaches a mIoU of 52.6% on SemanticPOSS while being trained only on SemanticKITTI, making it state-of-the-art method for generalization (+7.4% better than the second best method). The code for this method will be available on Github.
translated by 谷歌翻译