文本对象的重新识别(REID)旨在通过文本描述搜索感兴趣的身份的行人图像。由于丰富的模式内变化和明显的模式间差异,这是具有挑战性的。现有作品通常忽略两种方式之间的特征粒度差异,即,视觉特征通常是细粒度的,而文本特征则粗糙,这主要负责大型模式间间隙。在本文中,我们提出了一个基于变形金刚的端到端框架,以学习两种模式的粒度统一表示,称为LGUR。 LGUR框架包含两个模块:基于字典的粒度比对(DGA)模块和基于原型的粒度统一(PGU)模块。在DGA中,为了使两种模式的粒度对齐,我们引入了一个多模式共享词典(MSD)以重建视觉和文本特征。此外,DGA还具有两个重要因素,即跨模式指导和以前景为中心的重建,以促进MSD的优化。在PGU中,我们采用一组共享和可学习的原型作为查询,以提取粒度统一特征空间中这两种方式的多样化和语义对齐特征,从而进一步促进了REID的性能。综合实验表明,我们的LGUR在Cuhk-Pedes和ICFG-Pedes数据集上始终以大幅度的优势优于最先进的东西。代码将在https://github.com/zhiyinshao-h/lgur上发布。
translated by 谷歌翻译
很难精确地注释对象实例及其在3D空间中的语义,因此,合成数据被广泛用于这些任务,例如类别级别6D对象姿势和大小估计。然而,合成域中的简易注释带来了合成到真实(SIM2REAL)域间隙的下行效应。在这项工作中,我们的目标是在SIM2REAL,无监督的域适应的任务设置中解决此问题,以适应类别级别6D对象姿势和尺寸估计。我们提出了一种基于新型的深层变形网络构建的方法,该网络缩短为DPDN。 DPDN学会了将分类形状先验的变形特征与对象观察的特征相匹配,因此能够在特征空间中建立深层对应,以直接回归对象姿势和尺寸。为了减少SIM2REAL域间隙,我们通过一致性学习在DPDN上制定了一个新颖的自我监督目标。更具体地说,我们对每个对象观察进行了两个刚性转换,并分别将它们送入DPDN以产生双重预测集。除了平行学习之外,还采用了一个矛盾术语来保持双重预测之间的交叉一致性,以提高DPDN对姿势变化的敏感性,而单个的内部矛盾范围则用于在每个学习本身内实施自我适应。我们在合成摄像头25和现实世界Real275数据集的两个训练集上训练DPDN;我们的结果优于无监督和监督设置下的Real275测试集中的现有方法。消融研究还验证了我们设计的功效。我们的代码将在https://github.com/jiehonglin/self-dpdn公开发布。
translated by 谷歌翻译
人类对象相互作用(HOI)检测是高级图像理解的核心任务。最近,由于其出色的性能和有效的结构,检测变压器(DETR)基于HOI的检测器已变得流行。但是,这些方法通常对所有测试图像采用固定的HOI查询,这很容易受到一个特定图像中对象的位置变化的影响。因此,在本文中,我们建议通过挖掘硬阳性查询来增强DETR的鲁棒性,这些查询被迫使用部分视觉提示做出正确的预测。首先,我们根据每个训练图像标记的人类对象对的地面真相(GT)位置明确地组成硬阳性查询。具体而言,我们将每个标记的人类对象对的GT边界框移动,以使移位框仅覆盖GT的一定部分。我们将每个标记的人类对象对的移位框的坐标编码为HOI查询。其次,我们通过在解码器层的交叉注意地图中掩盖了最高分数,从而隐式构建了另一组硬阳性查询。然后,掩盖的注意图仅涵盖HOI预测的部分重要提示。最后,提出了一种替代策略,该策略有效地结合了两种类型的硬性查询。在每次迭代中,都采用了Detr的可学习查询和一种选择的硬阳性查询进行损失计算。实验结果表明,我们提出的方法可以广泛应用于现有的基于DITR的HOI探测器。此外,我们始终在三个基准上实现最先进的性能:HICO-DET,V-COCO和HOI-A。代码可在https://github.com/muchhair/hqm上找到。
translated by 谷歌翻译
在本报告中,我们描述了我们提交给Epic-Kitchens Action Action Truecation挑战2022的技术细节。在这项比赛中,我们开发了以下两种方法。1)使用教师模型学到的软标签作为指导学生网络学习预期时间的信息;2)动词名词关系模块,用于建立动词和名词之间的关系。我们的方法在2022年的Epic-Kitchens Action预期挑战的测试集上实现了最新的结果。
translated by 谷歌翻译
人重新识别(REID)的域概括(DG)是一个具有挑战性的问题,因为在培训过程中无法访问允许的目标域数据。大多数现有的DG REID方法都采用相同的功能来更新功能提取器和分类器参数。这种常见的实践导致模型过度拟合了源域中的现有特征样式,即使使用元学习,也会在目标域上对目标域的概括概括能力。为了解决这个问题,我们提出了一种新型的交织方式学习框架。与传统的学习策略不同,交织的学习结合了两个远期传播和每个迭代的后退传播。我们采用交错样式的功能,使用不同的前向传播来更新功能提取器和分类器,这有助于模型避免过度适应某些域样式。为了充分探索风格交织的学习的优势,我们进一步提出了一种新颖的功能风格化方法来多样化功能样式。这种方法不仅混合了多个培训样本的功能样式,还可以从批处理级别的样式发行中示例新的和有意义的功能样式。广泛的实验结果表明,我们的模型始终优于DG REID大规模基准的最先进方法,从而在计算效率方面具有明显的优势。代码可从https://github.com/wentaotan/interleaved-learning获得。
translated by 谷歌翻译
由于视频帧中存在各种干扰,因此基于视频的人重新识别(REID)具有挑战性。最近的方法使用时间聚合策略来解决此问题。在这项工作中,我们提出了一个新颖的环境感应注意网络(CSA-NET),该网络既改进框架特征提取和时间聚集步骤。首先,我们介绍了上下文传感渠道注意(CSCA)模块,该模块强调了每个帧信息渠道的响应。这些信息通道不仅可以参考每个单独的框架,还可以参考整个序列的内容。因此,CSCA探索了序列的每个帧的个性和全局上下文。其次,我们提出了对比特征聚合(CFA)模块,该模块预测了时间聚集的框架权重。在这里,每个帧的重量是以对比的方式确定的:即,不仅是由每个单独框架的质量,而且还取决于顺序中其他帧的平均质量。因此,它有效地促进了相对良好的框架的贡献。四个数据集的广泛实验结果表明,CSA-NET始终达到最新的性能。
translated by 谷歌翻译
先进的面部交换方法取得了吸引力的结果。但是,这些方法中的大多数具有许多参数和计算,这使得在实时应用程序中应用它们或在移动电话等边缘设备上部署它们的挑战。在这项工作中,通过根据身份信息动态调整模型参数,提出了一种用于主目不可知的人的动态网络(IDN),用于通过动态调整模型参数。特别地,我们通过引入两个动态神经网络技术来设计高效的标识注入模块(IIM),包括权重预测和权重调制。更新IDN后,可以应用于给定任何目标图像或视频的交换面。所呈现的IDN仅包含0.50米的参数,每个框架需要0.33g拖鞋,使其能够在移动电话上运行实时视频面。此外,我们介绍了一种基于知识的蒸馏的方法,用于稳定训练,并且使用损耗重量模块来获得更好的合成结果。最后,我们的方法通过教师模型和其他最先进的方法实现了可比的结果。
translated by 谷歌翻译
遮挡对人重新识别(Reid)构成了重大挑战。现有方法通常依赖于外部工具来推断可见的身体部位,这在计算效率和Reid精度方面可能是次优。特别是,在面对复杂的闭塞时,它们可能会失败,例如行人之间的遮挡。因此,在本文中,我们提出了一种名为M质量感知部分模型(QPM)的新方法,用于遮挡鲁棒Reid。首先,我们建议共同学习零件特征和预测部分质量分数。由于没有提供质量注释,我们介绍了一种自动将低分分配给闭塞体部位的策略,从而削弱了遮挡体零落在Reid结果上的影响。其次,基于预测部分质量分数,我们提出了一种新颖的身份感知空间关注(ISA)模块。在该模块中,利用粗略标识感知功能来突出目标行人的像素,以便处理行人之间的遮挡。第三,我们设计了一种自适应和有效的方法,用于了解来自每个图像对的共同非遮挡区域的全局特征。这种设计至关重要,但经常被现有方法忽略。 QPM有三个关键优势:1)它不依赖于培训或推理阶段的任何外部工具; 2)它处理由物体和其他行人引起的闭塞; 3)它是高度计算效率。对闭塞Reid的四个流行数据库的实验结果证明QPM始终如一地以显着的利润方式优于最先进的方法。 QPM代码将被释放。
translated by 谷歌翻译
Different people speak with diverse personalized speaking styles. Although existing one-shot talking head methods have made significant progress in lip sync, natural facial expressions, and stable head motions, they still cannot generate diverse speaking styles in the final talking head videos. To tackle this problem, we propose a one-shot style-controllable talking face generation framework. In a nutshell, we aim to attain a speaking style from an arbitrary reference speaking video and then drive the one-shot portrait to speak with the reference speaking style and another piece of audio. Specifically, we first develop a style encoder to extract dynamic facial motion patterns of a style reference video and then encode them into a style code. Afterward, we introduce a style-controllable decoder to synthesize stylized facial animations from the speech content and style code. In order to integrate the reference speaking style into generated videos, we design a style-aware adaptive transformer, which enables the encoded style code to adjust the weights of the feed-forward layers accordingly. Thanks to the style-aware adaptation mechanism, the reference speaking style can be better embedded into synthesized videos during decoding. Extensive experiments demonstrate that our method is capable of generating talking head videos with diverse speaking styles from only one portrait image and an audio clip while achieving authentic visual effects. Project Page: https://github.com/FuxiVirtualHuman/styletalk.
translated by 谷歌翻译
Unmanned aerial vehicle (UAV) swarms are considered as a promising technique for next-generation communication networks due to their flexibility, mobility, low cost, and the ability to collaboratively and autonomously provide services. Distributed learning (DL) enables UAV swarms to intelligently provide communication services, multi-directional remote surveillance, and target tracking. In this survey, we first introduce several popular DL algorithms such as federated learning (FL), multi-agent Reinforcement Learning (MARL), distributed inference, and split learning, and present a comprehensive overview of their applications for UAV swarms, such as trajectory design, power control, wireless resource allocation, user assignment, perception, and satellite communications. Then, we present several state-of-the-art applications of UAV swarms in wireless communication systems, such us reconfigurable intelligent surface (RIS), virtual reality (VR), semantic communications, and discuss the problems and challenges that DL-enabled UAV swarms can solve in these applications. Finally, we describe open problems of using DL in UAV swarms and future research directions of DL enabled UAV swarms. In summary, this survey provides a comprehensive survey of various DL applications for UAV swarms in extensive scenarios.
translated by 谷歌翻译