多尺度学习框架已被视为一种能够提高语义分割的能力类别。然而,这个问题并不是微不足道的,尤其是对于现实世界的部署,通常需要高效率推理潜伏期。在本文中,我们彻底分析了卷积块的设计(卷积的类型和卷积中的频道数量),以及跨多个尺度的相互作用方式,所有这些都是从轻量级的语义分割的角度来看。通过这样的深入比较,我们综述了三个原则,因此设计了轻巧且逐渐估计的网络(LPS-NET),这些网络以贪婪的方式在新颖地扩展了网络复杂性。从技术上讲,LPS-NET首先利用了建立小型网络的原则。然后,LPS-NET通过扩展单个维度(卷积块的数量,通道数量或输入分辨率)来逐步扩展到较大网络,以实现最佳的速度/准确性交易。在三个数据集上进行的广泛实验始终证明了LPS-NET优于几种有效的语义分割方法。更值得注意的是,我们的LPS-NET在CityScapes测试套装上达到73.4%MIOU,NVIDIA GTX 1080TI的速度为413.5fps,导致绩效提高1.5%,对抗最高的速度为65% - ART STDC。代码可在\ url {https://github.com/yihengzhang-cv/lps-net}中获得。
translated by 谷歌翻译
大量网络视频的杠杆作用以及搜索的查询或周围文本(例如标题)提供了一种经济且可扩展的替代方案,可用于监督视频表示学习。然而,由于查询多义(即查询的许多可能的含义)和文本同构(即不同文本的相同句法结构),对这种弱视文的连接进行建模并不是微不足道的。在本文中,我们介绍了查询和文本之间相互校准的新设计,以增强弱监督视频表示的学习。具体而言,我们提出了双重校准网络(BCN),这些网络在新颖地融合了两个校准,以学习从文本到查询的修正案,反之亦然。从技术上讲,BCN在通过相同查询搜索的视频的所有标题上执行聚类,并将每个集群的质心作为文本原型。查询词汇直接建立在查询单词上。对文本原型/查询词汇的视频对文本/视频对话预测,然后启动文本或查询到文本校准,以估算修正案以查询或文本。我们还设计了一个选择方案来平衡两个校正。两个大规模的网络视频数据集与查询和每个视频的标题配对,新收集到弱监督视频表示的学习中,分别命名为Yovo-3M和Yovo-10m。 BCN在3M Web视频上学习的视频功能在下游任务的线性模型协议下获得了卓越的结果。更值得注意的是,BCN在较大的10m网络视频中培训,进一步的微调导致1.6%,而动力学400的TOP-1准确性获得1.8%,而在最先进的情况下,一些v2数据集的v2数据集则是1.6%。 - ART TDN和ImageNet预训练的动作网方法。源代码和数据集可在\ url {https://github.com/fuchenustc/bcn}上获得。
translated by 谷歌翻译
作为视频的独特性,运动对于开发视频理解模型至关重要。现代深度学习模型通过执行时空3D卷积来利用运动,将3D卷积分别分为空间和时间卷积,或者沿时间维度计算自我注意力。这种成功背后的隐含假设是,可以很好地汇总连续帧的特征图。然而,该假设可能并不总是对具有较大变形的地区特别存在。在本文中,我们提出了一个新的框架间注意区块的食谱,即独立框架间注意力(SIFA),它在新颖的情况下深入研究了整个框架的变形,以估计每个空间位置上的局部自我注意力。从技术上讲,SIFA通过通过两个帧之间的差来重新缩放偏移预测来重新缩放可变形设计。将每个空间位置在当前帧中作为查询,下一帧中的本地可变形邻居被视为键/值。然后,SIFA衡量查询和键之间的相似性是对加权平均时间聚集值的独立关注。我们进一步将SIFA块分别插入Convnet和Vision Transformer,以设计SIFA-NET和SIFA-TransFormer。在四个视频数据集上进行的广泛实验表明,SIFA-NET和SIFA转换器的优越性是更强的骨架。更值得注意的是,SIFA转换器在动力学400数据集上的精度为83.1%。源代码可在\ url {https://github.com/fuchenustc/sifa}中获得。
translated by 谷歌翻译
卷积神经网络(CNN)被认为是视觉识别的首选模型。最近,基于多头自我注意力(MSA)或多层感知器(MLP)的无卷积网络变得越来越流行。然而,由于视频数据的差异和复杂性,利用这些新染色的网络进行视频识别并不是微不足道的。在本文中,我们提出了MLP-3D Networks,这是一种新颖的MLP型3D体系结构,用于视频识别。具体而言,该体系结构由MLP-3D块组成,其中每个块包含一个跨令牌施加的一个MLP(即令牌混合MLP),一个MLP独立地应用于每个令牌(即通道MLP)。通过得出新型的分组时间混合(GTM)操作,我们将基本令牌混合MLP配备了时间建模的能力。 GTM将输入令牌分为几个时间组,并用共享投影矩阵线性地映射每个组中的令牌。此外,我们通过不同的分组策略设计了几种GTM的变体,并通过贪婪的体系结构搜索在MLP-3D网络的不同块中组成每个变体。在不依赖卷积或注意机制的情况下,我们的MLP-3D网络分别获得68.5 \%/81.4 \%\%TOP-1的准确性,分别在某些V2和Kinetics-400数据集上。尽管计算较少,但结果与最新通用的3D CNN和视频变压器相当。源代码可从https://github.com/zhaofanqiu/mlp-3d获得。
translated by 谷歌翻译
本文对我们的系统进行了概述和比较分析,该系统专为Sapien Maniskill Challenge挑战2021中的以下两个轨道而设计:无相互作用轨迹:从预采用的演示轨迹中学习政策的无相互作用轨迹目标。我们研究了这两个基于模仿学习的方法,即使用经典监督学习技术模仿观察到的行为,以及基于线之后的基于强化学习的方法。此外,通过基于变压器的网络利用对象和机器人臂的几何结构和纹理结构,以促进模仿学习。无限制轨道:在此轨道中,我们设计了一种基于启发式规则的方法(HRM)来通过将任务分解为一系列子任务来触发高质量对象操作。对于每个子任务,采用简单的基于规则的控制策略来预测可以应用于机器人臂的动作。为了简化系统的实现,所有源代码和预训练的模型均可在\ url {https://github.com/caiqi/silver-bullet-3d/}上获得。
translated by 谷歌翻译
运动,作为视频中最明显的现象,涉及随时间的变化,对视频表示学习的发展是独一无二的。在本文中,我们提出了问题:特别是对自我监督视频表示学习的运动有多重要。为此,我们撰写了一个二重奏,用于利用对比学习政权的数据增强和特征学习的动作。具体而言,我们介绍了一种以前的对比学习(MCL)方法,其将这种二重奏视为基础。一方面,MCL大写视频中的每个帧的光流量,以在时间上和空间地样本地样本(即,横跨时间的相关帧斑块的序列)作为数据增强。另一方面,MCL进一步将卷积层的梯度图对准来自空间,时间和时空视角的光流程图,以便在特征学习中地进行地面运动信息。在R(2 + 1)D骨架上进行的广泛实验证明了我们MCL的有效性。在UCF101上,在MCL学习的表示上培训的线性分类器实现了81.91%的前1个精度,表现优于6.78%的训练预测。在动力学-400上,MCL在线方案下实现66.62%的前1个精度。代码可在https://github.com/yihengzhang-cv/mcl-motion-focused-contrastive-learning。
translated by 谷歌翻译
人类的行为通常是组合结构或图案,即受试者,物体,以及两者之间的时空相互作用。因此,发现这种结构是一种有价值的方式,可以推理互动的动态并识别动作。在本文中,我们介绍了一个新的子图设计,以表示和编码视频中每个动作的辨别模式。具体而言,我们呈现多尺度的子图学习(MOTE)框架,该框架,该框架新颖地构建空间时间图并将图形集群相对于节点的数量在每个比例上的紧凑型子图中。从技术上讲,Mudle在每个视频剪辑中产生3D边界框,即管弦,作为曲线节点,并将密集的连接作为管之间的图形边缘。对于每个操作类别,我们通过学习高斯混合层执行在线群集以将图形分解为每种比例的子图,并选择判别子图作为动作原型以进行识别。在某种东西上进行了广泛的实验 - 某种东西 - 某种东西 - 东西-400数据集,并且与最先进的方法相比,报告了卓越的结果。更值得注意的是,我们的柱子达到了最佳报告的准确性为65.0%的东西 - 某种东西的验证集。
translated by 谷歌翻译
视频内容是多方面的,由对象,场景,交互或操作组成。现有数据集主要标记为模型培训的一个方面,导致视频表示根据训练数据集仅偏置为一个小平面。目前还没有研究如何学习来自多方面标签的视频表示,以及多方面的信息是否有助于视频表示学习。在本文中,我们提出了一种新的学习框架,多朝向集成(MUFI),以聚合来自不同数据集的面部,以学习可以反映视频内容的全频谱的表示。从技术上讲,MUFI将问题交流为视觉语义嵌入学习,该问题将视频表示映射到丰富的语义嵌入空间中,并从两个角度联合优化视频表示。一个是利用每个视频和自己的标签描述之间的小型内部监督,第二个是从其他数据集的小平面预测每个视频的“语义表示”作为刻面监控。广泛的实验表明,通过我们的MUFI框架在四个大型视频数据集加上两个图像数据集的联盟上学习3D CNN,导致视频表示的优异能力。具有MUFI的预先学习的3D CNN还显示出在几个下游视频应用上的其他方法的清晰改进。更值得注意的是,MUFI在UCF101 / HMDB51上实现98.1%/ 80.9%,用于行动识别和101.5%,在MSVD上的浏览器D得分为视频字幕。
translated by 谷歌翻译
由于细粒度的视觉细节中的运动和丰富内容的大变化,视频是复杂的。从这些信息密集型媒体中抽象有用的信息需要详尽的计算资源。本文研究了一个两步的替代方案,首先将视频序列冷凝到信息“框架”,然后在合成帧上利用现成的图像识别系统。有效问题是如何定义“有用信息”,然后将其从视频序列蒸发到一个合成帧。本文介绍了一种新颖的信息帧综合(IFS)架构,其包含三个客观任务,即外观重建,视频分类,运动估计和两个常规方案,即对抗性学习,颜色一致性。每个任务都配备了一个能力的合成框,而每个常规器可以提高其视觉质量。利用这些,通过以端到端的方式共同学习帧合成,预期产生的帧封装了用于视频分析的所需的时空信息。广泛的实验是在大型动力学数据集上进行的。与基线方法相比,将视频序列映射到单个图像,IFS显示出优异的性能。更值得注意地,IFS始终如一地展示了基于图像的2D网络和基于剪辑的3D网络的显着改进,并且通过了具有较少计算成本的最先进方法实现了相当的性能。
translated by 谷歌翻译
由于具有高复杂性和训练方案的各种选项,最佳地学习3D卷积神经网络(3D COUNCNET)并不重要。最常见的手工调整过程从使用短视频剪辑开始学习3D扫描,然后使用冗长的剪辑学习长期时间依赖性,同时逐渐将学习率衰减到低至低于低的学习率随着训练的进展。这样的过程与几个启发式设置出现的事实激发了研究,以寻求最佳的“路径”以自动化整个培训。在本文中,我们将路径分解为一系列训练“状态”,并在每个状态下指定超参数,例如学习率和输入剪辑的长度。膝关节曲线上的膝关节估计触发从一个状态到另一个状态的转换。我们在所有候选状态下执行动态编程,以规划状态的最佳排列,即优化路径。此外,我们使用独特的双头分类器设计设计了一种新的3D扫描,以提高空间和时间辨别。关于七个公共视频识别基准的广泛实验证明了我们提案的优势。通过优化规划,与最先进的识别方法相比,我们的3D ConverNets在比较时实现了卓越的结果。更值得注意地,我们分别在动力学-400和动力学-600数据集中获得80.5%和82.7%的前1个精度。源代码在https://github.com/zhaofanqiu/optimization-planning-for-3d-convnets中获得。
translated by 谷歌翻译