在本文中,我们通过使用实例分割来生成更尖锐的注意图以进行动作识别,提出了注意分支网络(ABN)的扩展。视觉解释的方法(例如Grad-CAM)通常会产生模糊的地图,这些图对人类的理解不是直观的,尤其是在识别视频中人们的行为时。我们提出的方法ABN通过引入新的面膜丢失来解决此问题,该掩模损失使生成的注意图接近实例分割结果。此外,引入了PC丢失和多个注意图,以增强地图的清晰度并提高分类的性能。UCF101和SSV2的实验结果表明,通过所提出的方法生成的地图在定性和定量上比原始ABN的图更清晰。
translated by 谷歌翻译
交通事故预期是自动化驾驶系统(广告)提供安全保证的驾驶体验的重要功能。事故预期模型旨在在发生之前及时准确地预测事故。现有的人工智能(AI)意外预期模型缺乏对其决策的人类可意识形态的解释。虽然这些模型表现良好,但它们仍然是广告用户的黑匣子,因此难以获得他们的信任。为此,本文介绍了一个门控复发单位(GRU)网络,用于了解从Dashcam视频数据的交通事故的早期期间的时空关系特征。名为Grad-CAM的后HOC关注机制被集成到网络中,以产生显着图作为事故预期决策的视觉解释。眼跟踪器捕获人眼固定点以产生人类注意图。与人类注意图相比,评估网络生成的显着性图的解释性。在公共崩溃数据集上的定性和定量结果证实,建议的可解释网络可以平均预期事故,然后在发生之前的4.57秒,平均精度为94.02%。此外,评估各种基于HOC的基于后关注的XAI方法。它证实了本研究选择的渐变凸轮可以产生高质量的人类可解释的显着性图(具有1.23标准化的扫描路径显着性),以解释碰撞预期决定。重要的是,结果证实,拟议的AI模型,具有人类灵感设计,可以在事故期内超越人类。
translated by 谷歌翻译
3D卷积神经网络(3D CNN)在诸如视频序列之类的3D数据中捕获空间和时间信息。然而,由于卷积和汇集机制,信息损失似乎是不可避免的。为了改善3D CNN的视觉解释和分类,我们提出了两种方法; i)使用培训的3dresnext网络聚合到本地(全局 - 本地)离散梯度的层面全局,II)实施注意门控网络以提高动作识别的准确性。拟议的方法打算通过视觉归因,弱监督行动本地化和行动识别,显示各层在3D CNN中被称为全球局部关注的有用性。首先,使用关于最大预测类的BackPropagation培训3dresnext培训并应用于动作分类。然后将每层的梯度和激活取样。稍后,聚合用于产生更细致的注意力,指出了预测类输入视频的最关键部分。我们使用最终关注的轮廓阈值为最终的本地化。我们使用3DCAM使用细粒度的视觉解释来评估修剪视频中的空间和时间动作定位。实验结果表明,该拟议方法产生了丰富的视觉解释和歧视性的关注。此外,通过每个层上的注意栅格的动作识别产生比基线模型更好的分类结果。
translated by 谷歌翻译
计算机视觉任务可以从估计突出物区域和这些对象区域之间的相互作用中受益。识别对象区域涉及利用预借鉴模型来执行对象检测,对象分割和/或对象姿势估计。但是,由于以下原因,在实践中不可行:1)预用模型的训练数据集的对象类别可能不会涵盖一般计算机视觉任务的所有对象类别,2)佩戴型模型训练数据集之间的域间隙并且目标任务的数据集可能会影响性能,3)预磨模模型中存在的偏差和方差可能泄漏到导致无意中偏置的目标模型的目标任务中。为了克服这些缺点,我们建议利用一系列视频帧捕获一组公共对象和它们之间的相互作用的公共基本原理,因此视频帧特征之间的共分割的概念可以用自动的能力装配模型专注于突出区域,以最终的方式提高潜在的任务的性能。在这方面,我们提出了一种称为“共分割激活模块”(COSAM)的通用模块,其可以被插入任何CNN,以促进基于CNN的任何CNN的概念在一系列视频帧特征中的关注。我们在三个基于视频的任务中展示Cosam的应用即1)基于视频的人Re-ID,2)视频字幕分类,并证明COSAM能够在视频帧中捕获突出区域,从而引导对于显着的性能改进以及可解释的关注图。
translated by 谷歌翻译
该属性方法通过识别和可视化占据网络输出的输入区域/像素来提供用于以可视化方式解释不透明神经网络的方向。关于视觉上解释视频理解网络的归因方法,由于视频输入中存在的独特的时空依赖性以及视频理解网络的特殊3D卷积或经常性结构,它具有具有挑战性。然而,大多数现有的归因方法专注于解释拍摄单个图像的网络作为输入,并且少量设计用于视频归属的作品来处理视频理解网络的多样化结构。在本文中,我们调查了与多样化视频理解网络兼容的基于通用扰动的归因方法。此外,我们提出了一种新的正则化术语来增强方法,通过限制其归属的平滑度导致空间和时间维度。为了评估不同视频归因方法的有效性而不依赖于手动判断,我们引入了通过新提出的可靠性测量检查的可靠的客观度量。我们通过主观和客观评估和与多种重要归因方法进行比较验证了我们的方法的有效性。
translated by 谷歌翻译
在这项工作中,我们呈现SEQFormer,这是一个令人沮丧的视频实例分段模型。 SEQFormer遵循Vision变换器的原理,该方法模型视频帧之间的实例关系。然而,我们观察到一个独立的实例查询足以捕获视频中的时间序列,但应该独立地使用每个帧进行注意力机制。为此,SEQFormer在每个帧中定位一个实例,并聚合时间信息以学习视频级实例的强大表示,其用于动态地预测每个帧上的掩模序列。实例跟踪自然地实现而不进行跟踪分支或后处理。在YouTube-VIS数据集上,SEQFormer使用Reset-50个骨干和49.0 AP实现47.4个AP,其中Reset-101骨干,没有响铃和吹口哨。此类成果分别显着超过了以前的最先进的性能4.6和4.4。此外,与最近提出的Swin变压器集成,SEQFormer可以实现59.3的高得多。我们希望SEQFormer可能是一个强大的基线,促进了视频实例分段中的未来研究,同时使用更强大,准确,整洁的模型来实现该字段。代码和预先训练的型号在https://github.com/wjf5203/seqformer上公开使用。
translated by 谷歌翻译
现代自我监督的学习算法通常强制执行跨视图实例的表示的持久性。虽然非常有效地学习整体图像和视频表示,但这种方法成为在视频中学习时空时间细粒度的特征的子最优,其中场景和情况通过空间和时间演变。在本文中,我们介绍了上下文化的时空对比学习(Const-CL)框架,以利用自我监督有效学习时空时间细粒度的表示。我们首先设计一种基于区域的自我监督的借口任务,该任务要求模型从一个视图中学习将实例表示转换为上下文特征的另一个视图。此外,我们介绍了一个简单的网络设计,有效地调和了整体和本地表示的同时学习过程。我们评估我们对各种下游任务和CONST-CL的学习表现,实现了四个数据集的最先进结果。对于时空行动本地化,Const-CL可以使用AVA-Kinetics验证集的检测到框实现39.4%的地图和30.5%地图。对于对象跟踪,Const-CL在OTB2015上实现了78.1%的精度和55.2%的成功分数。此外,Const-CL分别在视频动作识别数据集,UCF101和HMDB51上实现了94.8%和71.9%的前1个微调精度。我们计划向公众发布我们的代码和模型。
translated by 谷歌翻译
在视频中利用时空冗余的自适应抽样对于在有限的计算机和电池资源的可穿戴设备上始终进行动作识别至关重要。常用的固定采样策略不是上下文感知的,并且可能会在视觉内容下进行样本,从而对计算效率和准确性产生不利影响。受到人类视觉感知机制的动脉视觉和动力前处理的概念的启发,我们引入了一种新型的自适应时空抽样方案,以进行有效的动作识别。我们的系统以低分辨率为扫描前扫视全球场景上下文,并决定跳过或要求在显着区域的高分辨率功能进行进一步处理。我们在Epic-Kitchens和UCF-101数据集上验证该系统以进行动作识别,并表明我们所提出的方法可以大大加快与最先进基线相比的准确性丧失的推断。
translated by 谷歌翻译
本文提出了一种通过视觉解释3D卷积神经网络(CNN)的决策过程的方法,并具有闭塞灵敏度分析的时间扩展。这里的关键思想是在输入3D时间空间数据空间中通过3D掩码遮住特定的数据,然后测量输出评分中的变更程度。产生较大变化程度的遮挡体积数据被认为是分类的更关键元素。但是,虽然通常使用遮挡敏感性分析来分析单个图像分类,但将此想法应用于视频分类并不是那么简单,因为简单的固定核心无法处理动作。为此,我们将3D遮挡掩模的形状调整为目标对象的复杂运动。通过考虑从输入视频数据中提取的光流的时间连续性和空间共存在,我们的灵活面膜适应性进行了。我们进一步建议通过使用分数的一阶部分导数相对于输入图像来降低其计算成本,以近似我们的方法。我们通过与删除/插入度量的常规方法和UCF-101上的指向度量来证明我们方法的有效性。该代码可在以下网址获得:https://github.com/uchiyama33/aosa。
translated by 谷歌翻译
由于存在对象的自然时间转换,视频是一种具有自我监督学习(SSL)的丰富来源。然而,目前的方法通常是随机采样用于学习的视频剪辑,这导致监督信号差。在这项工作中,我们提出了预先使用无监督跟踪信号的SSL框架,用于选择包含相同对象的剪辑,这有助于更好地利用对象的时间变换。预先使用跟踪信号在空间上限制帧区域以学习并通过在Grad-CAM注意图上提供监督来定位模型以定位有意义的物体。为了评估我们的方法,我们在VGG-Sound和Kinetics-400数据集上培训势头对比(MOCO)编码器,预先使用预先。使用Previts的培训优于Moco在图像识别和视频分类下游任务中独自学习的表示,从而获得了行动分类的最先进的性能。预先帮助学习更强大的功能表示,以便在背景和视频数据集上进行背景和上下文更改。从大规模未婚视频中学习具有预算的大规模未能视频可能会导致更准确和强大的视觉功能表示。
translated by 谷歌翻译
We introduce the Action Transformer model for recognizing and localizing human actions in video clips. We repurpose a Transformer-style architecture to aggregate features from the spatiotemporal context around the person whose actions we are trying to classify. We show that by using high-resolution, person-specific, class-agnostic queries, the model spontaneously learns to track individual people and to pick up on semantic context from the actions of others. Additionally its attention mechanism learns to emphasize hands and faces, which are often crucial to discriminate an action -all without explicit supervision other than boxes and class labels. We train and test our Action Transformer network on the Atomic Visual Actions (AVA) dataset, outperforming the state-of-the-art by a significant margin using only raw RGB frames as input.
translated by 谷歌翻译
在本文中,一种称为VigAt的纯粹发行的自下而上的方法,该方法将对象检测器与视觉变压器(VIT)骨干网络一起得出对象和框架功能,以及一个头网络来处理这些功能,以处理事件的任务提出了视频中的识别和解释。VIGAT头由沿空间和时间维度分解的图形注意网络(GAT)组成,以便有效捕获对象或帧之间的局部和长期依赖性。此外,使用从各个GAT块的邻接矩阵得出的加权内(wids),我们表明所提出的体系结构可以识别解释网络决策的最显着对象和框架。进行了全面的评估研究,表明所提出的方法在三个大型公开视频数据集(FCVID,Mini-Kinetics,ActivityNet)上提供了最先进的结果。
translated by 谷歌翻译
speed among all existing VIS models, and achieves the best result among methods using single model on the YouTube-VIS dataset. For the first time, we demonstrate a much simpler and faster video instance segmentation framework built upon Transformers, achieving competitive accuracy. We hope that VisTR can motivate future research for more video understanding tasks.
translated by 谷歌翻译
有效地对视频中的空间信息进行建模对于动作识别至关重要。为了实现这一目标,最先进的方法通常采用卷积操作员和密集的相互作用模块,例如非本地块。但是,这些方法无法准确地符合视频中的各种事件。一方面,采用的卷积是有固定尺度的,因此在各种尺度的事件中挣扎。另一方面,密集的相互作用建模范式仅在动作 - 欧元零件时实现次优性能,给最终预测带来了其他噪音。在本文中,我们提出了一个统一的动作识别框架,以通过引入以下设计来研究视频内容的动态性质。首先,在提取本地提示时,我们会生成动态尺度的时空内核,以适应各种事件。其次,为了将这些线索准确地汇总为全局视频表示形式,我们建议仅通过变压器在一些选定的前景对象之间进行交互,从而产生稀疏的范式。我们将提出的框架称为事件自适应网络(EAN),因为这两个关键设计都适应输入视频内容。为了利用本地细分市场内的短期运动,我们提出了一种新颖有效的潜在运动代码(LMC)模块,进一步改善了框架的性能。在几个大规模视频数据集上进行了广泛的实验,例如,某种东西,动力学和潜水48,验证了我们的模型是否在低拖鞋上实现了最先进或竞争性的表演。代码可在:https://github.com/tianyuan168326/ean-pytorch中找到。
translated by 谷歌翻译
在许多应用中,必须了解机器学习模型使其做出决定的原因是必不可少的,但这受到最先进的神经网络的黑匣子性质的抑制。因此,由于在深度学习中,增加了越来越长的关注,包括在视频理解领域。由于视频数据的时间维度,解释视频动作识别模型的主要挑战是产生时尚常规一致的视觉解释,这在现有文献中被忽略。在本文中,我们提出了基于频率的极值扰动(F-EP)来解释视频了解模型的决策。因为扰动方法给出的解释是在空间和时间上的噪声和非光滑的,所以我们建议用具有离散余弦变换(DCT)的神经网络模型来调制梯度图的频率。我们在一系列实验中展示了F-EP提供了更加不稳定的始终如一的解释,与现有的最先进的方法相比,更忠实地代表模型的决定。
translated by 谷歌翻译
我们努力努力探索的任务很少,名为Insbestantial对象检测(IOD),该任务旨在以以下特征定位对象:(1)具有不明显的边界的无定形形状; (2)与周围环境相似; (3)颜色不存在。因此,在单个静态框架中区分不理性对象是更具挑战性的,而空间和时间信息的协作表示至关重要。因此,我们构建了一个由600个视频(141,017帧)组成的iod-video数据集,其中涵盖了各种距离,尺寸,可见性和不同光谱范围捕获的场景。此外,我们为IOD开发了一个时空聚合框架,其中部署了不同的骨架,并精心设计了时空聚合损失(Staloss),以利用沿时轴的一致性来利用一致性。在IOD-VIDEO数据集上进行的实验表明,时空聚集可以显着改善IOD的性能。我们希望我们的工作能够吸引进一步的研究,以完成这项有价值但充满挑战的任务。该代码将在:\ url {https://github.com/calayzhou/iod-video}上可用。
translated by 谷歌翻译
Recently, increasing attention has been drawn to the internal mechanisms of convolutional neural networks, and the reason why the network makes specific decisions. In this paper, we develop a novel post-hoc visual explanation method called Score-CAM based on class activation mapping. Unlike previous class activation mapping based approaches, Score-CAM gets rid of the dependence on gradients by obtaining the weight of each activation map through its forward passing score on target class, the final result is obtained by a linear combination of weights and activation maps. We demonstrate that Score-CAM achieves better visual performance and fairness for interpreting the decision making process. Our approach outperforms previous methods on both recognition and localization tasks, it also passes the sanity check. We also indicate its application as debugging tools. The implementation is available 1 .
translated by 谷歌翻译
大多数现有的深神经网络都是静态的,这意味着它们只能以固定的复杂性推断。但资源预算可以大幅度不同。即使在一个设备上,实惠预算也可以用不同的场景改变,并且对每个所需预算的反复培训网络是非常昂贵的。因此,在这项工作中,我们提出了一种称为Mutualnet的一般方法,以训练可以以各种资源约束运行的单个网络。我们的方法列举了具有各种网络宽度和输入分辨率的模型配置队列。这种相互学习方案不仅允许模型以不同的宽度分辨率配置运行,而且还可以在这些配置之间传输独特的知识,帮助模型来学习更强大的表示。 Mutualnet是一般的培训方法,可以应用于各种网络结构(例如,2D网络:MobileNets,Reset,3D网络:速度,X3D)和各种任务(例如,图像分类,对象检测,分段和动作识别),并证明了实现各种数据集的一致性改进。由于我们只培训了这一模型,它对独立培训多种型号而言,它也大大降低了培训成本。令人惊讶的是,如果动态资源约束不是一个问题,则可以使用Mutualnet来显着提高单个网络的性能。总之,Mutualnet是静态和自适应,2D和3D网络的统一方法。代码和预先训练的模型可用于\ url {https://github.com/tayang1122/mutualnet}。
translated by 谷歌翻译
尽管从研究界获得了重大关注,但单眼视频中分段和跟踪对象的任务仍然有很多改进空间。现有工程同时证明了各种图像级分段任务的扩张和可变形卷曲的功效。这使得这种卷积的3D扩展也应该产生视频级分段任务的3D扩展。但是,这方面尚未在现有文献中彻底探讨。在本文中,我们提出了动态扩张卷积(D ^ 2Conv3d):一种新型类型的卷积,其汲取了来自扩张和可变形卷曲的灵感,并将它们延伸到3D(时空)域。我们通过实验表明,D ^ 2CONV3D可用于通过简单地使用D ^ 2CONV3D作为标准卷积的替代品来改进多个视频分段相关基准的多个3D CNN架构的性能。我们进一步表明,D ^ 2CONV3D OUT-upial延伸的现有扩张和可变形卷曲的速度扩展到3D。最后,我们在Davis 2016无监督的视频对象分段基准测试中设置了新的最先进的。代码在https://github.com/schmiddo/d2conv3d上公开提供。
translated by 谷歌翻译
在本文中,我们基于任何卷积神经网络中中间注意图的弱监督生成机制,并更加直接地披露了注意模块的有效性,以充分利用其潜力。鉴于现有的神经网络配备了任意注意模块,我们介绍了一个元评论家网络,以评估主网络中注意力图的质量。由于我们设计的奖励的离散性,提出的学习方法是在强化学习环境中安排的,在此设置中,注意力参与者和经常性的批评家交替优化,以提供临时注意力表示的即时批评和修订,因此,由于深度强化的注意力学习而引起了人们的关注。 (Dreal)。它可以普遍应用于具有不同类型的注意模块的网络体系结构,并通过最大程度地提高每个单独注意模块产生的最终识别性能的相对增益来促进其表现能力,如类别和实例识别基准的广泛实验所证明的那样。
translated by 谷歌翻译