在现代制造环境中,对接触式任务的需求正在迅速增长。但是,很少有传统的机器人组装技能考虑任务执行过程中的环境限制,并且大多数人将这些限制作为终止条件。在这项研究中,我们提出了基于推动的混合位置/力组装技能,该技能可以在任务执行过程中最大化环境限制。据我们所知,这是在执行程序集任务期间使用推动操作考虑的第一项工作。我们已经证明,我们的技能可以使用移动操纵器系统组装任务实验最大化环境约束的利用,并在执行中实现100 \%的成功率。
translated by 谷歌翻译
香草自我注意的机制固有地依赖于预定和坚定的计算维度。这种僵化的性限制了它具有面向上下文的概括,可以带来更多的上下文提示和全球表示。为了减轻此问题,我们提出了一种可扩展的自我注意(SSA)机制,该机制利用两个缩放因素来释放查询,键和价值矩阵的维度,同时使它们不符合输入。这种可伸缩性可获得面向上下文的概括并增强对象灵敏度,从而将整个网络推向准确性和成本之间的更有效的权衡状态。此外,我们提出了一个基于窗口的自我注意事项(IWSA),该自我注意力(IWSA)通过重新合并独立的值代币并从相邻窗口中汇总空间信息来建立非重叠区域之间的相互作用。通过交替堆叠SSA和IWSA,可扩展的视觉变压器(可伸缩率)在通用视觉任务中实现最先进的性能。例如,在Imagenet-1K分类中,可伸缩率S的表现优于双胞胎-SVT-S,而Swin-T则比1.4%。
translated by 谷歌翻译
人类通过不同的渠道表达感受或情绪。以语言为例,它在不同的视觉声学上下文下需要不同的情绪。为了精确了解人类意图,并减少歧义和讽刺引起的误解,我们应该考虑多式联路信号,包括文本,视觉和声学信号。至关重要的挑战是融合不同的特征模式以进行情绪分析。为了有效地融合不同的方式携带的信息,更好地预测情绪,我们设计了一种基于新的多主题的融合网络,这是由任何两个对方式之间的相互作用不同的观察来启发,它们是不同的,并且它们不同样有助于最终的情绪预测。通过分配具有合理关注和利用残余结构的声学 - 视觉,声学 - 文本和视觉文本特征,我们参加了重要的特征。我们对四个公共多模式数据集进行了广泛的实验,包括中文和三种英文中的一个。结果表明,我们的方法优于现有的方法,并可以解释双模相互作用在多种模式中的贡献。
translated by 谷歌翻译
With the continuously thriving popularity around the world, fitness activity analytic has become an emerging research topic in computer vision. While a variety of new tasks and algorithms have been proposed recently, there are growing hunger for data resources involved in high-quality data, fine-grained labels, and diverse environments. In this paper, we present FLAG3D, a large-scale 3D fitness activity dataset with language instruction containing 180K sequences of 60 categories. FLAG3D features the following three aspects: 1) accurate and dense 3D human pose captured from advanced MoCap system to handle the complex activity and large movement, 2) detailed and professional language instruction to describe how to perform a specific activity, 3) versatile video resources from a high-tech MoCap system, rendering software, and cost-effective smartphones in natural environments. Extensive experiments and in-depth analysis show that FLAG3D contributes great research value for various challenges, such as cross-domain human action recognition, dynamic human mesh recovery, and language-guided human action generation. Our dataset and source code will be publicly available at https://andytang15.github.io/FLAG3D.
translated by 谷歌翻译
对象检测是各种关键计算机视觉任务的基础,例如分割,对象跟踪和事件检测。要以令人满意的精度训练对象探测器,需要大量数据。但是,由于注释大型数据集涉及大量劳动力,这种数据策展任务通常被外包给第三方或依靠志愿者。这项工作揭示了此类数据策展管道的严重脆弱性。我们提出MACAB,即使数据策展人可以手动审核图像,也可以将干净的图像制作清洁的图像将后门浸入对象探测器中。我们观察到,当后门被不明确的天然物理触发器激活时,在野外实现了错误分类和披肩的后门效应。与带有清洁标签的现有图像分类任务相比,带有清洁通道的非分类对象检测具有挑战性,这是由于每个帧内有多个对象的复杂性,包括受害者和非视野性对象。通过建设性地滥用深度学习框架使用的图像尺度函数,II结合了所提出的对抗性清洁图像复制技术,以及在考虑到毒品数据选择标准的情况下,通过建设性地滥用图像尺度尺度,可以确保MACAB的功效。广泛的实验表明,在各种现实世界中,MacAB在90%的攻击成功率中表现出超过90%的攻击成功率。这包括披肩和错误分类后门效应,甚至限制了较小的攻击预算。最先进的检测技术无法有效地识别中毒样品。全面的视频演示位于https://youtu.be/ma7l_lpxkp4上,该演示基于yolov4倒置的毒药率为0.14%,yolov4 clokaking后门和更快的速度R-CNN错误分类后门。
translated by 谷歌翻译
已经在生物大脑的皮层中观察到了侧向抑制连接,并且已经在其在认知功能中的作用进行了广泛的研究。但是,在深度学习中的香草版本反向传播中,所有梯度(可以理解为信号和噪声梯度)在重量更新过程中流过网络。这可能导致过度拟合。在这项工作中,受到生物横向抑制的启发,我们提出了梯度面膜,该面膜在反向传播过程中有效地滤除了噪声梯度。这使学习的功能信息可以更强烈地存储在网络中,同时滤除嘈杂或不重要的功能。此外,我们在分析上证明了人工神经网络中的横向抑制如何提高传播梯度的质量。提出了一个新的梯度质量标准,该标准可以用作训练各种卷积神经网络(CNN)的措施。最后,我们进行了几个不同的实验,以研究梯度掩模如何定量和定性地改善网络的性能。定量地,原始CNN体系结构的准确性,修剪后的准确性以及对抗攻击后的准确性已显示出改善。从定性上讲,使用梯度掩模训练的CNN开发了显着图,主要集中在感兴趣的对象上,这对于数据增强和网络解释性很有用。
translated by 谷歌翻译
视觉变压器的最新进展在基于点产生自我注意的新空间建模机制驱动的各种任务中取得了巨大成功。在本文中,我们表明,视觉变压器背后的关键要素,即输入自适应,远程和高阶空间相互作用,也可以通过基于卷积的框架有效地实现。我们介绍了递归封闭式卷积($ \ textit {g}^\ textit {n} $ conv),该卷积{n} $ conv)与封闭的卷积和递归设计执行高阶空间交互。新操作是高度灵活和可定制的,它与卷积的各种变体兼容,并将自我注意的两阶相互作用扩展到任意订单,而无需引入大量额外的计算。 $ \ textit {g}^\ textit {n} $ conv可以用作插件模块,以改善各种视觉变压器和基于卷积的模型。根据该操作,我们构建了一个名为Hornet的新型通用视觉骨干家族。关于ImageNet分类,可可对象检测和ADE20K语义分割的广泛实验表明,大黄蜂的表现优于Swin变形金刚,并具有相似的整体体系结构和训练配置的明显边距。大黄蜂还显示出对更多训练数据和更大模型大小的有利可伸缩性。除了在视觉编码器中的有效性外,我们还可以将$ \ textit {g}^\ textit {n} $ conv应用于特定于任务的解码器,并始终通过较少的计算来提高密集的预测性能。我们的结果表明,$ \ textIt {g}^\ textit {n} $ conv可以成为视觉建模的新基本模块,可有效结合视觉变形金刚和CNN的优点。代码可从https://github.com/raoyongming/hornet获得
translated by 谷歌翻译
最近,基于骨架的动作识别已经取得了快速进步和卓越的性能。在本文中,我们在跨数据集设置下调查了这个问题,这是现实情况下的新,务实且具有挑战性的任务。遵循无监督的域适应(UDA)范式,该动作标签仅在源数据集上可用,但在训练阶段的目标数据集中无法使用。与UDA的常规基于对抗性学习的方法不同,我们利用一个自学计划来减少两个基于骨架的动作数据集之间的域移动。我们的灵感来自Compism,Compism是20世纪初期的艺术类型,它破坏并重新组装了物体以传达更大的背景。通过分割和定制时间段或人体部位,我们设计了两个自制的学习分类任务,以探索基于骨架的动作的时间和空间依赖性,并提高模型的概括能力。我们在六个基于骨架的动作识别的数据集上进行实验,包括三个大规模数据集(NTU RGB+D,PKU-MMD和动力学),在其中建立了新的跨数据库设置和基准。广泛的结果表明,我们的方法优于最先进的方法。我们的模型和所有比较方法的源代码均可在https://github.com/shanice-l/st-cubism上获得。
translated by 谷歌翻译
回声状态网络(ESN)是一种经常性神经网络,由固定的储层组成,其中神经元随机连接和递归连接,仅通过训练输出连接权重才能获得所需的输出。一阶减少和控制误差(力)学习是一种在线监督培训方法,可以将ESN的混乱活动变成指定的活动模式。本文提出了一种基于递归最小二乘的复合力学习方法,以训练初始活动自发性混乱的ESN,其中采用动态回归器扩展和内存数据开发的复合学习技术来增强参数收敛。提出的方法应用于基准问题,以预测Mackey-Glass系统产生的混沌时间序列,而数值结果表明,与现有方法相比,它显着改善了学习和预测性能。
translated by 谷歌翻译
目前,这是一个热门的研究主题,可以在深度学习和物联网技术的帮助下实现大量光谱数据的准确,高效和实时识别。深度神经网络在光谱分析中起着关键作用。但是,更深层模型的推断是以静态方式进行的,不能根据设备进行调整。并非所有样本都需要分配所有计算以实现自信的预测,这阻碍了最大化整体性能。为了解决上述问题,我们提出了一个具有自适应推理的光谱数据分类框架。具体而言,要为不同样本分配不同的计算,同时更好地利用不同设备之间的协作,我们利用早期外观体系结构,将中间分类器放置在架构的不同深度,并在预测置信度达到预设阈值时输出结果。我们提出了一个自我介绍学习的训练范式,最深的分类器对浅的分类器进行了软监督,以最大程度地提高其性能和训练速度。同时,为了减轻早期外观范式中中间分类器的位置和数字设置的性能脆弱性,我们提出了一个自适应的残留网络。它可以调整不同曲线位置下每个块中的层数,因此它可以专注于曲线的重要位置(例如:拉曼峰),并根据任务性能和计算资源准确地分配适当的计算预算。据我们所知,本文是首次尝试通过自适应推断物联网平台下的光谱检测来进行优化。我们进行了许多实验,实验结果表明,我们所提出的方法可以比现有方法实现更高的计算预算性能。
translated by 谷歌翻译