智能论文笔记

Multimodal perception for dexterous manipulation

Guanqun Cao , Shan Luo

分类：计算机视觉 | 机器人

2021-12-28

人类通常以多语级方式感知世界，即视力，触摸，声音被利用从各种尺寸来了解周围环境。这些感官组合在一起以实现协同效应，其中学习比单独使用每个意义更有效。对于机器人，视觉和触摸是灵巧操纵的两个关键感觉。视觉通常为我们提供形状，颜色和触摸等明显的特征，提供诸如摩擦，纹理等的局部信息，这是由于视觉和触觉感官之间的互补性，我们希望将视觉和触摸相结合，以获得协同感应感和操纵。已经研究了许多研究关于多式化感知，例如跨模型学习，3D重建，具有视觉和触摸的多模式转换。具体地，我们提出了一种用于在视觉和触摸之间转换的跨模型感官数据生成框架，其能够产生现实的伪数据。通过使用这种跨模型翻译方法，我们可以帮助我们构成无法访问的数据，帮助我们从不同视图中了解对象的属性。最近，注意机制在视觉感知或触觉感知中成为一种流行的方法。我们提出了一种用于触觉纹理识别的时空关注模型，其考虑了空间特征和时间维度。我们所提出的方法不仅关注每个空间特征中的突出特征，而且还要在迄今为止的时间内模拟时间相关性。显而易见的改善证明了我们的选择性关注机制的效率。时空注意力方法在许多应用中具有诸如抓握，识别和多式联卡的许多应用。

translated by 谷歌翻译

Visuo-Haptic Object Perception for Robots: An Overview

Nicolás Navarro-Guerrero , Sibel Toprak , Josip Josifovski , Lorenzo Jamone

分类：机器人 | 人工智能

2022-03-22

人类的物体感知能力令人印象深刻，当试图开发具有类似机器人的解决方案时，这变得更加明显。从人类如何将视觉和触觉用于对象感知和相关任务的灵感中，本文总结了机器人应用的多模式对象感知的当前状态。它涵盖了生物学灵感，传感器技术，数据集以及用于对象识别和掌握的感觉数据处理的各个方面。首先，概述了多模式对象感知的生物学基础。然后讨论了传感技术和数据收集策略。接下来，介绍了主要计算方面的介绍，突出显示了每个主要应用领域的一些代表性文章，包括对象识别，传输学习以及对象操纵和掌握。最后，在每个领域的当前进步中，本文概述了有希望的新研究指示。

translated by 谷歌翻译

Robotic Perception of Object Properties using Tactile Sensing

Jiaqi Jiang , Shan Luo

分类：机器人

2021-12-28

触摸感在使人类能够理解和与周围环境互动方面发挥着关键作用。对于机器人，触觉感应也是不可替代的。在与物体交互时，触觉传感器为机器人提供了理解物体的有用信息，例如分布式压力，温度，振动和纹理。在机器人抓住期间，视力通常由其最终效应器封闭，而触觉感应可以测量视觉无法访问的区域。在过去的几十年中，已经为机器人开发了许多触觉传感器，并用于不同的机器人任务。在本章中，我们专注于使用触觉对机器人抓握的触觉，并研究近期对物质性质的触觉趋势。我们首先讨论了术语，即形状，姿势和材料特性对三个重要的物体特性的触觉感知。然后，我们通过触觉感应审查抓握稳定性预测的最新发展。在这些作品中，我们确定了在机器人抓握中协调视觉和触觉感应的要求。为了证明使用触觉传感来提高视觉感知，介绍了我们最近的抗议重建触觉触觉感知的发展。在所提出的框架中，首先利用相机视觉的大型接收领域以便快速搜索含有裂缝的候选区域，然后使用高分辨率光学触觉传感器来检查这些候选区域并重建精制的裂缝形状。实验表明，我们所提出的方法可以实现0.82mm至0.24mm的平均距离误差的显着降低，以便重建。最后，我们在讨论了对机器人任务中施加触觉感应的公开问题和未来方向的讨论。

translated by 谷歌翻译

Reducing Tactile Sim2Real Domain Gaps via Deep Texture Generation Networks

Tudor Jianu , Daniel Fernandes Gomes , Shan Luo

分类：机器人

2021-12-03

最近，已经开发了用于光学触觉传感器的仿真方法，以实现SIM2REAL学习，即首先在将它们部署到真实机器人上之前模拟中的培训模型。然而，真实物体中的一些人工制品是不可预测的，例如由制造过程引起的缺陷，或者通过自然磨损和撕裂划痕，因此不能在模拟中表示，导致模拟和实际触觉图像之间的显着差距。为了解决这个SIM2重点，我们提出了一种新颖的纹理生成网络，该网络将模拟图像映射到类似于与真正的不完美对象接触的真实传感器的光电型触觉图像。每个模拟触觉图像首先分为两种类型的区域：与对象和区域接触的区域。前者使用生成的纹理从真实触觉图像中的真实纹理中学到的纹理，而后者保持其外观，因为当传感器不与任何物体接触时。这确保了人工制品仅应用于传感器的变形区域。我们广泛的实验表明，所提出的纹理生成网络可以在传感器的变形区域上产生这些现实的艺术品，同时避免将纹理泄漏到无接触的区域。定量实验进一步揭示了当使用我们所提出的网络生成的适应图像进行SIM2REAL分类任务时，SIM2重点差距引起的准确性降低了38.43％，仅为0.81％。因此，这项工作有可能加速用于需要触觉感测的机器人任务的SIM2REAL学习。

translated by 谷歌翻译

Where Shall I Touch? Vision-Guided Tactile Poking for Transparent Object Grasping

Jiaqi Jiang , Guanqun Cao , Aaron Butterworth , Thanh-Toan Do , Shan Luo

分类：机器人

2022-08-20

对于机器人来说，拾取透明的对象仍然是一项具有挑战性的任务。透明对象（例如反射和折射）的视觉属性使依赖相机传感的当前抓握方法无法检测和本地化。但是，人类可以通过首先观察其粗剖面，然后戳其感兴趣的区域以获得良好的抓握轮廓来很好地处理透明的物体。受到这一点的启发，我们提出了一个新颖的视觉引导触觉框架，以抓住透明的物体。在拟议的框架中，首先使用分割网络来预测称为戳戳区域的水平上部区域，在该区域中，机器人可以在该区域戳入对象以获得良好的触觉读数，同时导致对物体状态的最小干扰。然后，使用高分辨率胶触觉传感器进行戳戳。鉴于触觉阅读有所改善的当地概况，计划掌握透明物体的启发式掌握。为了减轻对透明对象的现实世界数据收集和标记的局限性，构建了一个大规模逼真的合成数据集。广泛的实验表明，我们提出的分割网络可以预测潜在的戳戳区域，平均平均精度（地图）为0.360，而视觉引导的触觉戳戳可以显着提高抓地力成功率，从38.9％到85.2％。由于其简单性，我们提出的方法也可以被其他力量或触觉传感器采用，并可以用于掌握其他具有挑战性的物体。本文中使用的所有材料均可在https://sites.google.com/view/tactilepoking上获得。

translated by 谷歌翻译

Cascade Attention Guided Residue Learning GAN for Cross-Modal Translation

Bin Duan , Wei Wang , Hao Tang , Hugo Latapie , Yan Yan

分类：计算机视觉

2019-07-03

由于我们是婴儿，我们直观地发展了与视觉，音频和文本等不同认知传感器的输入相关联的能力。然而，在机器学习中，这种跨模型学习是一种非活动任务，因为不同的方式没有均匀性质。以前的作品发现，应该有不同的方式存在桥梁。从神经病学和心理学的角度来看，人类有能力将一种模态与另一个方式联系起来，例如，将一只鸟的图片与歌唱的唯一听证者相关联，反之亦然。机器学习算法是否可能恢复给定音频信号的场景？在本文中，我们提出了一种新型级联关注的残留甘（Car-GaN），旨在重建给定相应的音频信号的场景。特别地，我们介绍残留物模块，以逐渐降低不同方式之间的间隙。此外，具有新型分类损失函数的级联注意网络旨在解决跨模型学习任务。我们的模型在高级语义标签域中保持一致性，并且能够平衡两种不同的模式。实验结果表明，我们的模型在具有挑战性的子URMP数据集上实现了最先进的跨模型视听生成。代码将在https://github.com/tuffr5/car-gan中获得。

translated by 谷歌翻译

Touch and Go: Learning from Human-Collected Vision and Touch

Fengyu Yang , Chenyang Ma , Jiacheng Zhang , Jing Zhu , Wenzhen Yuan , Andrew Owens

分类：计算机视觉

2022-11-22

The ability to associate touch with sight is essential for tasks that require physically interacting with objects in the world. We propose a dataset with paired visual and tactile data called Touch and Go, in which human data collectors probe objects in natural environments using tactile sensors, while simultaneously recording egocentric video. In contrast to previous efforts, which have largely been confined to lab settings or simulated environments, our dataset spans a large number of "in the wild" objects and scenes. To demonstrate our dataset's effectiveness, we successfully apply it to a variety of tasks: 1) self-supervised visuo-tactile feature learning, 2) tactile-driven image stylization, i.e., making the visual appearance of an object more consistent with a given tactile signal, and 3) predicting future frames of a tactile signal from visuo-tactile inputs.

translated by 谷歌翻译

Learning Generalizable Vision-Tactile Robotic Grasping Strategy for Deformable Objects via Transformer

Yunhai Han , Rahul Batra , Nathan Boyd , Tuo Zhao , Yu She , Seth Hutchinson , Ye Zhao

分类：机器人

2021-12-13

可靠的机器人抓握，特别是具有可变形物体（例如水果），由于与夹持器，未知的物体动态和可变物体几何形状的欠扰接触相互作用，仍然是一个具有挑战性的任务。在这项研究中，我们提出了一种用于刚性夹持器的基于变压器的机器人抓握框架，其利用触觉和可视信息来用于安全对象抓握。具体地，变压器模型通过执行两个预定义的探索动作（夹紧和滑动）来学习具有传感器反馈的物理特征嵌入，并通过多层的Perceptron（MLP）预测最终抓握结果，具有给定的抓握强度。使用这些预测，通过推断使用用于抓握任务的安全抓握强度的抓握器。与卷积复制网络相比，变压器模型可以在图像序列上捕获长期依赖性，并同时处理空间时间特征。我们首先在公共数据集上基准测试在公共数据集上进行滑动检测。在此之后，我们表明变压器模型在掌握精度和计算效率方面优于CNN + LSTM模型。我们还收集我们自己的水果掌握数据集，并使用所看到和看不见的果实的拟议框架进行在线掌握实验。我们的代码和数据集在Github上公开。

translated by 谷歌翻译

Dual Domain-Adversarial Learning for Audio-Visual Saliency Prediction

Yingzi Fan , Longfei Han , Yue Zhang , Lechao Cheng , Chen Xia , Di Hu

分类：计算机视觉

2022-08-10

视觉和听觉信息对于确定视频中的显着区域都是有价值的。深度卷积神经网络（CNN）展示了应对视听显着性预测任务的强大能力。由于各种因素，例如拍摄场景和天气，源训练数据和目标测试数据之间通常存在适度的分布差异。域差异导致CNN模型目标测试数据的性能降解。本文提前尝试解决视听显着性预测的无监督域适应问题。我们提出了一种双重域交流学习算法，以减轻源数据和目标数据之间的域差异。首先，建立了一个特定的域歧视分支，以对齐听觉功能分布。然后，这些听觉功能通过跨模式自我发项模块融合到视觉特征中。设计了其他域歧视分支，以减少视觉特征的域差异和融合视听特征所隐含的视听相关性的差异。公共基准测试的实验表明，我们的方法可以减轻域差异引起的性能降解。

translated by 谷歌翻译

Visuo-Tactile Manipulation Planning Using Reinforcement Learning with Affordance Representation

Wenyu Liang , Fen Fang , Cihan Acar , Wei Qi Toh , Ying Sun , Qianli Xu , Yan Wu

分类：机器人

2022-07-14

越来越多的人期望在对象属性具有高感知不确定性的越来越多的非结构化环境中操纵对象。这直接影响成功的对象操纵。在这项工作中，我们提出了一个基于增强的学习动作计划框架，用于对象操纵，该框架既利用了在现有的多感觉反馈，也可以使用学习的注意力引导的深层负担能力模型作为感知状态。可承受的模型是从多种感官方式中学到的，包括视觉和触摸（触觉和力/扭矩），旨在预测和指示具有相似外观的物体的多个负担能力（即抓地力和推动力）的可操作区域属性（例如，质量分布）。然后，对基于DQN的深钢筋学习算法进行培训，以选择成功对象操纵的最佳动作。为了验证提出的框架的性能，使用开放数据集和收集的数据集对我们的方法进行评估和基准测试。结果表明，所提出的方法和整体框架的表现优于现有方法，并实现更好的准确性和更高的效率。

translated by 谷歌翻译

FT-HID: A Large Scale RGB-D Dataset for First and Third Person Human Interaction Analysis

Zihui Guo , Yonghong Hou , Pichao Wang , Zhimin Gao , Mingliang Xu , Wanqing Li

分类：计算机视觉

2022-09-21

人类相互作用的分析是人类运动分析的一个重要研究主题。它已经使用第一人称视觉（FPV）或第三人称视觉（TPV）进行了研究。但是，到目前为止，两种视野的联合学习几乎没有引起关注。原因之一是缺乏涵盖FPV和TPV的合适数据集。此外，FPV或TPV的现有基准数据集具有多个限制，包括样本数量有限，参与者，交互类别和模态。在这项工作中，我们贡献了一个大规模的人类交互数据集，即FT-HID数据集。 FT-HID包含第一人称和第三人称愿景的成对对齐的样本。该数据集是从109个不同受试者中收集的，并具有三种模式的90K样品。该数据集已通过使用几种现有的动作识别方法验证。此外，我们还引入了一种新型的骨骼序列的多视图交互机制，以及针对第一人称和第三人称视野的联合学习多流框架。两种方法都在FT-HID数据集上产生有希望的结果。可以预期，这一视力一致的大规模数据集的引入将促进FPV和TPV的发展，以及他们用于人类行动分析的联合学习技术。该数据集和代码可在\ href {https://github.com/endlichere/ft-hid} {here} {herefichub.com/endlichere.com/endlichere}中获得。

translated by 谷歌翻译

Visual-tactile Fusion for Transparent Object Grasping in Complex Backgrounds

Shoujie Li , Haixin Yu , Wenbo Ding , Houde Liu , Linqi Ye , Chongkun Xia , Xueqian Wang , Xiao-Ping Zhang

分类：机器人 | 人工智能

2022-11-30

The accurate detection and grasping of transparent objects are challenging but of significance to robots. Here, a visual-tactile fusion framework for transparent object grasping under complex backgrounds and variant light conditions is proposed, including the grasping position detection, tactile calibration, and visual-tactile fusion based classification. First, a multi-scene synthetic grasping dataset generation method with a Gaussian distribution based data annotation is proposed. Besides, a novel grasping network named TGCNN is proposed for grasping position detection, showing good results in both synthetic and real scenes. In tactile calibration, inspired by human grasping, a fully convolutional network based tactile feature extraction method and a central location based adaptive grasping strategy are designed, improving the success rate by 36.7% compared to direct grasping. Furthermore, a visual-tactile fusion method is proposed for transparent objects classification, which improves the classification accuracy by 34%. The proposed framework synergizes the advantages of vision and touch, and greatly improves the grasping efficiency of transparent objects.

translated by 谷歌翻译

Deep Learning for Face Anti-Spoofing: A Survey

Zitong Yu , Yunxiao Qin , Xiaobai Li , Chenxu Zhao , Zhen Lei , Guoying Zhao

分类：计算机视觉

2021-06-28

由于其在保护面部识别系统免于演示攻击（PAS）中的至关重要的作用，因此面部抗散热器（FAS）最近引起了人们的关注。随着越来越现实的PA随着新颖类型的发展，由于其表示能力有限，基于手工特征的传统FAS方法变得不可靠。随着近十年来大规模学术数据集的出现，基于深度学习的FA实现了卓越的性能并占据了这一领域。但是，该领域的现有评论主要集中在手工制作的功能上，这些功能过时，对FAS社区的进步没有任何启发。在本文中，为了刺激未来的研究，我们对基于深度学习的FAS的最新进展进行了首次全面综述。它涵盖了几个新颖且有见地的组成部分：1）除了使用二进制标签的监督（例如，``0'''for pas vs.'1'），我们还通过像素智能监督（例如，伪深度图）调查了最新方法； 2）除了传统的数据内评估外，我们还收集和分析专门为域概括和开放式FAS设计的最新方法； 3）除了商用RGB摄像机外，我们还总结了多模式（例如，深度和红外线）或专门（例如，光场和闪存）传感器下的深度学习应用程序。我们通过强调当前的开放问题并突出潜在的前景来结束这项调查。

translated by 谷歌翻译

Cross Vision-RF Gait Re-identification with Low-cost RGB-D Cameras and mmWave Radars

Dongjiang Cao , Ruofeng Liu , Hao Li , Shuai Wang , Wenchao Jiang , Chris Xiaoxuan Lu

分类：计算机视觉

2022-07-16

人类身份是对日常生活中许多应用的关键要求，例如个性化服务，自动监视，连续身份验证和大流行期间的接触跟踪等。这项工作研究了跨模式人类重新识别（REID）的问题，对跨摄像机允许区域（例如街道）和摄像头限制区域（例如办公室）的常规人类运动的反应。通过利用新出现的低成本RGB-D摄像机和MMWave雷达，我们提出了同时跨模式多人REID的首个视觉RF系统。首先，为了解决基本模式间差异，我们提出了一种基于人体观察到的镜面反射模型的新型签名合成算法。其次，引入了有效的跨模式深度度量学习模型，以应对在雷达和相机之间由非同步数据引起的干扰。通过在室内和室外环境中进行的广泛实验，我们证明了我们所提出的系统能够达到约92.5％的TOP-1准确性，而在56名志愿者中，〜97.5％的前5位精度。我们还表明，即使传感器的视野中存在多个主题，我们提出的系统也能够重新识别受试者。

translated by 谷歌翻译

Transformers in Vision: A Survey

Salman Khan , Muzammal Naseer , Munawar Hayat , Syed Waqas Zamir , Fahad Shahbaz Khan , Mubarak Shah

分类：

2021-01-04

Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.

translated by 谷歌翻译

VisTaNet: Attention Guided Deep Fusion for Surface Roughness Classification

Prasanna Kumar Routray , Aditya Sanjiv Kanade , Jay Bhanushali , Manivannan Muniyandi

分类：计算机视觉 | 机器学习

2022-09-18

人纹理感知是多感官输入的加权平均值：视觉和触觉。当视觉传感机制提取全局特征时，触觉机制通过提取本地特征来补充它。文献中缺乏耦合的视觉效果数据集是研究类似于人类质地知觉的多模式融合策略的挑战。本文介绍了一个视觉数据集，可扩大现有的触觉数据集。我们提出了一种新型的深层融合体系结构，该融合体使用四种类型的融合策略融合了视觉和触觉数据：求和，串联，最大程度和注意力。我们的模型仅在触觉（SVM -92.60％）和仅视觉（FENET -50-50-85.01％）体系结构方面显示出显着的性能改进（97.22％）。在几种融合技术中，注意引导的体系结构可提高分类的精度。我们的研究表明，类似于人类纹理感知，提出的模型选择了两种方式（视觉和触觉）的加权组合，从而导致表面粗糙度分类的精度较高。它选择最大化视觉模态失败的触觉方式的重量，反之亦然。

translated by 谷歌翻译

Beyond Just Vision: A Review on Self-Supervised Representation Learning on Multimodal and Temporal Data

Shohreh Deldari , Hao Xue , Aaqib Saeed , Jiayuan He , Daniel V. Smith , Flora D. Salim

分类：机器学习 | 计算机视觉

2022-06-06

最近，自我监督的表示学习（SSRL）在计算机视觉，语音，自然语言处理（NLP）以及最近的其他类型的模式（包括传感器的时间序列）中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法，以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同，该评论旨在以单一模式为重点介绍CV或NLP领域的方法，我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此，我们1）提供现有SSRL方法的全面分类，2）通过定义SSRL框架的关键组件来引入通用管道，3）根据其目标功能，网络架构和潜在应用程序，潜在的应用程序，潜在的应用程序，比较现有模型， 4）查看每个类别和各种方式中的现有多模式技术。最后，我们提出了现有的弱点和未来的机会。我们认为，我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点

translated by 谷歌翻译

Finger Multimodal Feature Fusion and Recognition Based on Channel Spatial Attention

Jian Guo , Jiaxiang Tu , Hengyi Ren , Chong Han , Lijuan Sun

分类：计算机视觉

2022-09-06

由于单峰生物识别系统的不稳定性和局限性，多模式系统吸引了研究人员的关注。但是，如何利用不同方式之间的独立和互补信息仍然是一个关键和具有挑战性的问题。在本文中，我们提出了一种基于指纹和手指静脉的多模式融合识别算法（指纹手指静脉 - 通道 - 通道空间注意融合模块，FPV-CSAFM）。具体而言，对于每对指纹和手指静脉图像，我们首先提出一个简单有效的卷积神经网络（CNN）来提取特征。然后，我们构建一个多模式融合模块（通道空间注意融合模块，CSAFM），以完全融合指纹和指纹之间的互补信息。与现有的融合策略不同，我们的融合方法可以根据渠道和空间维度不同模态的重要性动态调整融合权重，以便更好地将信息之间的信息更好地结合在一起，并提高整体识别性能。为了评估我们方法的性能，我们在多个公共数据集上进行了一系列实验。实验结果表明，所提出的FPV-CSAFM基于指纹和手指静脉在三个多模式数据集上实现了出色的识别性能。

translated by 谷歌翻译

Attention-Enhanced Cross-modal Localization Between 360 Images and Point Clouds

Zhipeng Zhao , Huai Yu , Chenwei Lyv , Wen Yang , Sebastian Scherer

分类：计算机视觉 | 机器人

2022-12-06

Visual localization plays an important role for intelligent robots and autonomous driving, especially when the accuracy of GNSS is unreliable. Recently, camera localization in LiDAR maps has attracted more and more attention for its low cost and potential robustness to illumination and weather changes. However, the commonly used pinhole camera has a narrow Field-of-View, thus leading to limited information compared with the omni-directional LiDAR data. To overcome this limitation, we focus on correlating the information of 360 equirectangular images to point clouds, proposing an end-to-end learnable network to conduct cross-modal visual localization by establishing similarity in high-dimensional feature space. Inspired by the attention mechanism, we optimize the network to capture the salient feature for comparing images and point clouds. We construct several sequences containing 360 equirectangular images and corresponding point clouds based on the KITTI-360 dataset and conduct extensive experiments. The results demonstrate the effectiveness of our approach.

translated by 谷歌翻译

3D Vision with Transformers: A Survey

Jean Lahoud , Jiale Cao , Fahad Shahbaz Khan , Hisham Cholakkal , Rao Muhammad Anwer , Salman Khan , Ming-Hsuan Yang

分类：计算机视觉

2022-08-08

变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性，变压器已被用作广泛使用的卷积运算符的替代品。事实证明，这种替代者在许多任务中都取得了成功，其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中，3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上，但由于与2D视觉相比，由于数据表示和处理的差异，3D视觉需要特别注意。在这项工作中，我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查，包括分类，细分，检测，完成，姿势估计等。我们在3D Vision中讨论了变形金刚的设计，该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序，我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力，我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外，我们的目标是频繁更新最新的相关论文及其相应的实现：https：//github.com/lahoud/3d-vision-transformers。

translated by 谷歌翻译