智能论文笔记

CoViT: Real-time phylogenetics for the SARS-CoV-2 pandemic using Vision Transformers

Zuher Jahshan , Leonid Yavits

分类：机器学习

2022-08-09

实时病毒基因组检测，分类学分类和系统发育分析对于有效跟踪和控制病毒大流传学（例如COVID-19）至关重要。但是，空前且仍在增加的病毒基因组数据产生了计算瓶颈，从而有效防止了实时大流行跟踪。我们试图通过修改和应用视觉变压器（最近开发的用于图像识别的神经网络模型）来减轻这种瓶颈，以将病毒基因组（例如SARS-COV-2）的分类学分类和放置。我们的解决方案Covit将新获取的样品放在SARS-COV-2谱系的树上。 Covit返回的两个潜在位置之一是真实的位置，概率为99.0％。在Covit产生的五个潜在位置中找到正确位置的可能性为99.8％。在NVIDIAS GEFORCE RTX 2080 TI GPU上运行的每个基因组的放置时间为1.45ms。我们通过github：https：//github.com/zuherjahshan/covit向研究社区提供Covit。

translated by 谷歌翻译

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Alexey Dosovitskiy , Lucas Beyer , Alexander Kolesnikov , Dirk Weissenborn , Xiaohua Zhai , Thomas Unterthiner , Mostafa Dehghani , Matthias Minderer , Georg Heigold , Sylvain Gelly

分类：

2020-10-22

While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place. We show that this reliance on CNNs is not necessary and a pure transformer applied directly to sequences of image patches can perform very well on image classification tasks. When pre-trained on large amounts of data and transferred to multiple mid-sized or small image recognition benchmarks (ImageNet, CIFAR-100, VTAB, etc.), Vision Transformer (ViT) attains excellent results compared to state-of-the-art convolutional networks while requiring substantially fewer computational resources to train. 1

translated by 谷歌翻译

SwinCheX: Multi-label classification on chest X-ray images with transformers

Sina Taslimi , Soroush Taslimi , Nima Fathi , Mohammadreza Salehi , Mohammad Hossein Rohban

分类：计算机视觉

2022-06-09

根据诊断各种疾病的胸部X射线图像的可观增长，以及收集广泛的数据集，使用深神经网络进行了自动诊断程序，已经占据了专家的思想。计算机视觉中的大多数可用方法都使用CNN主链来获得分类问题的高精度。然而，最近的研究表明，在NLP中成为事实上方法的变压器也可以优于许多基于CNN的模型。本文提出了一个基于SWIN变压器的多标签分类深模型，作为实现最新诊断分类的骨干。它利用了头部体系结构来利用多层感知器（也称为MLP）。我们评估了我们的模型，该模型称为“ Chest X-Ray14”，最广泛，最大的X射线数据集之一，该数据集由30,000多名14例著名胸部疾病的患者组成100,000多个额叶/背景图像。我们的模型已经用几个数量的MLP层用于头部设置，每个模型都在所有类别上都达到了竞争性的AUC分数。胸部X射线14的全面实验表明，与以前的SOTA平均AUC为0.799相比，三层头的平均AUC得分为0.810，其平均AUC得分为0.810。我们建议对现有方法进行公平基准测试的实验设置，该设置可以用作未来研究的基础。最后，我们通过确认所提出的方法参与胸部的病理相关区域，从而跟进了结果。

translated by 谷歌翻译

ViT-ReT: Vision and Recurrent Transformer Neural Networks for Human Activity Recognition in Videos

James Wensel , Hayat Ullah , Arslan Munir , Erik Blasch

分类：计算机视觉

2022-08-16

人类活动识别是计算机视觉中的新出现和重要领域，旨在确定个体或个体正在执行的活动。该领域的应用包括从体育中生成重点视频到智能监视和手势识别。大多数活动识别系统依赖于卷积神经网络（CNN）的组合来从数据和复发性神经网络（RNN）中进行特征提取来确定数据的时间依赖性。本文提出并设计了两个用于人类活动识别的变压器神经网络：一个经常性变压器（RET），这是一个专门的神经网络，用于对数据序列进行预测，以及视觉变压器（VIT），一种用于提取显着的变压器的变压器（VIT）图像的特征，以提高活动识别的速度和可扩展性。我们在速度和准确性方面提供了对拟议的变压器神经网络与现代CNN和基于RNN的人类活动识别模型的广泛比较。

translated by 谷歌翻译

Fast-FNet: Accelerating Transformer Encoder Models via Efficient Fourier Layers

Nurullah Sevim , Ege Ozan Özyedek , Furkan Şahinuç , Aykut Koç

分类：自然语言处理 | 人工智能

2022-09-26

基于变压器的语言模型利用注意机制在几乎所有自然语言处理（NLP）任务中进行大量绩效改进。在其他几个领域也广泛研究了类似的关注结构。尽管注意力机制可显着增强模型的性能，但其二次复杂性阻止了长序列的有效处理。最近的工作着重于消除计算效率低下的缺点，并表明基于变压器的模型仍然可以在没有注意力层的情况下达到竞争结果。一项开创性的研究提出了FNET，该研究将注意力层取代了变压器编码器体系结构中的傅立叶变换（FT）。 FNET通过消除注意机制的计算负担来加速训练过程，在加速训练过程的同时，实现了有关原始变压器编码器模型的竞争性能。但是，FNET模型忽略了FT的基本特性，可以利用经典信号处理，以进一步提高模型效率。我们提出了不同的方法，以有效地部署FT在变压器编码器模型中。我们提出的架构具有较少的模型参数，较短的培训时间，较少的内存使用情况以及一些额外的性能改进。我们通过对共同基准的广泛实验来证明这些改进。

translated by 谷歌翻译

Multiple Instance Neuroimage Transformer

Ayush Singla , Qingyu Zhao , Daniel K. Do , Yuyin Zhou , Kilian M. Pohl , Ehsan Adeli

分类：计算机视觉 | 机器学习

2022-08-19

我们首次建议使用基于多个实例学习的无卷积变压器模型，称为多个实例神经图像变压器（Minit），以分类T1Weighted（T1W）MRIS。我们首先介绍了为神经图像采用的几种变压器模型。这些模型从输入体积提取非重叠的3D块，并对其线性投影进行多头自我注意。另一方面，Minit将输入MRI的每个非重叠的3D块视为其自己的实例，将其进一步分为非重叠的3D贴片，并在其上计算了多头自我注意力。作为概念验证，我们通过训练模型来评估模型的功效，以确定两个公共数据集的T1W-MRIS：青少年脑认知发展（ABCD）和青少年酒精和神经发展联盟（NCANDA）（NCANDA）。博学的注意力图突出了有助于识别脑形态计量学性别差异的体素。该代码可在https://github.com/singlaayush/minit上找到。

translated by 谷歌翻译

DeepEmotex: Classifying Emotion in Text Messages using Deep Transfer Learning

Maryam Hasan , Elke Rundensteiner , Emmanuel Agu

分类：机器学习

2022-06-12

转移学习已通过深度审慎的语言模型广泛用于自然语言处理，例如来自变形金刚和通用句子编码器的双向编码器表示。尽管取得了巨大的成功，但语言模型应用于小型数据集时会过多地适合，并且很容易忘记与分类器进行微调时。为了解决这个忘记将深入的语言模型从一个域转移到另一个领域的问题，现有的努力探索了微调方法，以减少忘记。我们建议DeepeMotex是一种有效的顺序转移学习方法，以检测文本中的情绪。为了避免忘记问题，通过从Twitter收集的大量情绪标记的数据来仪器进行微调步骤。我们使用策划的Twitter数据集和基准数据集进行了一项实验研究。 DeepeMotex模型在测试数据集上实现多级情绪分类的精度超过91％。我们评估了微调DeepeMotex模型在分类Emoint和刺激基准数据集中的情绪时的性能。这些模型在基准数据集中的73％的实例中正确分类了情绪。所提出的DeepeMotex-Bert模型优于BI-LSTM在基准数据集上的BI-LSTM增长23％。我们还研究了微调数据集的大小对模型准确性的影响。我们的评估结果表明，通过大量情绪标记的数据进行微调提高了最终目标任务模型的鲁棒性和有效性。

translated by 谷歌翻译

Visual Query Tuning: Towards Effective Usage of Intermediate Representations for Parameter and Memory Efficient Transfer Learning

Cheng-Hao Tu , Zheda Mai , Wei-Lun Chao

分类：机器学习 | 人工智能 | 计算机视觉

2022-12-06

Intermediate features of a pre-trained model have been shown informative for making accurate predictions on downstream tasks, even if the model backbone is kept frozen. The key challenge is how to utilize these intermediate features given their gigantic amount. We propose visual query tuning (VQT), a simple yet effective approach to aggregate intermediate features of Vision Transformers. Through introducing a handful of learnable ``query'' tokens to each layer, VQT leverages the inner workings of Transformers to ``summarize'' rich intermediate features of each layer, which can then be used to train the prediction heads of downstream tasks. As VQT keeps the intermediate features intact and only learns to combine them, it enjoys memory efficiency in training, compared to many other parameter-efficient fine-tuning approaches that learn to adapt features and need back-propagation through the entire backbone. This also suggests the complementary role between VQT and those approaches in transfer learning. Empirically, VQT consistently surpasses the state-of-the-art approach that utilizes intermediate features for transfer learning and outperforms full fine-tuning in many cases. Compared to parameter-efficient approaches that adapt features, VQT achieves much higher accuracy under memory constraints. Most importantly, VQT is compatible with these approaches to attain even higher accuracy, making it a simple add-on to further boost transfer learning.

translated by 谷歌翻译

Escaping the Big Data Paradigm with Compact Transformers

Ali Hassani , Steven Walton , Nikhil Shah , Abulikemu Abuduweili , Jiachen Li , Humphrey Shi

分类：计算机视觉 | 机器学习

2021-04-12

随着变压器作为语言处理的标准及其在计算机视觉方面的进步，参数大小和培训数据的数量相应地增长。许多人开始相信，因此，变形金刚不适合少量数据。这种趋势引起了人们的关注，例如：某些科学领域中数据的可用性有限，并且排除了该领域研究资源有限的人。在本文中，我们旨在通过引入紧凑型变压器来提出一种小规模学习的方法。我们首次表明，具有正确的尺寸，卷积令牌化，变压器可以避免在小数据集上过度拟合和优于最先进的CNN。我们的模型在模型大小方面具有灵活性，并且在获得竞争成果的同时，参数可能仅为0.28亿。当在CIFAR-10上训练Cifar-10，只有370万参数训练时，我们的最佳模型可以达到98％的准确性，这是与以前的基于变形金刚的模型相比，数据效率的显着提高，比其他变压器小于10倍，并且是15％的大小。在实现类似性能的同时，重新NET50。 CCT还表现优于许多基于CNN的现代方法，甚至超过一些基于NAS的方法。此外，我们在Flowers-102上获得了新的SOTA，具有99.76％的TOP-1准确性，并改善了Imagenet上现有基线（82.71％精度，具有29％的VIT参数）以及NLP任务。我们针对变压器的简单而紧凑的设计使它们更可行，可以为那些计算资源和/或处理小型数据集的人学习，同时扩展了在数据高效变压器中的现有研究工作。我们的代码和预培训模型可在https://github.com/shi-labs/compact-transformers上公开获得。

translated by 谷歌翻译

Class Token and Knowledge Distillation for Multi-head Self-Attention Speaker Verification Systems

Victoria Mingote , Antonio Miguel , Alfonso Ortega , Eduardo Lleida

分类：机器学习

2021-11-06

本文探讨了三种新方法，以利用多头自我关注（MSA）机制和存储器层，提高基于深神经网络（DNN）的扬声器验证（SV）系统的性能。首先，我们建议使用名为Class令牌的学习矢量来替换平均全局汇集机制以提取嵌入式。与全局平均水平池不同，我们的提案考虑了输入的时间结构，其中与文本相关的SV任务相关。类令牌连接到第一个MSA层之前的输入，并且其输出状态用于预测类。为了获得额外的稳健性，我们介绍了两种方法。首先，我们已经开发出古典令牌的贝叶斯估计。其次，我们添加了一个蒸馏的代表令牌，用于使用知识蒸馏（KD）哲学培训一对教师 - 学生对网络，与阶级令牌相结合。此蒸馏令牌受过培训，以模仿教师网络的预测，而类令牌复制真实标签。所有策略都在RSR2015-第II和DeepMine-Part 1数据库上进行了测试，用于文本相关的SV，与使用平均池机制相同的架构相比，提供竞争力的结果来提取平均嵌入。

translated by 谷歌翻译

Single-Layer Vision Transformers for More Accurate Early Exits with Less Overhead

Arian Bakhtiarnia , Qi Zhang , Alexandros Iosifidis

分类：机器学习 | 计算机视觉

2021-05-19

将深度学习模型部署在具有有限计算资源的时间关键性应用程序中，例如在边缘计算系统和IoT网络中，是一项具有挑战性的任务，通常依赖于动态推理方法（例如早期退出）。在本文中，我们介绍了一种基于视觉变压器体系结构的新型架构，用于早期退出，以及一种微调策略，该策略与传统方法相比，在引入较少的开销的同时，显着提高了早期出口分支的准确性。通过有关图像和音频分类以及视听人群计数的广泛实验，我们表明我们的方法在分类和回归问题以及单模式设置中都适用于分类和回归问题。此外，我们引入了一种新颖的方法，用于在视听数据分析的早期出口中整合音频和视觉方式，这可能导致更细粒度的动态推断。

translated by 谷歌翻译

Training data-efficient image transformers & distillation through attention

Hugo Touvron , Matthieu Cord , Matthijs Douze , Francisco Massa , Alexandre Sablayrolles , Hervé Jégou

分类：

2020-12-23

Recently, neural networks purely based on attention were shown to address image understanding tasks such as image classification. These highperforming vision transformers are pre-trained with hundreds of millions of images using a large infrastructure, thereby limiting their adoption.In this work, we produce competitive convolution-free transformers by training on Imagenet only. We train them on a single computer in less than 3 days. Our reference vision transformer (86M parameters) achieves top-1 accuracy of 83.1% (single-crop) on ImageNet with no external data.More importantly, we introduce a teacher-student strategy specific to transformers. It relies on a distillation token ensuring that the student learns from the teacher through attention. We show the interest of this token-based distillation, especially when using a convnet as a teacher. This leads us to report results competitive with convnets for both Imagenet (where we obtain up to 85.2% accuracy) and when transferring to other tasks. We share our code and models.

translated by 谷歌翻译

Action Transformer: A Self-Attention Model for Short-Time Human Action Recognition

Vittorio Mazzia , Simone Angarano , Francesco Salvetti , Federico Angelini , Marcello Chiaberge

分类：计算机视觉 | 机器学习

2021-07-01

基于纯粹关注的深度神经网络在几个领域中取得了成功，依赖于设计师的最小建筑前瞻性。在人类行动识别（HAR）中，主要是在标准卷积或复发层的顶部采用注意机制，从而提高了整体泛化能力。在这项工作中，我们介绍了动作变压器（ACT），这是一种简单的完全自我注意的架构，可以始终如一地优于混合卷积，复发和周度的更详细的网络。为了限制计算和能量请求，建立以前的人类行动识别研究，所提出的方法利用小型时间窗口的2D姿势表示，为准确且有效的实时性能提供低延迟解决方案。此外，我们开源MOMES2021是一个新的大规模数据集，作为建立正式培训和评估基准的实时短时哈哈。拟议的方法在MOMY2021上广泛测试，并与几个最先进的架构相比，证明了行为模型的有效性并铺设了未来工作的基础。

translated by 谷歌翻译

Transformer-based Hand Gesture Recognition via High-Density EMG Signals: From Instantaneous Recognition to Fusion of Motor Unit Spike Trains

Mansooreh Montazerin , Elahe Rahimian , Farnoosh Naderkhani , S. Farokh Atashzar , Svetlana Yanushkevich , Arash Mohammadi

分类：机器学习

2022-11-29

Designing efficient and labor-saving prosthetic hands requires powerful hand gesture recognition algorithms that can achieve high accuracy with limited complexity and latency. In this context, the paper proposes a compact deep learning framework referred to as the CT-HGR, which employs a vision transformer network to conduct hand gesture recognition using highdensity sEMG (HD-sEMG) signals. The attention mechanism in the proposed model identifies similarities among different data segments with a greater capacity for parallel computations and addresses the memory limitation problems while dealing with inputs of large sequence lengths. CT-HGR can be trained from scratch without any need for transfer learning and can simultaneously extract both temporal and spatial features of HD-sEMG data. Additionally, the CT-HGR framework can perform instantaneous recognition using sEMG image spatially composed from HD-sEMG signals. A variant of the CT-HGR is also designed to incorporate microscopic neural drive information in the form of Motor Unit Spike Trains (MUSTs) extracted from HD-sEMG signals using Blind Source Separation (BSS). This variant is combined with its baseline version via a hybrid architecture to evaluate potentials of fusing macroscopic and microscopic neural drive information. The utilized HD-sEMG dataset involves 128 electrodes that collect the signals related to 65 isometric hand gestures of 20 subjects. The proposed CT-HGR framework is applied to 31.25, 62.5, 125, 250 ms window sizes of the above-mentioned dataset utilizing 32, 64, 128 electrode channels. The average accuracy over all the participants using 32 electrodes and a window size of 31.25 ms is 86.23%, which gradually increases till reaching 91.98% for 128 electrodes and a window size of 250 ms. The CT-HGR achieves accuracy of 89.13% for instantaneous recognition based on a single frame of HD-sEMG image.

translated by 谷歌翻译

Vision Transformers for Action Recognition: A Survey

Anwaar Ulhaq , Naveed Akhtar , Ganna Pogrebna , Ajmal Mian

分类：计算机视觉 | 人工智能

2022-09-13

视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中，由于其广泛的应用，人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献，同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用，我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构，方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下，我们探讨了编码时空数据，降低维度降低，框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化，以处理更长的序列，通常通过减少单个注意操作中的令牌数量。此外，我们还研究了不同的网络学习策略，例如自我监督和零局学习，以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后，它提供了有关该研究方向的挑战，前景和未来途径的讨论。

translated by 谷歌翻译

A novel time-frequency Transformer based on self-attention mechanism and its application in fault diagnosis of rolling bearings

Yifei Ding , Minping Jia , Qiuhua Miao , Yudong Cao

分类：人工智能 | 机器学习

2021-04-19

通过深度学习（DL）大大扩展了数据驱动故障诊断模型的范围。然而，经典卷积和反复化结构具有计算效率和特征表示的缺陷，而基于注意机制的最新变压器架构尚未应用于该字段。为了解决这些问题，我们提出了一种新颖的时变电片（TFT）模型，其灵感来自序列加工的香草变压器大规模成功。特别是，我们设计了一个新的笨蛋和编码器模块，以从振动信号的时频表示（TFR）中提取有效抽象。在此基础上，本文提出了一种基于时变电片的新的端到端故障诊断框架。通过轴承实验数据集的案例研究，我们构建了最佳变压器结构并验证了其故障诊断性能。与基准模型和其他最先进的方法相比，证明了所提出的方法的优越性。

translated by 谷歌翻译

Video Vision Transformers for Violence Detection

Sanskar Singh , Shivaibhav Dewangan , Ghanta Sai Krishna , Vandit Tyagi , Sainath Reddy

分类：计算机视觉 | 人工智能

2022-09-08

执法和城市安全受到监视系统中的暴力事件的严重影响。尽管现代（智能）相机广泛可用且负担得起，但在大多数情况下，这种技术解决方案无能为力。此外，监测CCTV记录的人员经常显示出迟来的反应，从而导致对人和财产的灾难。因此，对迅速行动的暴力自动检测至关重要。拟议的解决方案使用了一种新颖的端到端深度学习视频视觉变压器（Vivit），可以在视频序列中熟练地辨别战斗，敌对运动和暴力事件。该研究提出了利用数据增强策略来克服较弱的电感偏见的缺点，同时在较小的培训数据集中训练视觉变压器。评估的结果随后可以发送给当地有关当局，可以分析捕获的视频。与最先进的（SOTA）相比，所提出的方法在某些具有挑战性的基准数据集上实现了吉祥的性能。

translated by 谷歌翻译

TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance

Yue Tao , Zhiwei Jia , Runze Ma , Shugong Xu

分类：计算机视觉

2021-11-16

场景文本识别（str）是图像和文本之间的重要桥梁，吸引了丰富的研究关注。虽然卷积神经网络（CNNS）在此任务中取得了显着的进展，但大多数现有工作都需要额外的模块（上下文建模模块）来帮助CNN捕获全局依赖项来解决归纳偏差并加强文本特征之间的关系。最近，该变压器已被提出作为通过自我关注机制的全球背景建模的有希望的网络，但在应用于识别时主要缺点是效率。我们提出了一个1-D拆分来解决复杂性的挑战，并用变压器编码器替换CNN，以减少对上下文建模模块的需求。此外，最近的方法使用冻结的初始嵌入来指导解码器对文本进行解码，导致精度损失。我们建议使用从变压器编码器中学到的学习学习的可读初始嵌入，使其自适应不同的输入图像。最重要的是，我们介绍了一个新颖的文本识别架构，名为基于变压器的文本识别器，其中包含三个阶段（转换，特征提取和预测）组成的初始嵌入指导（TRIG）。广泛的实验表明，我们的方法可以在文本识别基准上实现最先进的。

translated by 谷歌翻译

Visual Prompt Tuning

Menglin Jia , Luming Tang , Bor-Chun Chen , Claire Cardie , Serge Belongie , Bharath Hariharan , Ser-Nam Lim

分类：计算机视觉

2022-03-23

当前的Modus Operandi在改编预训练的模型中涉及更新所有骨干参数，即，完整的微调。本文介绍了视觉及时调整（VPT），作为视觉中大规模变压器模型的全面微调的有效替代方案。VPT从最近有效地调整大型语言模型的最新进展中汲取灵感，在输入空间中仅引入了少量的可训练参数（少于模型参数），同时保持模型骨架冻结。通过对各种下游识别任务的广泛实验，我们表明VPT与其他参数有效调整协议相比获得了显着的性能增长。最重要的是，在许多情况下，VPT甚至在模型能力和培训数据量表的许多情况下都胜过全面的微调，同时降低了每任务的存储成本。

translated by 谷歌翻译

Couplformer:Rethinking Vision Transformer with Coupling Attention Map

Hai Lan , Xihao Wang , Xian Wei

分类：计算机视觉

2021-12-10

随着自我关注机制的发展，变压器模型已经在计算机视觉域中展示了其出色的性能。然而，从完全关注机制带来的大规模计算成为内存消耗的沉重负担。顺序地，记忆的限制降低了改善变压器模型的可能性。为了解决这个问题，我们提出了一种名为耦合器的新的记忆经济性注意力机制，它将注意力映射与两个子矩阵分成并从空间信息中生成对准分数。应用了一系列不同的尺度图像分类任务来评估模型的有效性。实验结果表明，在ImageNet-1K分类任务上，与常规变压器相比，耦合器可以显着降低28％的存储器消耗，同时访问足够的精度要求，并且在占用相同的内存占用时表达了0.92％。结果，耦合器可以用作视觉任务中的有效骨干，并提供关于研究人员注意机制的新颖视角。

translated by 谷歌翻译