经过Imagenet训练的Pytorch型号通常是直接使用或在大多数计算机视觉任务中进行初始化的现成模型。在本文中,我们只是在许多简单的图像变换下,仅测试这些卷积和基于变压器模型的代表性集由这种转变引起。我们发现,即使是简单的转换,例如将图像旋转10 {\ deg}或20%的放大也可以降低Resnet152(例如Resnet152)的前1个准确性,从而降低1%+。该代码可在https://github.com/harshm121/imagenet-transformation-degradation上获得。
translated by 谷歌翻译
为了在看不见的看不见和潜在的超出分布样品上,希望机器学习模型具有关于影响输入变化因子的变换的可预测响应。在这里,我们研究了几种类型的归纳偏见对这种可预测行为的相对重要性:数据的选择,他们的增强和模型架构。通过手工工程数据增强通常实现不变性,但是进行标准数据增强地址转换,用于解释实际数据的变化?虽然事先工作专注于合成数据,但我们在此尝试表征真实数据集,想象成的变化因素,并研究标准残余网络的不变性以及最近提出的视觉变压器关于这些因素的变化。我们展示了标准的增强依赖于平移和规模的精确组合,在翻译回顾大部分性能改进 - 尽管在卷积架构(如剩余网络)中建立的(近似)翻译不变性。事实上,我们发现规模和翻译不变性在剩余网络和视觉变压器模型中类似于它们显着不同的架构感应偏差。我们显示培训数据本身是不变性的主要来源,数据增强只会进一步增加所学到的InorRARCE。值得注意的是,在训练期间学习的修正因与我们发现的想象成分对齐。最后,我们发现想象成的变化的主要因素主要与外观有关,并且特定于每个班级。
translated by 谷歌翻译
如果要成功部署在高风险现实世界应用程序(例如自动驾驶汽车)中,则深层网络应对罕见事件具有强大的核心。在这里,我们研究了深网识别异常姿势对象的能力。我们创建了一个在异常方向上的对象图像的合成数据集,并评估了38个最新且竞争性深网的鲁棒性,用于图像分类。我们表明,对所有测试的网络进行分类仍然是一个挑战,与直立物体显示时,平均准确度下降了29.5%。这种脆弱性在很大程度上不受各种网络设计选择的影响,例如培训损失(例如,有监督与自我监督),架构(例如,卷积网络与变形金刚),数据集模式(例如,图像与图像 - text对) ,以及数据授权方案。但是,在非常大的数据集上训练的网络基本上要优于其他培训,最好的网络测试了$ \ unicode {x2014} $ noisy学生Efficentnet-L2接受了JFT-300m $ \ unicode {x2014} $的训练,只有相对较小的准确率,仅准确14.5百分比不寻常的姿势。然而,对嘈杂学生的失败的视觉检查表明,与人类视觉系统的稳定性存在剩余差距。此外,结合多个对象转换$ \ unicode {x2014} $ 3D旋转并缩放$ \ unicode {x2014} $进一步降低了所有网络的性能。总的来说,我们的结果提供了对深网的鲁棒性的另一种衡量,在现实世界中使用它们时要考虑的重要性很重要。代码和数据集可在https://github.com/amro-kamal/objectpose上找到。
translated by 谷歌翻译
视觉变压器(VIT)已被证明可以在广泛的视觉应用中获得高度竞争性的性能,例如图像分类,对象检测和语义图像分割。与卷积神经网络相比,通常发现视觉变压器的较弱的电感偏差会在较小的培训数据集上培训时,会增加对模型正则化或数据增强的依赖(简称为“ AUGREG”)。我们进行了一项系统的实证研究,以便更好地了解培训数据,AUGREG,模型大小和计算预算之间的相互作用。作为这项研究的一个结果,我们发现增加的计算和AUGREG的组合可以产生与在数量级上训练的模型相同的训练数据的模型:我们在公共Imagenet-21K数据集中培训各种尺寸的VIT模型在较大的JFT-300M数据集上匹配或超越其对手的培训。
translated by 谷歌翻译
我们提供了各种图像分类体系结构(卷积,视觉变压器和完全连接的MLP网络)和数据增强技术的详细评估。我们进行以下观察结果:(a)在没有数据增强的情况下,所有体系结构,包括卷积网络在翻译测试分布中评估时的性能下降。可以理解的是,对于非跨跨结构,分配准确性以及降解对变化都明显较差。 (b)在所有体系结构中,即使是$ 4 $ PIXEL随机农作物的最小增强也可以提高性能的稳健性,从而在测试数据中更大的图像大小($ 8 $ - $ 16 $像素)的更大幅度转移 - - 提出一种从增强性的元概括形式。对于非横线架构,虽然绝对精度仍然很低,但我们看到稳健性对大型翻译转移的稳定性有了显着改善。 (c)具有足够高级的增强($ 4 $ PIXEL CROP+RANDAGEMTANTY+RASANing+Mixup)管道,所有架构都可以训练以具有竞争性能,无论是在分发精度以及对大型翻译转移的推广方面。
translated by 谷歌翻译
在数字全息(DH)中,从全息图提取物体距离至关重要,以便重建其幅度和相位。该步骤称为自动聚焦,并且通过首先重建一堆图像来常规解决,然后使用诸如熵或方差的焦点度量锐化每个重建的图像来解决。对应于尖锐图像的距离被认为是焦点位置。这种方法虽然有效,但是计算得出要求苛刻和耗时。在本文中,通过深度学习(DL)来执行距离的确定。比较两个深度学习(DL)架构:卷积神经网络(CNN)和视觉变压器(VIT)。 Vit和CNN用于应对自动聚焦作为分类问题的问题。与第一次尝试[11]相比,其中两个连续类的距离为100美元\ mu $ m,我们的提案使我们能够大大减少到1美元$ m的距离。此外,Vit达到类似的准确性,比CNN更强壮。
translated by 谷歌翻译
Understanding the 3D world from 2D images involves more than detection and segmentation of the objects within the scene. It also includes the interpretation of the structure and arrangement of the scene elements. Such understanding is often rooted in recognizing the physical world and its limitations, and in prior knowledge as to how similar typical scenes are arranged. In this research we pose a new challenge for neural network (or other) scene understanding algorithms - can they distinguish between plausible and implausible scenes? Plausibility can be defined both in terms of physical properties and in terms of functional and typical arrangements. Hence, we define plausibility as the probability of encountering a given scene in the real physical world. We build a dataset of synthetic images containing both plausible and implausible scenes, and test the success of various vision models in the task of recognizing and understanding plausibility.
translated by 谷歌翻译
概括和不变性是任何机器学习模型的两个基本属性。概括捕获了模型对看不见的数据进行分类的能力,而不变性测量数据转换的模型预测的一致性。现有研究表明存在积极的关系:概括井的模型应该是某些视觉因素的不变性。在这种定性含义的基础上,我们做出了两项贡献。首先,我们引入有效不变性(EI),这是一种简单合理的模型不变性度量,不依赖图像标签。给定对测试图像及其转换版本的预测,EI衡量了预测如何与何种置信度相吻合。其次,使用EI计算的不变性得分,我们在泛化和不变性之间进行大规模的定量相关研究,重点是旋转和灰度转换。从以模型为中心的角度来看,我们观察到不同模型的概括和不变性在分布和分布数据集上都表现出牢固的线性关系。从以数据集为中心的视图中,我们发现某个模型的精度和不变性在不同的测试集上线性相关。除了这些主要发现外,还讨论了其他次要但有趣的见解。
translated by 谷歌翻译
积极的数据增强是视觉变压器(VIT)的强大泛化能力的关键组成部分。一种这样的数据增强技术是对抗性培训;然而,许多先前的作品表明,这通常会导致清洁的准确性差。在这项工作中,我们展示了金字塔对抗训练,这是一种简单有效的技术来提高韦维尔的整体性能。我们将其与“匹配”辍学和随机深度正则化配对,这采用了干净和对抗样品的相同辍学和随机深度配置。类似于Advprop的CNNS的改进(不直接适用于VIT),我们的金字塔对抗性训练会破坏分销准确性和vit和相关架构的分配鲁棒性之间的权衡。当Imagenet-1K数据训练时,它导致ImageNet清洁准确性的182美元的vit-B模型的精确度,同时由7美元的稳健性指标同时提高性能,从$ 1.76 \%$至11.45 \%$。我们为Imagenet-C(41.4 MCE),Imagenet-R($ 53.92 \%$),以及Imagenet-Sketch(41.04美元\%$)的新的最先进,只使用vit-b / 16骨干和我们的金字塔对抗训练。我们的代码将在接受时公开提供。
translated by 谷歌翻译
近年来,我们在视频动作识别方面取得了巨大进展。有几种基于卷积神经网络(CNN)的模型,采用了一些基于变压器的方法,可在现有基准数据集上提供最先进的性能。但是,对于这些模型,尚未研究大规模的鲁棒性,这对于现实世界应用而言是关键方面。在这项工作中,我们对这些现有模型进行大规模鲁棒性分析,以供视频识别。我们主要关注因现实世界扰动而不是对抗性扰动引起的分配变化的鲁棒性。我们提出了四个不同的基准数据集,即HMDB-51P,UCF-101P,Kinetics-400P和SSV2P,并研究了六种针对90种不同扰动的六种不同最先进的动作识别模型的鲁棒性。该研究揭示了一些有趣的发现,1)基于变压器的模型与基于CNN的模型相比,对于大多数扰动,基于变压器的模型始终更健壮,2)预训练有助于基于变压器的模型比基于CNN的模型更适合不同的扰动,而3)所有研究的模型对动力学数据集的时间扰动都具有鲁棒性,但在SSV2上却不是。这表明时间信息对于SSV2数据集的动作标签预​​测比动力学数据集更为重要。我们希望这项研究能够作为在强大的视频行动识别中进行未来研究的基准。有关该项目的更多详细信息,请访问https://rose-ar.github.io/。
translated by 谷歌翻译
缺失或缺乏输入功能,是许多模型调试工具的基础概念。但是,在计算机视觉中,不能简单地从图像中删除像素。因此,一种倾向于诉诸启发式方法,例如涂黑像素,这反过来又可能引入调试过程中的偏见。我们研究了这样的偏见,特别是展示了基于变压器的架构如何使遗失性更自然地实施,哪些侧架来侧翼这些问题并提高了实践中模型调试的可靠性。我们的代码可从https://github.com/madrylab/missingness获得
translated by 谷歌翻译
视觉变压器(VIV)架构最近在各种计算机视觉任务中实现了竞争性能。与卷积神经网络(CNNS)相比,VITS背后的动机之一是较弱的感应偏差。然而,这也使VIT更难以训练。它们需要非常大的培训数据集,重型正常化和强大的数据增强。尽管两种架构之间存在显着差异,但用于培训VITS的数据增强策略主要是从CNN培训继承的。在这项工作中,我们经验性评估了如何在CNN(例如,Reset)对图像分类的VIT架构上进行的不同数据增强策略。我们介绍了一种风格的转移数据增强,称为STYLEAUM,这适合培训VITS,而RANDAURMMENT和AUGMIX通常最适合培训CNNS。我们还发现,除了分类损失之外,在培训VITS时,使用同一图像的多个增强之间的一致性损耗尤为有用。
translated by 谷歌翻译
Regional dropout strategies have been proposed to enhance the performance of convolutional neural network classifiers. They have proved to be effective for guiding the model to attend on less discriminative parts of objects (e.g. leg as opposed to head of a person), thereby letting the network generalize better and have better object localization capabilities. On the other hand, current methods for regional dropout remove informative pixels on training images by overlaying a patch of either black pixels or random noise. Such removal is not desirable because it leads to information loss and inefficiency during training. We therefore propose the CutMix augmentation strategy: patches are cut and pasted among training images where the ground truth labels are also mixed proportionally to the area of the patches. By making efficient use of training pixels and retaining the regularization effect of regional dropout, CutMix consistently outperforms the state-of-the-art augmentation strategies on CI-FAR and ImageNet classification tasks, as well as on the Im-ageNet weakly-supervised localization task. Moreover, unlike previous augmentation methods, our CutMix-trained ImageNet classifier, when used as a pretrained model, results in consistent performance gains in Pascal detection and MS-COCO image captioning benchmarks. We also show that CutMix improves the model robustness against input corruptions and its out-of-distribution detection performances. Source code and pretrained models are available at https://github.com/clovaai/CutMix-PyTorch.
translated by 谷歌翻译
变压器模型在处理各种视觉任务方面表现出了有希望的有效性。但是,与训练卷积神经网络(CNN)模型相比,训练视觉变压器(VIT)模型更加困难,并且依赖于大规模训练集。为了解释这一观察结果,我们做出了一个假设,即\ textit {vit模型在捕获图像的高频组件方面的有效性较小,而不是CNN模型},并通过频率分析对其进行验证。受这一发现的启发,我们首先研究了现有技术从新的频率角度改进VIT模型的影响,并发现某些技术(例如,randaugment)的成功可以归因于高频组件的更好使用。然后,为了补偿这种不足的VIT模型能力,我们提出了HAT,该HAT可以通过对抗训练直接增强图像的高频组成部分。我们表明,HAT可以始终如一地提高各种VIT模型的性能(例如VIT-B的 +1.2%,Swin-B的 +0.5%),尤其是提高了仅使用Imagenet-的高级模型Volo-D5至87.3% 1K数据,并且优势也可以维持在分发数据的数据上,并转移到下游任务。该代码可在以下网址获得:https://github.com/jiawangbai/hat。
translated by 谷歌翻译
Data augmentation is an effective technique for improving the accuracy of modern image classifiers. However, current data augmentation implementations are manually designed. In this paper, we describe a simple procedure called AutoAugment to automatically search for improved data augmentation policies. In our implementation, we have designed a search space where a policy consists of many subpolicies, one of which is randomly chosen for each image in each mini-batch. A sub-policy consists of two operations, each operation being an image processing function such as translation, rotation, or shearing, and the probabilities and magnitudes with which the functions are applied. We use a search algorithm to find the best policy such that the neural network yields the highest validation accuracy on a target dataset. Our method achieves state-of-the-art accuracy on SVHN, and ImageNet (without additional data). On ImageNet, we attain a Top-1 accuracy of 83.5% which is 0.4% better than the previous record of 83.1%. On CIFAR-10, we achieve an error rate of 1.5%, which is 0.6% better than the previous state-of-theart. Augmentation policies we find are transferable between datasets. The policy learned on ImageNet transfers well to achieve significant improvements on other datasets, such as Oxford Flowers, Caltech-101, Oxford-IIT Pets, FGVC Aircraft, and Stanford Cars. * Work performed as a member of the Google Brain Residency Program.† Equal contribution.
translated by 谷歌翻译
在本文中,我们询问视觉变形金刚(VIT)是否可以作为改善机器学习模型对抗逃避攻击的对抗性鲁棒性的基础结构。尽管较早的作品集中在改善卷积神经网络上,但我们表明VIT也非常适合对抗训练以实现竞争性能。我们使用自定义的对抗训练配方实现了这一目标,该配方是在Imagenet数据集的一部分上使用严格的消融研究发现的。与卷积相比,VIT的规范培训配方建议强大的数据增强,部分是为了补偿注意力模块的视力归纳偏置。我们表明,该食谱在用于对抗训练时可实现次优性能。相比之下,我们发现省略所有重型数据增强,并添加一些额外的零件($ \ varepsilon $ -Warmup和更大的重量衰减),从而大大提高了健壮的Vits的性能。我们表明,我们的配方在完整的Imagenet-1k上概括了不同类别的VIT体系结构和大规模模型。此外,调查了模型鲁棒性的原因,我们表明,在使用我们的食谱时,在训练过程中产生强烈的攻击更加容易,这会在测试时提高鲁棒性。最后,我们通过提出一种量化对抗性扰动的语义性质并强调其与模型的鲁棒性的相关性来进一步研究对抗训练的结果。总体而言,我们建议社区应避免将VIT的规范培训食谱转换为在对抗培训的背景下进行强大的培训和重新思考常见的培训选择。
translated by 谷歌翻译
由多种自我关注层组成的变压器,对适用于不同数据方式的通用学习原语,包括计算机视觉最新(SOTA)标准准确性的近期突破。什么仍然很大程度上未开发,是他们的稳健性评估和归因。在这项工作中,我们研究了视觉变压器(VIT)对共同腐败和扰动,分布换算和自然对抗例的鲁棒性。我们使用六种不同的多样化想象数据集关于强大的分类,进行vit模型和Sota卷积神经网络(CNNS)的全面性能比较,大转移。通过一系列系统地设计的实验,我们提供了分析,这些分析提供了定量和定性迹象,以解释为什么VITS确实更强大的学习者。例如,对于更少的参数和类似的数据集和预训练组合,VIT在ImageNet-A上给出了28.10%的前1个精度,这是比一位的可比较变体高4.3x。我们对图像掩蔽,傅里叶谱灵敏度和传播的分析,在离散余弦能量谱上揭示了Vit归属于改善鲁棒性的损伤性能。再现我们的实验的代码可在https://git.io/j3vo0上获得。
translated by 谷歌翻译
We build new test sets for the CIFAR-10 and ImageNet datasets. Both benchmarks have been the focus of intense research for almost a decade, raising the danger of overfitting to excessively re-used test sets. By closely following the original dataset creation processes, we test to what extent current classification models generalize to new data. We evaluate a broad range of models and find accuracy drops of 3% -15% on CIFAR-10 and 11% -14% on ImageNet. However, accuracy gains on the original test sets translate to larger gains on the new test sets. Our results suggest that the accuracy drops are not caused by adaptivity, but by the models' inability to generalize to slightly "harder" images than those found in the original test sets.
translated by 谷歌翻译
We collect a large real-world test set, ObjectNet, for object recognition with controls where object backgrounds, rotations, and imaging viewpoints are random. Most scientific experiments have controls, confounds which are removed from the data, to ensure that subjects cannot perform a task by exploiting trivial correlations in the data. Historically, large machine learning and computer vision datasets have lacked such controls. This has resulted in models that must be fine-tuned for new datasets and perform better on datasets than in real-world applications. When tested on ObjectNet, object detectors show a 40-45% drop in performance, with respect to their performance on other benchmarks, due to the controls for biases. Controls make ObjectNet robust to fine-tuning showing only small performance increases. We develop a highly automated platform that enables gathering datasets with controls by crowdsourcing image capturing and annotation. ObjectNet is the same size as the ImageNet test set (50,000 images), and by design does not come paired with a training set in order to encourage generalization. The dataset is both easier than ImageNet -objects are largely centered and unoccluded -and harder, due to the controls. Although we focus on object recognition here, data with controls can be gathered at scale using automated tools throughout machine learning to generate datasets that exercise models in new ways thus providing valuable feedback to researchers. This work opens up new avenues for research in generalizable, robust, and more human-like computer vision and in creating datasets where results are predictive of real-world performance.
translated by 谷歌翻译
深度学习和计算机视觉的最新进展减轻了许多瓶颈,从而使算法无标记,并且性能更好。具体而言,变形金刚提供了图像的全球视角,该图像卷积神经网络(CNN)缺乏设计。在这里,我们介绍了跨体系结构自学,这是一种新颖的自我监督学习方法,同时利用了变形金刚和CNN,同时也可以通过易于可用的云服务在计算上访问。与现有的最先进的自我监督学习方法相比,我们从经验上显示了经过CASS训练的CNN,而Transformers则使用100%标记的数据,平均获得8.5%,具有10%标记的数据,为11.5%,1.5%,1百分比在三个不同数据集中标记的数据。值得注意的是,一个被使用的数据集包括自身免疫性疾病的组织病理学幻灯片,这是医学成像中代表性不足的主题,并且数据最少。此外,我们的发现表明,就训练时间而言,CASS的效率是其他最先进方法的两倍。
translated by 谷歌翻译