近年来,卷积神经网络(CNNS)已成功应用于许多领域。然而,这种深层神经模型仍然被视为大多数任务中的黑匣子。此问题的基本问题之一是了解图像识别任务中最有影响力的特点以及它们是由CNN处理的方式。众所周知,CNN模型将低级功能组合以形成复杂的形状,直到物体可以容易地分类,然而,最近的几项研究表明,纹理特征比其他特征更重要。在本文中,我们假设某些功能的重要性根据特定任务,即特定任务表现出特征偏差而变化。我们设计了基于人类直觉的两个分类任务,以培训深度神经模型来识别预期的偏见。我们设计了包括许多任务来测试reset和densenet模型的这些偏差的实验。从结果中,我们得出结论(1)某些功能的综合效果通常比任何单一特征更具影响力; (2)在不同的任务中,神经模型可以执行不同的偏见,即我们可以设计特定任务,以使神经模型偏向于特定的预期特征。
translated by 谷歌翻译
Convolutional Neural Networks (CNNs) are commonly thought to recognise objects by learning increasingly complex representations of object shapes. Some recent studies suggest a more important role of image textures. We here put these conflicting hypotheses to a quantitative test by evaluating CNNs and human observers on images with a texture-shape cue conflict. We show that ImageNettrained CNNs are strongly biased towards recognising textures rather than shapes, which is in stark contrast to human behavioural evidence and reveals fundamentally different classification strategies. We then demonstrate that the same standard architecture (ResNet-50) that learns a texture-based representation on ImageNet is able to learn a shape-based representation instead when trained on 'Stylized-ImageNet', a stylized version of ImageNet. This provides a much better fit for human behavioural performance in our well-controlled psychophysical lab setting (nine experiments totalling 48,560 psychophysical trials across 97 observers) and comes with a number of unexpected emergent benefits such as improved object detection performance and previously unseen robustness towards a wide range of image distortions, highlighting advantages of a shape-based representation.
translated by 谷歌翻译
在过去的几年中,人类视力与卷积神经网络(CNN)之间越来越多的相似之处。然而,香草CNN通常在推广到对抗性或分布(OOD)示例的概括方面表现出卓越的性能。对抗训练是一种领先的学习算法,用于提高CNN在对抗和OOD数据上的鲁棒性;但是,对这些属性,特别是形状偏差和内部特征知之甚少,在对抗性CNN中学到的内部特征。在本文中,我们进行了一项彻底的系统研究,以了解形状偏差和一些内部机制,以使Alexnet,Googlenet和Resnet-50模型的普遍性通过对抗训练进行了训练。我们发现,尽管标准成像网分类器具有较强的纹理偏见,但它们的R对应物很大程度上依赖形状。值得注意的是,对抗性训练在“鲁棒性” CNN的过程中诱导了隐藏的神经元的三个简单偏见。也就是说,R网络中的每个卷积神经元经常会更改以检测(1)像素的平滑模式,即一种机制,该机制可以阻止高频噪声通过网络; (2)更多较低级别的功能,即纹理和颜色(而不是对象);(3)输入类型较少。我们的发现揭示了有趣的机制,这些机制使网络更具对抗性,并解释了一些最新发现,例如,为什么R网络从更大的容量中受益(Xie等,2020),并且可以在图像合成中充当强大的图像(Santurkar et eT) Al。2019)。
translated by 谷歌翻译
Convolutional neural networks (CNNs) are one of the most successful computer vision systems to solve object recognition. Furthermore, CNNs have major applications in understanding the nature of visual representations in the human brain. Yet it remains poorly understood how CNNs actually make their decisions, what the nature of their internal representations is, and how their recognition strategies differ from humans. Specifically, there is a major debate about the question of whether CNNs primarily rely on surface regularities of objects, or whether they are capable of exploiting the spatial arrangement of features, similar to humans. Here, we develop a novel feature-scrambling approach to explicitly test whether CNNs use the spatial arrangement of features (i.e. object parts) to classify objects. We combine this approach with a systematic manipulation of effective receptive field sizes of CNNs as well as minimal recognizable configurations (MIRCs) analysis. In contrast to much previous literature, we provide evidence that CNNs are in fact capable of using relatively long-range spatial relationships for object classification. Moreover, the extent to which CNNs use spatial relationships depends heavily on the dataset, e.g. texture vs. sketch. In fact, CNNs even use different strategies for different classes within heterogeneous datasets (ImageNet), suggesting CNNs have a continuous spectrum of classification strategies. Finally, we show that CNNs learn the spatial arrangement of features only up to an intermediate level of granularity, which suggests that intermediate rather than global shape features provide the optimal trade-off between sensitivity and specificity in object classification. These results provide novel insights into the nature of CNN representations and the extent to which they rely on the spatial arrangement of features for object classification.
translated by 谷歌翻译
与人类相比,即使是最先进的深度学习模型也缺乏基本能力。已经提出了多重比较范例来探索人类与深度学习之间的区别。尽管大多数比较都取决于受数学转变启发的腐败,但很少有人在人类认知现象上具有基础。在这项研究中,我们提出了一种基于毗邻的光栅幻觉的新型腐败方法,这是在人类和广泛的动物物种中广泛发现的视觉现象。腐败方法破坏了梯度定义的边界,并使用彼此毗邻的线光栅产生了虚幻轮廓的感知。我们应用了MNIST,高分辨率MNIST和Silhouette对象图像的方法。对腐败的各种深度学习模型进行了测试,包括从头开始训练的模型和通过ImageNet或各种数据增强技术预测的109个模型。我们的结果表明,即使对于最先进的深度学习模型,将光栅腐败毗邻也是挑战性的,因为大多数模型都是随机猜测的。我们还发现,深度指示技术可以极大地改善固定光栅幻觉的鲁棒性。早期层的可视化表明,更好的性能模型表现出更强的终端特性,这与神经科学发现一致。为了验证腐败方法,涉及24名人类受试者以对损坏数据集进行分类。
translated by 谷歌翻译
人们普遍认为,人类视觉系统偏向于识别形状而不是纹理。这一假设导致了越来越多的工作,旨在使深层模型的决策过程与人类视野的基本特性保持一致。人们对形状特征的依赖主要预计会改善协变量转移下这些模型的鲁棒性。在本文中,我们重新审视了形状偏置对皮肤病变图像分类的重要性。我们的分析表明,不同的皮肤病变数据集对单个图像特征表现出不同的偏见。有趣的是,尽管深层提取器倾向于学习对皮肤病变分类的纠缠特征,但仍然可以从该纠缠的表示形式中解码单个特征。这表明这些功能仍在模型的学习嵌入空间中表示,但不用于分类。此外,不同数据集的光谱分析表明,与常见的视觉识别相反,皮肤皮肤病变分类本质上依赖于超出形状偏置的复杂特征组合。自然的结果,在某些情况下,摆脱了形状偏见模型的普遍欲望甚至可以改善皮肤病变分类器。
translated by 谷歌翻译
我们研究了人类视觉系统(HVS)〜-〜形状,纹理和颜色〜-〜对对象分类的三个重要特征的贡献。我们构建了人形视觉引擎(HVE),该引擎明确和单独计算图像中的形状,纹理和颜色特征。然后将所得的特征向量连接以支持最终分类。我们表明,HVE可以总结和排序排序对对象识别的三个功能的贡献。我们使用人类实验来确认HVE和人类主要使用一些特定特征来支持特定类别的分类(例如,纹理是将斑马与其他四足动物区分开的主要特征,包括人类和HVE)。借助HVE的帮助,给定任何环境(数据集),我们可以总结整个任务的最重要功能(特定于任务的; (特定于类;为了证明HVE的更有用,我们使用它来模拟没有属性标签的人类的开放世界零射击学习能力。最后,我们表明HVE还可以通过不同特征的组合来模拟人类的想象力。我们将开源HVE引擎和相应的数据集。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
在高风险领域中采用卷积神经网络(CNN)模型受到了他们无法满足社会对决策透明度的需求的阻碍。到目前为止,已经出现了越来越多的方法来开发可通过设计解释的CNN模型。但是,这样的模型无法根据人类的看法提供解释,同时保持有能力的绩效。在本文中,我们通过实例化固有可解释的CNN模型的新颖的一般框架来应对这些挑战,该模型名为E pluribus unum unum Change Chandn(EPU-CNN)。 EPU-CNN模型由CNN子网络组成,每个工程都会收到表达感知特征的输入图像的不同表示,例如颜色或纹理。 EPU-CNN模型的输出由分类预测及其解释组成,其基于输入图像不同区域的感知特征的相对贡献。 EPU-CNN模型已在各种可公开可用的数据集以及贡献的基准数据集上进行了广泛的评估。医学数据集用于证明EPU-CNN在医学中对风险敏感的决策的适用性。实验结果表明,与其他CNN体系结构相比,EPU-CNN模型可以实现可比或更好的分类性能,同时提供人类可感知的解释。
translated by 谷歌翻译
The well-documented presence of texture bias in modern convolutional neural networks has led to a plethora of algorithms that promote an emphasis on shape cues, often to support generalization to new domains. Yet, common datasets, benchmarks and general model selection strategies are missing, and there is no agreed, rigorous evaluation protocol. In this paper, we investigate difficulties and limitations when training networks with reduced texture bias. In particular, we also show that proper evaluation and meaningful comparisons between methods are not trivial. We introduce BiasBed, a testbed for texture- and style-biased training, including multiple datasets and a range of existing algorithms. It comes with an extensive evaluation protocol that includes rigorous hypothesis testing to gauge the significance of the results, despite the considerable training instability of some style bias methods. Our extensive experiments, shed new light on the need for careful, statistically founded evaluation protocols for style bias (and beyond). E.g., we find that some algorithms proposed in the literature do not significantly mitigate the impact of style bias at all. With the release of BiasBed, we hope to foster a common understanding of consistent and meaningful comparisons, and consequently faster progress towards learning methods free of texture bias. Code is available at https://github.com/D1noFuzi/BiasBed
translated by 谷歌翻译
数据失真通常在训练期间(例如混合和cutmix)和评估(例如形状纹理偏见和鲁棒性)中通常应用于视觉模型。此数据修改可以引入人造信息。通常认为所产生的人工制品对训练有害,而在分析模型时可以忽略不计。我们研究了这些假设,并得出结论,在某些情况下它们是毫无根据的,并导致结果不正确。具体而言,我们显示了当前的形状偏差识别方法和遮挡鲁棒性测量是有偏见的,并提出了后者的更公平的替代方法。随后,通过一系列实验,我们试图纠正和加强社区对增强如何影响视觉模型学习的看法。基于我们的经验结果,我们认为必须理解和利用人工制品的影响,而不是被消除。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
乳腺癌是全球女性死亡的主要原因之一。如果在高级阶段检测到很难治疗,但是,早期发现可以显着增加生存机会,并改善数百万妇女的生活。鉴于乳腺癌的普遍流行,研究界提出早期检测,分类和诊断的框架至关重要。与医生协调的人工智能研究社区正在开发此类框架以自动化检测任务。随着研究活动的激增,加上大型数据集的可用性和增强的计算能力,预计AI框架结果将有助于更多的临床医生做出正确的预测。在本文中,提出了使用乳房X线照片对乳腺癌进行分类的新框架。所提出的框架结合了从新颖的卷积神经网络(CNN)功能中提取的强大特征,以及手工制作的功能,包括猪(定向梯度的直方图)和LBP(本地二进制图案)。在CBIS-DDSM数据集上获得的结果超过了技术状态。
translated by 谷歌翻译
识别对象和场景是两个具有挑战性的,但在图像理解中是必不可少的任务。特别是,使用RGB-D传感器在处理这些任务中,已成为更好的视觉理解的重要焦点领域。同时,深度神经网络,特别是卷积神经网络(CNNS),已经普遍存在,通过替换具有有效深度特征的手工制作的特征来应用于许多视觉任务。但是,它是一个公开问题如何有效地利用多层CNN模型的深度特征。在本文中,我们提出了一种新的两阶段框架,从多模态RGB-D图像中提取用于对象和场景识别任务的判别特征表示。在第一阶段,预先训练的CNN模型已被用作骨干,以在多个级别提取视觉特征。第二阶段将这些特征映射到高电平表示,具有有效的递归神经网络(RNNS)的完全随机结构。为了应对CNN激活的高维度,通过在RNNS中扩展随机性的想法来提出一种随机加权池方案。通过基于RGB和深度流分别的单个识别信徒(即SVM分数)来计算权重来执行多模态融合。这在最终的RGB-D分类性能中产生了一致的类标签估计。广泛的实验验证了RNN阶段的完全随机结构编码CNN激活以成功辨别鉴别的固体功能。比较实验结果对华盛顿RGB-D对象和Sun RGB-D场景数据集的比较实验结果表明,与物体和场景识别任务中的最先进的方法相比,该方法达到了优越的或映射性能。代码可在https://github.com/acaglayan/cnn_randrnn获得。
translated by 谷歌翻译
本文是第一个探索自动检测深度卷积神经网络中的自动化方法,只需查看其权重。此外,它也是了解神经网络以及它们的工作方式。我们表明,确实可以知道模型是否偏离或不仅仅是通过查看其权重,而没有特定输入的模型推断。我们分析了使用彩色MNIST数据库的玩具示例在深网络的权重中编码偏差,并且我们还提供了使用最先进的方法和实验资源从面部图像进行性别检测的现实案例研究。为此,我们生成了两个具有36k和48K偏置模型的数据库。在MNIST模型中,我们能够检测它们是否具有超过99%的精度呈现强大或低偏差,我们还能够在四个级别的偏差之间进行分类,精度超过70%。对于面部模型,我们在区分偏向亚洲,黑人或高加索人的型号的模型方面取得了90%的准确性。
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
视觉变压器(VIV)架构最近在各种计算机视觉任务中实现了竞争性能。与卷积神经网络(CNNS)相比,VITS背后的动机之一是较弱的感应偏差。然而,这也使VIT更难以训练。它们需要非常大的培训数据集,重型正常化和强大的数据增强。尽管两种架构之间存在显着差异,但用于培训VITS的数据增强策略主要是从CNN培训继承的。在这项工作中,我们经验性评估了如何在CNN(例如,Reset)对图像分类的VIT架构上进行的不同数据增强策略。我们介绍了一种风格的转移数据增强,称为STYLEAUM,这适合培训VITS,而RANDAURMMENT和AUGMIX通常最适合培训CNNS。我们还发现,除了分类损失之外,在培训VITS时,使用同一图像的多个增强之间的一致性损耗尤为有用。
translated by 谷歌翻译
Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.
translated by 谷歌翻译
在这项工作中,我们介绍了一种方法,并提出了一种改进的神经工作,以执行产品重新识别,这是全自动产品缺陷检测系统的必要核心功能。我们的方法基于特征距离。它是特征提取神经网络的组合,如vgg16,alexnet,带图像搜索引擎 - vearch。我们用于开发产品重新识别系统的数据集是一个水瓶数据集,由400种液体瓶装组成。这是一个小型数据集,这是我们工作的最大挑战。然而,与vearch的神经网络的组合显示了解决产品重新识别问题的可能性。特别是,我们的新神经网络 - 基于AlexNet改进的神经网络的AlphaalexNet可以通过四个百分点提高生产识别准确性。这表明当可以引入和重新设计的高效特征提取方法时,可以实现理想的生产识别精度,以用于几乎相同产品的图像特征提取。为了解决由数据集的小尺寸造成的最大挑战以及识别彼此几乎没有差异的产品的困难性质。在我们未来的工作中,我们提出了一种新的路线图来解决几乎 - 相同的生产标识:介绍或开发需要很少的图像以训练自己的新算法。
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像分割,并且录制了录制了该领域深度学习的成功的大量论文。在本文中,我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先,与传统调查相比,直接将深度学习的文献分成医学图像分割的文学,并为每组详细介绍了文献,我们根据从粗略到精细的多级结构分类目前流行的文献。其次,本文侧重于监督和弱监督的学习方法,而不包括无监督的方法,因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法,我们分析了三个方面的文献:骨干网络的选择,网络块的设计,以及损耗功能的改进。对于虚弱的学习方法,我们根据数据增强,转移学习和交互式分割进行调查文献。与现有调查相比,本调查将文献分类为比例不同,更方便读者了解相关理由,并将引导他们基于深度学习方法思考医学图像分割的适当改进。
translated by 谷歌翻译