最近在计算机视觉中的实验证明了纹理偏见,作为采用卷积神经网络(CNNS)模型的最高结果的主要原因,与早期作品相冲突,声称这些网络使用形状识别对象。据信,成本函数迫使CNN采取贪婪的方法,并为纹理等本地信息制定倾向,以提高准确性,从而无法探索任何全局统计数据。我们提出了一种新的直观架构,这是一种新的直观架构,灵感来自心理学中的特征整合理论,利用人类的可解释特征,如形状,纹理,边缘等。重构,并对图像进行分类。我们定义了新颖的指标,以使用注意图量化这些模式中存在的“抽象信息”的“相关性”。我们进一步介绍了一个正则化方法,该方法可确保形状,纹理等的每个模式在给定的任务中都会对其进行比例影响,因为它可以重建;并且,除了赋予这些CNN的解释性以实现对象识别的卓越性能之外,执行实验以表明所得到的精度和鲁棒性。
translated by 谷歌翻译
我们研究了人类视觉系统(HVS)〜-〜形状,纹理和颜色〜-〜对对象分类的三个重要特征的贡献。我们构建了人形视觉引擎(HVE),该引擎明确和单独计算图像中的形状,纹理和颜色特征。然后将所得的特征向量连接以支持最终分类。我们表明,HVE可以总结和排序排序对对象识别的三个功能的贡献。我们使用人类实验来确认HVE和人类主要使用一些特定特征来支持特定类别的分类(例如,纹理是将斑马与其他四足动物区分开的主要特征,包括人类和HVE)。借助HVE的帮助,给定任何环境(数据集),我们可以总结整个任务的最重要功能(特定于任务的; (特定于类;为了证明HVE的更有用,我们使用它来模拟没有属性标签的人类的开放世界零射击学习能力。最后,我们表明HVE还可以通过不同特征的组合来模拟人类的想象力。我们将开源HVE引擎和相应的数据集。
translated by 谷歌翻译
近年来,卷积神经网络(CNNS)已成功应用于许多领域。然而,这种深层神经模型仍然被视为大多数任务中的黑匣子。此问题的基本问题之一是了解图像识别任务中最有影响力的特点以及它们是由CNN处理的方式。众所周知,CNN模型将低级功能组合以形成复杂的形状,直到物体可以容易地分类,然而,最近的几项研究表明,纹理特征比其他特征更重要。在本文中,我们假设某些功能的重要性根据特定任务,即特定任务表现出特征偏差而变化。我们设计了基于人类直觉的两个分类任务,以培训深度神经模型来识别预期的偏见。我们设计了包括许多任务来测试reset和densenet模型的这些偏差的实验。从结果中,我们得出结论(1)某些功能的综合效果通常比任何单一特征更具影响力; (2)在不同的任务中,神经模型可以执行不同的偏见,即我们可以设计特定任务,以使神经模型偏向于特定的预期特征。
translated by 谷歌翻译
人类通常以多语级方式感知世界,即视力,触摸,声音被利用从各种尺寸来了解周围环境。这些感官组合在一起以实现协同效应,其中学习比单独使用每个意义更有效。对于机器人,视觉和触摸是灵巧操纵的两个关键感觉。视觉通常为我们提供形状,颜色和触摸等明显的特征,提供诸如摩擦,纹理等的局部信息,这是由于视觉和触觉感官之间的互补性,我们希望将视觉和触摸相结合,以获得协同感应感和操纵。已经研究了许多研究关于多式化感知,例如跨模型学习,3D重建,具有视觉和触摸的多模式转换。具体地,我们提出了一种用于在视觉和触摸之间转换的跨模型感官数据生成框架,其能够产生现实的伪数据。通过使用这种跨模型翻译方法,我们可以帮助我们构成无法访问的数据,帮助我们从不同视图中了解对象的属性。最近,注意机制在视觉感知或触觉感知中成为一种流行的方法。我们提出了一种用于触觉纹理识别的时空关注模型,其考虑了空间特征和时间维度。我们所提出的方法不仅关注每个空间特征中的突出特征,而且还要在迄今为止的时间内模拟时间相关性。显而易见的改善证明了我们的选择性关注机制的效率。时空注意力方法在许多应用中具有诸如抓握,识别和多式联卡的许多应用。
translated by 谷歌翻译
Convolutional Neural Networks (CNNs) are commonly thought to recognise objects by learning increasingly complex representations of object shapes. Some recent studies suggest a more important role of image textures. We here put these conflicting hypotheses to a quantitative test by evaluating CNNs and human observers on images with a texture-shape cue conflict. We show that ImageNettrained CNNs are strongly biased towards recognising textures rather than shapes, which is in stark contrast to human behavioural evidence and reveals fundamentally different classification strategies. We then demonstrate that the same standard architecture (ResNet-50) that learns a texture-based representation on ImageNet is able to learn a shape-based representation instead when trained on 'Stylized-ImageNet', a stylized version of ImageNet. This provides a much better fit for human behavioural performance in our well-controlled psychophysical lab setting (nine experiments totalling 48,560 psychophysical trials across 97 observers) and comes with a number of unexpected emergent benefits such as improved object detection performance and previously unseen robustness towards a wide range of image distortions, highlighting advantages of a shape-based representation.
translated by 谷歌翻译
在高风险领域中采用卷积神经网络(CNN)模型受到了他们无法满足社会对决策透明度的需求的阻碍。到目前为止,已经出现了越来越多的方法来开发可通过设计解释的CNN模型。但是,这样的模型无法根据人类的看法提供解释,同时保持有能力的绩效。在本文中,我们通过实例化固有可解释的CNN模型的新颖的一般框架来应对这些挑战,该模型名为E pluribus unum unum Change Chandn(EPU-CNN)。 EPU-CNN模型由CNN子网络组成,每个工程都会收到表达感知特征的输入图像的不同表示,例如颜色或纹理。 EPU-CNN模型的输出由分类预测及其解释组成,其基于输入图像不同区域的感知特征的相对贡献。 EPU-CNN模型已在各种可公开可用的数据集以及贡献的基准数据集上进行了广泛的评估。医学数据集用于证明EPU-CNN在医学中对风险敏感的决策的适用性。实验结果表明,与其他CNN体系结构相比,EPU-CNN模型可以实现可比或更好的分类性能,同时提供人类可感知的解释。
translated by 谷歌翻译
人类的物体感知能力令人印象深刻,当试图开发具有类似机器人的解决方案时,这变得更加明显。从人类如何将视觉和触觉用于对象感知和相关任务的灵感中,本文总结了机器人应用的多模式对象感知的当前状态。它涵盖了生物学灵感,传感器技术,数据集以及用于对象识别和掌握的感觉数据处理的各个方面。首先,概述了多模式对象感知的生物学基础。然后讨论了传感技术和数据收集策略。接下来,介绍了主要计算方面的介绍,突出显示了每个主要应用领域的一些代表性文章,包括对象识别,传输学习以及对象操纵和掌握。最后,在每个领域的当前进步中,本文概述了有希望的新研究指示。
translated by 谷歌翻译
在视觉检查形式中对纹理表面进行工业检查的最新进展使这种检查成为可能,以实现高效,灵活的制造系统。我们提出了一个无监督的特征内存重排网络(FMR-NET),以同时准确检测各种纹理缺陷。与主流方法一致,我们采用了背景重建的概念。但是,我们创新地利用人工合成缺陷来使模型识别异常,而传统智慧仅依赖于无缺陷的样本。首先,我们采用一个编码模块来获得纹理表面的多尺度特征。随后,提出了一个基于对比的基于学习的内存特征模块(CMFM)来获得判别性表示,并在潜在空间中构建一个正常的特征记忆库,可以用作补丁级别的缺陷和快速异常得分。接下来,提出了一个新型的全球特征重排模块(GFRM),以进一步抑制残余缺陷的重建。最后,一个解码模块利用还原的功能来重建正常的纹理背景。此外,为了提高检查性能,还利用了两阶段的训练策略进行准确的缺陷恢复改进,并且我们利用一种多模式检查方法来实现噪声刺激性缺陷定位。我们通过广泛的实验来验证我们的方法,并通过多级检测方法在协作边缘进行实用的部署 - 云云智能制造方案,表明FMR-NET具有先进的检查准确性,并显示出巨大的使用潜力在启用边缘计算的智能行业中。
translated by 谷歌翻译
随着脑成像技术和机器学习工具的出现,很多努力都致力于构建计算模型来捕获人脑中的视觉信息的编码。最具挑战性的大脑解码任务之一是通过功能磁共振成像(FMRI)测量的脑活动的感知自然图像的精确重建。在这项工作中,我们调查了来自FMRI的自然图像重建的最新学习方法。我们在架构设计,基准数据集和评估指标方面检查这些方法,并在标准化评估指标上呈现公平的性能评估。最后,我们讨论了现有研究的优势和局限,并提出了潜在的未来方向。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
大多数现有的RGB-D突出物体检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模型信息集成。卷积操作的固有局部连接将基于卷积的方法的性能进行了限制到天花板的性能。在这项工作中,我们从全球信息对齐和转换的角度重新思考此任务。具体地,所提出的方法(Transcmd)级联几个跨模型集成单元来构造基于自上而下的变换器的信息传播路径(TIPP)。 Transcmd将多尺度和多模态特征集成作为序列到序列上下文传播和内置于变压器上的更新过程。此外,考虑到二次复杂性W.R.T.输入令牌的数量,我们设计了具有可接受的计算成本的修补程序令牌重新嵌入策略(Ptre)。七个RGB-D SOD基准数据集上的实验结果表明,在配备TIPP时,简单的两流编码器 - 解码器框架可以超越最先进的基于CNN的方法。
translated by 谷歌翻译
深度估计是3D重建的具有挑战性的任务,以提高环境意识的准确性感测。这项工作带来了一系列改进的新解决方案,与现有方法相比,增加了一系列改进,这增加了对深度图的定量和定性理解。最近,卷积神经网络(CNN)展示了估计单眼图象的深度图的非凡能力。然而,传统的CNN不支持拓扑结构,它们只能在具有确定尺寸和重量的常规图像区域上工作。另一方面,图形卷积网络(GCN)可以处理非欧几里德数据的卷积,并且它可以应用于拓扑结构内的不规则图像区域。因此,在这项工作中为了保护对象几何外观和分布,我们的目的是利用GCN进行自我监督的深度估计模型。我们的模型包括两个并行自动编码器网络:第一个是一个自动编码器,它取决于Reset-50,并从输入图像和多尺度GCN上提取功能以估计深度图。反过来,第二网络将用于基于Reset-18的两个连续帧之间估计自我运动矢量(即3D姿势)。估计的3D姿势和深度图都将用于构建目标图像。使用与光度,投影和平滑度相关的损耗函数的组合用于应对不良深度预测,并保持对象的不连续性。特别是,我们的方法提供了可比性和有前途的结果,在公共基准和Make3D数据集中的高预测精度为89%,与最先进的解决方案相比,培训参数的数量减少了40%。源代码在https://github.com/arminmasoumian/gcndepth.git上公开可用
translated by 谷歌翻译
Consider a scenario in one-shot query-guided object localization where neither an image of the object nor the object category name is available as a query. In such a scenario, a hand-drawn sketch of the object could be a choice for a query. However, hand-drawn crude sketches alone, when used as queries, might be ambiguous for object localization, e.g., a sketch of a laptop could be confused for a sofa. On the other hand, a linguistic definition of the category, e.g., a small portable computer small enough to use in your lap" along with the sketch query, gives better visual and semantic cues for object localization. In this work, we present a multimodal query-guided object localization approach under the challenging open-set setting. In particular, we use queries from two modalities, namely, hand-drawn sketch and description of the object (also known as gloss), to perform object localization. Multimodal query-guided object localization is a challenging task, especially when a large domain gap exists between the queries and the natural images, as well as due to the challenge of combining the complementary and minimal information present across the queries. For example, hand-drawn crude sketches contain abstract shape information of an object, while the text descriptions often capture partial semantic information about a given object category. To address the aforementioned challenges, we present a novel cross-modal attention scheme that guides the region proposal network to generate object proposals relevant to the input queries and a novel orthogonal projection-based proposal scoring technique that scores each proposal with respect to the queries, thereby yielding the final localization results. ...
translated by 谷歌翻译
人纹理感知是多感官输入的加权平均值:视觉和触觉。当视觉传感机制提取全局特征时,触觉机制通过提取本地特征来补充它。文献中缺乏耦合的视觉效果数据集是研究类似于人类质地知觉的多模式融合策略的挑战。本文介绍了一个视觉数据集,可扩大现有的触觉数据集。我们提出了一种新型的深层融合体系结构,该融合体使用四种类型的融合策略融合了视觉和触觉数据:求和,串联,最大程度和注意力。我们的模型仅在触觉(SVM -92.60%)和仅视觉(FENET -50-50-85.01%)体系结构方面显示出显着的性能改进(97.22%)。在几种融合技术中,注意引导的体系结构可提高分类的精度。我们的研究表明,类似于人类纹理感知,提出的模型选择了两种方式(视觉和触觉)的加权组合,从而导致表面粗糙度分类的精度较高。它选择最大化视觉模态失败的触觉方式的重量,反之亦然。
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
触觉是人类敏捷的基础。当模仿机器人触摸(尤其是使用软光学触觉传感器)时,由于运动依赖性剪切而遭受失真。这使触觉任务复杂化,例如形状重建和探索,需要有关接触几何的信息。在这项工作中,我们采用半监督的方法来删除剪切,同时保留仅接触信息。我们通过显示模型生成的未切除图像与它们的对应物之间的匹配来验证我们的方法。模型生成的未切除图像给出了忠实的接触几何形状的重建,否则将剪切掩盖,以及对物体姿势的强大估计,然后用于滑动探索和对几种平面形状的全面重建。我们表明,我们的半监督方法的性能与在所有验证任务中的全面监督对等方面的性能相当,而监督的监督较少。因此,半监督方法更加计算和标记样品效率。我们预计,它将对通过剪切敏感的触觉执行的各种复杂触觉探索和操纵任务具有广泛的适用性。
translated by 谷歌翻译
Brain decoding is a field of computational neuroscience that uses measurable brain activity to infer mental states or internal representations of perceptual inputs. Therefore, we propose a novel approach to brain decoding that also relies on semantic and contextual similarity. We employ an fMRI dataset of natural image vision and create a deep learning decoding pipeline inspired by the existence of both bottom-up and top-down processes in human vision. We train a linear brain-to-feature model to map fMRI activity features to visual stimuli features, assuming that the brain projects visual information onto a space that is homeomorphic to the latent space represented by the last convolutional layer of a pretrained convolutional neural network, which typically collects a variety of semantic features that summarize and highlight similarities and differences between concepts. These features are then categorized in the latent space using a nearest-neighbor strategy, and the results are used to condition a generative latent diffusion model to create novel images. From fMRI data only, we produce reconstructions of visual stimuli that match the original content very well on a semantic level, surpassing the state of the art in previous literature. We evaluate our work and obtain good results using a quantitative semantic metric (the Wu-Palmer similarity metric over the WordNet lexicon, which had an average value of 0.57) and perform a human evaluation experiment that resulted in correct evaluation, according to the multiplicity of human criteria in evaluating image similarity, in over 80% of the test set.
translated by 谷歌翻译
显着对象检测是预测给定场景中人类参加区域的任务。融合深度信息已被证明在此任务中有效。该问题的主要挑战是如何从RGB模式和深度模式中汇总互补信息。但是,传统的深层模型在很大程度上依赖CNN特征提取器,并且通常会忽略远距离的依赖性。在这项工作中,我们提出了基于双Swin-Transformer的相互交互式网络。我们采用Swin-Transformer作为RGB和深度模态的特征提取器,以模拟视觉输入中的远程依赖性。在将两个特征分支融合到一个分支之前,将应用基于注意力的模块来增强每​​种模式的特征。我们设计了一个基于自我注意力的跨模式交互模块和一个封闭式的模态注意模块,以利用两种方式之间的互补信息。对于显着解码,我们创建了通过密集的连接增强的不同阶段,并保持解码的内存,而多级编码功能则被同时考虑。考虑到不准确的深度图问题,我们将早期阶段的RGB特征收集到跳过卷积模块中,以提供从RGB模式到最终显着性预测的更多指导。此外,我们添加了边缘监督以使功能学习过程正常。对四个评估指标的五个标准RGB-D SOD基准数据集进行了全面的实验,证明了所提出的DTMINET方法的优势。
translated by 谷歌翻译
甚至在没有受限,监督的情况下,也提出了甚至在没有受限或有限的情况下学习普遍陈述的方法。使用适度数量的数据可以微调新的目标任务,或者直接在相应任务中实现显着性能的无奈域中使用的良好普遍表示。这种缓解数据和注释要求为计算机愿景和医疗保健的应用提供了诱人的前景。在本辅导纸上,我们激励了对解散的陈述,目前关键理论和详细的实际构建块和学习此类表示的标准的需求。我们讨论医学成像和计算机视觉中的应用,强调了在示例钥匙作品中进行的选择。我们通过呈现剩下的挑战和机会来结束。
translated by 谷歌翻译
人工智能被出现为众多临床应用诊断和治疗决策的有用援助。由于可用数据和计算能力的快速增加,深度神经网络的性能与许多任务中的临床医生相同或更好。为了符合信任AI的原则,AI系统至关重要的是透明,强大,公平和确保责任。由于对决策过程的具体细节缺乏了解,目前的深神经系统被称为黑匣子。因此,需要确保在常规临床工作流中纳入常规神经网络之前的深度神经网络的可解释性。在这一叙述审查中,我们利用系统的关键字搜索和域专业知识来确定已经基于所产生的解释和技术相似性的类型的医学图像分析应用的深度学习模型来确定九种不同类型的可解释方法。此外,我们报告了评估各种可解释方法产生的解释的进展。最后,我们讨论了局限性,提供了利用可解释性方法和未来方向的指导,了解医学成像分析深度神经网络的解释性。
translated by 谷歌翻译