视觉搜索是几乎任何日常人类目标与环境的目标互动的重要组成部分。如今,几种算法能够在简单的观察期间预测凝视位置,但是很少有模型试图在自然场景中视觉搜索期间模拟人类行为。此外,这些模型在其设计中差异很大,并且在评估它们的数据集和度量标准中展示了不同的差异。因此,需要一个参考点,每个模型可以测试,并且可以从哪里导出潜在的改进。在目前的工作中,我们在自然场景中选择公开的最先进的视觉搜索模型,并在不同的数据集中评估它们,采用相同的指标来估算其与人类受试者的效率和相似性。特别是,我们通过与基于神经网络的视觉搜索模型的组合来提出对理想贝叶斯搜索者的改进,使其能够概括到其他数据集。目前的工作揭示了当前模型的局限性以及如何通过组合方法来实现潜在的改进。此外,它向前移动了为迫切需要基准测试数据和指标的解决方案,以支持更多一般人类视觉搜索计算模型的开发。
translated by 谷歌翻译
图像区域的人类优先级可以以显着图或依次使用扫描模型进行时间不变的方式建模。但是,尽管两种类型的模型在几个基准和数据集上都稳步改善,但预测人类凝视仍然存在很大的差距。在这里,我们利用最近的两个发展来减少这一差距:理论分析建立一个原则性的框架,以预测下一个凝视目标和对凝视切换的人为成本的经验测量,而与图像内容无关。我们在顺序决策的框架中介绍了一种算法,该算法将任何静态显着性映射转换为一系列动态历史依赖的值映射序列,在每个注视转移之后都会重新计算。这些地图基于1)任意显着性模型提供的显着性图,2)最近测量的人类成本函数量化了眼动的大小和方向的偏好,以及3)连续探索奖金,随后的每次凝视随着每个探索而变化。该探索奖金的空间范围和时间衰减的参数是从人类凝视数据中估计的。这三个组件的相对贡献在MIT1003数据集上优化了NSS得分,并且足以显着超过NSS上的下一个注视目标的预测,并且在三个图像数据集中,对于五个最神经的显着性模型,对NSS的下一个凝视目标和AUC分数进行了预测。因此,我们提供了人类凝视偏好的实施,可用于改善任意显着性模型的“对人类对人类的预测”的下一个凝视目标。
translated by 谷歌翻译
视觉搜索是一项普遍存在的,通常挑战日常任务,是通过寻找家中的汽车钥匙或在人群中的朋友。一些经典搜索任务的有趣性属性是一种不对称性,使得在分散的人B中找到目标A可以比找到A中的B.为了阐明对视觉搜索中的不对称负责的机制,我们提出了一种占据目标的计算模型和将搜索图像作为输入,并在找到目标之前产生一系列眼睛移动。该模型将偏心依赖性视觉识别与目标相关的自上而下的提示集成在一起。我们将六种范式搜索任务中的人类行为与人类显示不对称的案式进行比较。如果没有先前接触刺激或任务特定的培训,则该模型提供了搜索不对称的合理机制。我们假设搜索不对称的极性来自自然环境的经验。我们通过培训模型在想象中的增强版本的模型进行测试,其中自然图像的偏差被移除或逆转。根据训练协议,搜索不对称的极性消失或被改变。本研究强调了神经网络模型可以出现古典感知特性如何,而无需特定于任务培训,而是由于馈送到模型的发育饮食的统计特性。所有源代码和数据都在https://github.com/kreimanlab/visualsearchaseSearmmetry上公开使用。
translated by 谷歌翻译
对人类对象相互作用的理解在第一人称愿景(FPV)中至关重要。遵循相机佩戴者操纵的对象的视觉跟踪算法可以提供有效的信息,以有效地建模此类相互作用。在过去的几年中,计算机视觉社区已大大提高了各种目标对象和场景的跟踪算法的性能。尽管以前有几次尝试在FPV域中利用跟踪器,但仍缺少对最先进跟踪器的性能的有条理分析。这项研究差距提出了一个问题,即应使用当前的解决方案``现成''还是应进行更多特定领域的研究。本文旨在为此类问题提供答案。我们介绍了FPV中单个对象跟踪的首次系统研究。我们的研究广泛分析了42个算法的性能,包括通用对象跟踪器和基线FPV特定跟踪器。分析是通过关注FPV设置的不同方面,引入新的绩效指标以及与FPV特定任务有关的。这项研究是通过引入Trek-150(由150个密集注释的视频序列组成的新型基准数据集)来实现的。我们的结果表明,FPV中的对象跟踪对当前的视觉跟踪器构成了新的挑战。我们强调了导致这种行为的因素,并指出了可能的研究方向。尽管遇到了困难,但我们证明了跟踪器为需要短期对象跟踪的FPV下游任务带来好处。我们预计,随着新的和FPV特定的方法学会得到研究,通用对象跟踪将在FPV中受欢迎。
translated by 谷歌翻译
人类凝视行为的预测对于构建可以预见用户注意力的人类计算机交互式系统很重要。已经开发了计算机视觉模型,以预测人们在寻找目标对象时进行的固定。但是,何时没有目标呢?同样重要的是要知道人们在找不到目标时如何搜索以及何时停止搜索。在本文中,我们提出了第一个以数据驱动的计算模型来解决搜索终止问题,并预测了搜索未出现在图像中的目标的人进行的搜索固定的扫描路径。我们将视觉搜索建模为模仿学习问题,并代表观众通过使用新颖的状态表示来获取的内部知识,我们称之为foveated特征映射(FFMS)。 FFMS将模拟的散发性视网膜集成到预处理的Convnet中,该转向网络产生网络内功能金字塔,所有这些都具有最小的计算开销。我们的方法将FFMS作为逆增强学习中的状态表示。在实验上,我们在预测可可搜索数据集上的人类目标搜索行为方面提高了最新技术的状态
translated by 谷歌翻译
The many successes of deep neural networks (DNNs) over the past decade have largely been driven by computational scale rather than insights from biological intelligence. Here, we explore if these trends have also carried concomitant improvements in explaining the visual strategies humans rely on for object recognition. We do this by comparing two related but distinct properties of visual strategies in humans and DNNs: where they believe important visual features are in images and how they use those features to categorize objects. Across 84 different DNNs trained on ImageNet and three independent datasets measuring the where and the how of human visual strategies for object recognition on those images, we find a systematic trade-off between DNN categorization accuracy and alignment with human visual strategies for object recognition. State-of-the-art DNNs are progressively becoming less aligned with humans as their accuracy improves. We rectify this growing issue with our neural harmonizer: a general-purpose training routine that both aligns DNN and human visual strategies and improves categorization accuracy. Our work represents the first demonstration that the scaling laws that are guiding the design of DNNs today have also produced worse models of human vision. We release our code and data at https://serre-lab.github.io/Harmonization to help the field build more human-like DNNs.
translated by 谷歌翻译
Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
人类在解析和灵活地理解复杂的视觉场景的能力方面继续大大胜过现代AI系统。注意力和记忆是已知的两个系统,它们在我们选择性地维护和操纵与行为相关的视觉信息的能力中起着至关重要的作用,以解决一些最具挑战性的视觉推理任务。在这里,我们介绍了一种新颖的体系结构,用于视觉推理的认知科学文献,基于记忆和注意力(视觉)推理(MAREO)架构。 Mareo实例化了一个主动视觉理论,该理论认为大脑通过学习结合以前学习的基本视觉操作以形成更复杂的视觉例程来在构成中解决复杂的视觉推理问题。 Mareo学会通过注意力转移序列来解决视觉推理任务,以路由并通过多头变压器模块将与任务相关的视觉信息保持在存储库中。然后,通过训练有素的专用推理模块来部署视觉例程,以判断场景中对象之间的各种关系。对四种推理任务的实验证明了Mareo以强大和样品有效的方式学习视觉例程的能力。
translated by 谷歌翻译
各种工作表明,图像的令人难忘性在人们中一致,因此可以被视为图像的内在特性。使用计算机视觉模型,我们可以对人们记住或忘记做出具体的预测。虽然老工作已经使用了现在过时的深度学习架构来预测图像令人难忘,但该领域的创新使我们的新技术适用于这个问题。在这里,我们提出并评估了五个替代的深度学习模型,在过去五年中利用现场开发的替代深度学习模型,这主要是引入残余神经网络,这旨在允许模型在令人难忘的估计过程中使用语义信息。通过构建的组合数据集进行了本领域的先前状态测试这些新模型,以优化类别内和跨类别预测。我们的研究结果表明,关键的令人难忘网络夸大了其概括性,并在其培训集上被过度了。我们的新模型优于此前的模型,导致我们得出结论,残差网络在令人难忘的回归中占据了更简单的卷积神经网络。我们使新的最先进的模型容易获得研究界,允许内存研究人员对更广泛的图像上的难忘性进行预测。
translated by 谷歌翻译
人类参加,过程和分类给定图像的方式有可能使深层学习模型的性能大大效益。利用人类聚焦的地方可以在偏离基本特征时纠正模型以获得正确的决策。为了验证人类注意力包含诸如细粒度分类等决策过程的有价值的信息,我们可以比较人类注意和模型解释在发现重要特征方面。为了实现这一目标,我们为细粒度分类数据集幼崽收集人的凝视数据,并建立一个名为CUB-GHA的数据集(基于凝视的人类注意)。此外,我们提出了凝视增强培训(GAT)和知识融合网络(KFN),将人类凝视知识整合到分类模型中。我们在Cub-Gha和最近发布的医疗数据集CXR眼中实施了我们的胸部X射线图像的建议,包括从放射科医师收集的凝视数据。我们的结果表明,整合人类注意知识有效效益,有效地进行分类,例如,在CXR上改善基线4.38%。因此,我们的工作不仅提供了在细粒度分类中了解人类注意的有价值的见解,而且还有助于将人类凝视与计算机视觉任务集成的未来研究。 CUB-GHA和代码可在https://github.com/yaorong0921/cub -gha获得。
translated by 谷歌翻译
卷积神经网络(CNNS)容易受到对抗的攻击,将微型噪声添加到图像中的现象可以欺骗CNNS被错误分类。因为这种噪声对人类观察者几乎是不可察觉的,所以假设生物视觉对抗对抗性攻击是鲁棒性的。尽管具有这种明显的鲁棒性差异,但CNN是目前是生物视觉的最佳模型,揭示了脑部响应对抗性图像的响应方式的差距。实际上,对正常情况下的生物视觉尚未测量对逆势攻击的敏感性,也没有专门用于影响生物视觉的攻击方法。我们研究了对抗性攻击对灵长类动物视力的影响,测量猴神经元反应和人类行为。通过从一个类别(例如人面)来修改图像来创建对抗性图像,看起来像目标类别(例如猴子面),同时限制像素值改变。我们通过几种攻击方法测试了三次攻击方向,包括使用CNN对抗性图像并使用基于CNN的预测模型来指导猴子视觉神经元反应。我们认为广泛的图像变化大幅度,涉及攻击成功率高达> 90%。我们发现为CNN设计的对抗性图像在攻击灵长类动物视觉时无效。即使在考虑最佳的攻击方法时,灵长类动物的视觉也比CNN的集合攻击更强大,而不是CNN的集合,需要超过100倍的图像改变以成功攻击。单个攻击方法和图像的成功与猴子神经元和人类行为之间相关,但在分类和CNN分类之间不太相关。始终如一地,当在自然图像培训时,基于CNN的神经元模型并未概括地解释对对抗性图像的神经元反应。
translated by 谷歌翻译
随着脑成像技术和机器学习工具的出现,很多努力都致力于构建计算模型来捕获人脑中的视觉信息的编码。最具挑战性的大脑解码任务之一是通过功能磁共振成像(FMRI)测量的脑活动的感知自然图像的精确重建。在这项工作中,我们调查了来自FMRI的自然图像重建的最新学习方法。我们在架构设计,基准数据集和评估指标方面检查这些方法,并在标准化评估指标上呈现公平的性能评估。最后,我们讨论了现有研究的优势和局限,并提出了潜在的未来方向。
translated by 谷歌翻译
From smoothly pursuing moving objects to rapidly shifting gazes during visual search, humans employ a wide variety of eye movement strategies in different contexts. While eye movements provide a rich window into mental processes, building generative models of eye movements is notoriously difficult, and to date the computational objectives guiding eye movements remain largely a mystery. In this work, we tackled these problems in the context of a canonical spatial planning task, maze-solving. We collected eye movement data from human subjects and built deep generative models of eye movements using a novel differentiable architecture for gaze fixations and gaze shifts. We found that human eye movements are best predicted by a model that is optimized not to perform the task as efficiently as possible but instead to run an internal simulation of an object traversing the maze. This not only provides a generative model of eye movements in this task but also suggests a computational theory for how humans solve the task, namely that humans use mental simulation.
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
关于人类阅读的研究长期以来一直记录在阅读行为表明特定于任务的效果,但是建立一个通用模型来预测人类在给定任务中将显示什么的通用模型。我们介绍了Neat,这是人类阅读中注意力分配的计算模型,基于人类阅读优化了一项任务中关注经济和成功之间的权衡。我们的模型是使用当代神经网络建模技术实施的,并对注意力分配的分配方式在不同任务中如何变化做出明确的测试预测。我们在一项针对阅读理解任务的两个版本的眼影研究中对此进行了测试,发现我们的模型成功说明了整个任务的阅读行为。因此,我们的工作提供了证据表明,任务效果可以建模为对任务需求的最佳适应。
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译
People learning new concepts can often generalize successfully from just a single example, yet machine learning algorithms typically require tens or hundreds of examples to perform with similar accuracy. People can also use learned concepts in richer ways than conventional algorithms-for action, imagination, and explanation. We present a computational model that captures these human learning abilities for a large class of simple visual concepts: handwritten characters from the world's alphabets. The model represents concepts as simple programs that best explain observed examples under a Bayesian criterion. On a challenging one-shot classification task, the model achieves human-level performance while outperforming recent deep learning approaches. We also present several "visual Turing tests" probing the model's creative generalization abilities, which in many cases are indistinguishable from human behavior.
translated by 谷歌翻译
Understanding the 3D world from 2D images involves more than detection and segmentation of the objects within the scene. It also includes the interpretation of the structure and arrangement of the scene elements. Such understanding is often rooted in recognizing the physical world and its limitations, and in prior knowledge as to how similar typical scenes are arranged. In this research we pose a new challenge for neural network (or other) scene understanding algorithms - can they distinguish between plausible and implausible scenes? Plausibility can be defined both in terms of physical properties and in terms of functional and typical arrangements. Hence, we define plausibility as the probability of encountering a given scene in the real physical world. We build a dataset of synthetic images containing both plausible and implausible scenes, and test the success of various vision models in the task of recognizing and understanding plausibility.
translated by 谷歌翻译
阅读和驾驶等日常任务的核心是主动对象识别。目前无法合并时间来阻碍建模此类任务的尝试。人们在速度和准确性之间表现出灵活的权衡,而这种权衡是至关重要的人类技能。深层神经网络已成为预测人类对象识别峰值和神经活动的有前途的候选人。但是,建模时间维度,即速度准确性权衡(SAT),对于它们作为人类如何识别对象的有用计算模型至关重要。为此,我们在这里介绍了第一个大规模(148个观察者,4个神经网络,8个任务)数据集,该数据集是识别Imagenet图像时速度准确性折衷(SAT)。在每个人类试验中,哔哔声表示所需的反应时间,在显示图像后以固定的延迟发出声音,并且观察者的响应仅在哔哔声附近发生时才计算。在一系列块中,我们测试了许多蜂鸣延迟,即反应时间。我们观察到人类的准确性随反应时间的增加而增加,并继续将其特征与能够推理时间自适应计算的几个动态神经网络的行为进行比较。我们将FLOPS作为反应时间的模拟,我们将网络与人类在曲线拟合误差,类别相关性和曲线陡度中进行比较,并得出结论,级联的动态神经网络是对象识别任务中人类反应时间的有希望的模型。
translated by 谷歌翻译