图像区域的人类优先级可以以显着图或依次使用扫描模型进行时间不变的方式建模。但是,尽管两种类型的模型在几个基准和数据集上都稳步改善,但预测人类凝视仍然存在很大的差距。在这里,我们利用最近的两个发展来减少这一差距:理论分析建立一个原则性的框架,以预测下一个凝视目标和对凝视切换的人为成本的经验测量,而与图像内容无关。我们在顺序决策的框架中介绍了一种算法,该算法将任何静态显着性映射转换为一系列动态历史依赖的值映射序列,在每个注视转移之后都会重新计算。这些地图基于1)任意显着性模型提供的显着性图,2)最近测量的人类成本函数量化了眼动的大小和方向的偏好,以及3)连续探索奖金,随后的每次凝视随着每个探索而变化。该探索奖金的空间范围和时间衰减的参数是从人类凝视数据中估计的。这三个组件的相对贡献在MIT1003数据集上优化了NSS得分,并且足以显着超过NSS上的下一个注视目标的预测,并且在三个图像数据集中,对于五个最神经的显着性模型,对NSS的下一个凝视目标和AUC分数进行了预测。因此,我们提供了人类凝视偏好的实施,可用于改善任意显着性模型的“对人类对人类的预测”的下一个凝视目标。
translated by 谷歌翻译
视觉搜索是几乎任何日常人类目标与环境的目标互动的重要组成部分。如今,几种算法能够在简单的观察期间预测凝视位置,但是很少有模型试图在自然场景中视觉搜索期间模拟人类行为。此外,这些模型在其设计中差异很大,并且在评估它们的数据集和度量标准中展示了不同的差异。因此,需要一个参考点,每个模型可以测试,并且可以从哪里导出潜在的改进。在目前的工作中,我们在自然场景中选择公开的最先进的视觉搜索模型,并在不同的数据集中评估它们,采用相同的指标来估算其与人类受试者的效率和相似性。特别是,我们通过与基于神经网络的视觉搜索模型的组合来提出对理想贝叶斯搜索者的改进,使其能够概括到其他数据集。目前的工作揭示了当前模型的局限性以及如何通过组合方法来实现潜在的改进。此外,它向前移动了为迫切需要基准测试数据和指标的解决方案,以支持更多一般人类视觉搜索计算模型的开发。
translated by 谷歌翻译
我们提出了统一的显着性和扫描路径模型(UMSS) - 一个模型,用于预测信息性能的视觉显着和扫描路径(即眼固定序列)。虽然扫描路径提供有关视觉探索过程中不同可视化元素的重要性的丰富信息,但是有限的工作仅限于预测聚合的注意力统计,例如视觉显着性。我们对流行的Massvis DataSet上的不同信息可视化元素(例如标题,标题,数据)进行了深入的凝视行为。我们表明,虽然整体而言,凝视图案令人惊讶地在可视化和观众方面一致,但不同元素的凝视动力学也存在结构差异。通过我们的分析来了解,UMSS首先预测多持续元素级显着映射,然后是概率地样本来自它们的扫描路径。对Massvis的广泛实验表明,我们的方法始终如一地优于若干,广泛使用的扫描路径和显着性评估度量的最先进的方法。我们的方法在扫描路径预测的序列得分为11.5%的相对改善,并且Pearson相关系数的显着性预测高达23.6%的相对提高。这些结果是令人愉快的,并指向更丰富的用户模型和对视觉关注的模拟,无需任何眼睛跟踪设备。
translated by 谷歌翻译
我们提出了一种用于图像显着性预测的新方法,群集显着性预测。该方法根据其个人特征和已知的显着图将个体分为群集,并为每个群集生成单独的图像显着模型。我们在个性化显着图的公共数据集上测试了我们的方法,对个人特征因素的重要性各不相同,并观察了对集群的影响。对于每个群集,我们使用图像到图像翻译方法(主要是Pix2Pix模型)将通用显着性图转换为该群集的显着性图。我们尝试了三种最先进的普遍显着性预测方法,即Deepgaze II,ML-Net和Salgan,并看到它们对结果的影响。我们表明,我们的群集显着性预测技术优于最先进的普遍显着性预测模型。我们还通过使用通过受试者相似性聚类算法和两种基线方法比较聚类显着性预测的结果来证明聚类方法的有效性。我们提出了一种方法,将新朋友分配给最合适的集群,基于他们的个人功能和任何已知的显着图。在我们的实验中,我们看到这种将新人分配给群集的方法平均选择了具有更高显着性得分的群集。
translated by 谷歌翻译
Applying convolutional neural networks to large images is computationally expensive because the amount of computation scales linearly with the number of image pixels. We present a novel recurrent neural network model that is capable of extracting information from an image or video by adaptively selecting a sequence of regions or locations and only processing the selected regions at high resolution. Like convolutional neural networks, the proposed model has a degree of translation invariance built-in, but the amount of computation it performs can be controlled independently of the input image size. While the model is non-differentiable, it can be trained using reinforcement learning methods to learn task-specific policies. We evaluate our model on several image classification tasks, where it significantly outperforms a convolutional neural network baseline on cluttered images, and on a dynamic visual control problem, where it learns to track a simple object without an explicit training signal for doing so.
translated by 谷歌翻译
人类凝视行为的预测对于构建可以预见用户注意力的人类计算机交互式系统很重要。已经开发了计算机视觉模型,以预测人们在寻找目标对象时进行的固定。但是,何时没有目标呢?同样重要的是要知道人们在找不到目标时如何搜索以及何时停止搜索。在本文中,我们提出了第一个以数据驱动的计算模型来解决搜索终止问题,并预测了搜索未出现在图像中的目标的人进行的搜索固定的扫描路径。我们将视觉搜索建模为模仿学习问题,并代表观众通过使用新颖的状态表示来获取的内部知识,我们称之为foveated特征映射(FFMS)。 FFMS将模拟的散发性视网膜集成到预处理的Convnet中,该转向网络产生网络内功能金字塔,所有这些都具有最小的计算开销。我们的方法将FFMS作为逆增强学习中的状态表示。在实验上,我们在预测可可搜索数据集上的人类目标搜索行为方面提高了最新技术的状态
translated by 谷歌翻译
视觉搜索是一项普遍存在的,通常挑战日常任务,是通过寻找家中的汽车钥匙或在人群中的朋友。一些经典搜索任务的有趣性属性是一种不对称性,使得在分散的人B中找到目标A可以比找到A中的B.为了阐明对视觉搜索中的不对称负责的机制,我们提出了一种占据目标的计算模型和将搜索图像作为输入,并在找到目标之前产生一系列眼睛移动。该模型将偏心依赖性视觉识别与目标相关的自上而下的提示集成在一起。我们将六种范式搜索任务中的人类行为与人类显示不对称的案式进行比较。如果没有先前接触刺激或任务特定的培训,则该模型提供了搜索不对称的合理机制。我们假设搜索不对称的极性来自自然环境的经验。我们通过培训模型在想象中的增强版本的模型进行测试,其中自然图像的偏差被移除或逆转。根据训练协议,搜索不对称的极性消失或被改变。本研究强调了神经网络模型可以出现古典感知特性如何,而无需特定于任务培训,而是由于馈送到模型的发育饮食的统计特性。所有源代码和数据都在https://github.com/kreimanlab/visualsearchaseSearmmetry上公开使用。
translated by 谷歌翻译
路线选择建模,即估计个人在旅途中遵循的路径的过程,是运输计划和需求预测的基本任务。经典方法通常采用具有线性实用程序功能和高级路由特性的离散选择模型(DCM)框架。尽管最近的一些研究开始探索深度学习对于旅行选择建模的适用性,但它们都是基于路径的,具有相对简单的模型体系结构,无法利用详细的链接级功能。现有的基于链接的模型虽然理论上有希望,但通常不够可扩展或灵活,无法说明目标特征。为了解决这些问题,这项研究提出了针对基于链接的路线选择建模的一般深层逆增强学习(IRL)框架,该框架能够纳入高维特征并捕获复杂的关系。具体而言,我们将对抗性IRL模型调整为路由选择问题,以有效地估计目标依赖的奖励和策略功能。实验结果基于上海的出租车GPS数据,中国验证了拟议模型对常规DCM和其他模仿学习基线的改善,即使是在培训数据中看不见的目的地。我们还使用可解释的AI技术演示了模型的解释性。拟议的方法为路线选择模型的未来开发提供了新的方向。它是一般的,应该适应不同模式和网络上其他路线选择问题。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.
translated by 谷歌翻译
学习涉及时变和不断发展的系统动态的控制政策通常对主流强化学习算法构成了巨大的挑战。在大多数标准方法中,通常认为动作是一组刚性的,固定的选择,这些选择以预定义的方式顺序应用于状态空间。因此,在不诉诸于重大学习过程的情况下,学识渊博的政策缺乏适应动作集和动作的“行为”结果的能力。此外,标准行动表示和动作引起的状态过渡机制固有地限制了如何将强化学习应用于复杂的现实世界应用中,这主要是由于所得大的状态空间的棘手性以及缺乏概括的学术知识对国家空间未知部分的政策。本文提出了一个贝叶斯味的广义增强学习框架,首先建立参数动作模型的概念,以更好地应对不确定性和流体动作行为,然后将增强领域的概念作为物理启发的结构引入通过“极化体验颗粒颗粒建立) “维持在学习代理的工作记忆中。这些粒子有效地编码了以自组织方式随时间演变的动态学习体验。在强化领域之上,我们将进一步概括策略学习过程,以通过将过去的记忆视为具有隐式图结构来结合高级决策概念,在该结构中,过去的内存实例(或粒子)与决策之间的相似性相互联系。定义,因此,可以应用“关联记忆”原则来增强学习代理的世界模型。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
从我们生命的最早几年开始,人类使用语言来表达我们的信念和欲望。因此,能够与人造代理讨论我们的偏好将实现价值一致性的核心目标。然而,今天,我们缺乏解释这种灵活和抽象语言使用的计算模型。为了应对这一挑战,我们考虑在线性强盗环境中考虑社会学习,并询问人类如何传达与行为的偏好(即奖励功能)。我们研究两种不同类型的语言:指令,提供有关所需政策的信息和描述,这些信息提供了有关奖励功能的信息。为了解释人类如何使用这些形式的语言,我们建议他们推理出已知和未知的未来状态:对当前的说明优化,同时描述对未来进行了推广。我们通过扩展奖励设计来考虑对国家的分配来形式化此选择。然后,我们定义了一种务实的听众,该代理人通过推理说话者如何表达自己来侵犯说话者的奖励功能。我们通过行为实验来验证我们的模型,表明(1)我们的说话者模型预测了自发的人类行为,并且(2)我们的务实的听众能够恢复其奖励功能。最后,我们表明,在传统的强化学习环境中,务实的社会学习可以与个人学习相结合并加速。我们的发现表明,从更广泛的语言中的社会学习,特别是,扩大了该领域的目前对指示的关注,以包括从描述中学习 - 是一种有前途的价值一致性和强化学习的有前途的方法。
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
“轨迹”是指由地理空间中的移动物体产生的迹线,通常由一系列按时间顺序排列的点表示,其中每个点由地理空间坐标集和时间戳组成。位置感应和无线通信技术的快速进步使我们能够收集和存储大量的轨迹数据。因此,许多研究人员使用轨迹数据来分析各种移动物体的移动性。在本文中,我们专注于“城市车辆轨迹”,这是指城市交通网络中车辆的轨迹,我们专注于“城市车辆轨迹分析”。城市车辆轨迹分析提供了前所未有的机会,可以了解城市交通网络中的车辆运动模式,包括以用户为中心的旅行经验和系统范围的时空模式。城市车辆轨迹数据的时空特征在结构上相互关联,因此,许多先前的研究人员使用了各种方法来理解这种结构。特别是,由于其强大的函数近似和特征表示能力,深度学习模型是由于许多研究人员的注意。因此,本文的目的是开发基于深度学习的城市车辆轨迹分析模型,以更好地了解城市交通网络的移动模式。特别是,本文重点介绍了两项研究主题,具有很高的必要性,重要性和适用性:下一个位置预测,以及合成轨迹生成。在这项研究中,我们向城市车辆轨迹分析提供了各种新型模型,使用深度学习。
translated by 谷歌翻译
灵活的目标指导行为是人类生活的一个基本方面。基于自由能最小化原理,主动推断理论从计算神经科学的角度正式产生了这种行为。基于该理论,我们介绍了一个输出型,时间预测的,模块化的人工神经网络体系结构,该建筑处理感觉运动信息,渗透到世界上与行为相关的方面,并引起高度灵活的,目标定向的行为。我们表明,我们的建筑经过端对端训练,以最大程度地减少自由能的近似值,它会发展出可以将其解释为负担能力地图的潜在状态。也就是说,新兴的潜在状态表明哪种行动导致哪些效果取决于局部环境。结合主动推断,我们表明可以调用灵活的目标指导行为,并结合新兴的负担能力图。结果,我们的模拟代理会在连续的空间中灵活地转向,避免与障碍物发生碰撞,并且更喜欢高确定性地导致目标的途径。此外,我们表明,学识渊博的代理非常适合跨环境的零拍概括:在训练少数固定环境中的代理商在具有障碍和其他影响其行为的固定环境中,它在程序生成的环境中表现出色,其中包含不同量的环境不同位置的各种尺寸的障碍和地形。
translated by 谷歌翻译
主动同时定位和映射(SLAM)是规划和控制机器人运动以构建周围环境中最准确,最完整的模型的问题。自从三十多年前出现了积极感知的第一项基础工作以来,该领域在不同科学社区中受到了越来越多的关注。这带来了许多不同的方法和表述,并回顾了当前趋势,对于新的和经验丰富的研究人员来说都是非常有价值的。在这项工作中,我们在主动大满贯中调查了最先进的工作,并深入研究了仍然需要注意的公开挑战以满足现代应用程序的需求。为了实现现实世界的部署。在提供了历史观点之后,我们提出了一个统一的问题制定并审查经典解决方案方案,该方案将问题分解为三个阶段,以识别,选择和执行潜在的导航措施。然后,我们分析替代方法,包括基于深入强化学习的信念空间规划和现代技术,以及审查有关多机器人协调的相关工作。该手稿以讨论新的研究方向的讨论,解决可再现的研究,主动的空间感知和实际应用,以及其他主题。
translated by 谷歌翻译
强化学习(RL)和脑电脑接口(BCI)是过去十年一直在增长的两个领域。直到最近,这些字段彼此独立操作。随着对循环(HITL)应用的兴趣升高,RL算法已经适用于人类指导,从而产生互动强化学习(IRL)的子领域。相邻的,BCI应用一直很感兴趣在人机交互期间从神经活动中提取内在反馈。这两个想法通过将BCI集成到IRL框架中,将RL和BCI设置在碰撞过程中,通过将内在反馈可用于帮助培训代理商来帮助框架。这种交叉点被称为内在的IRL。为了进一步帮助,促进BCI和IRL的更深层次,我们对内在IRILL的审查有着重点在于其母体领域的反馈驱动的IRL,同时还提供有关有效性,挑战和未来研究方向的讨论。
translated by 谷歌翻译
自由能原理及其必然的积极推论构成了一种生物启发的理论,该理论假设生物学作用保留在一个受限制的世界首选状态中,即它们最小化自由能。根据这一原则,生物学家学习了世界的生成模型和未来的计划行动,该模型将使代理保持稳态状态,以满足其偏好。该框架使自己在计算机中实现,因为它理解了使其计算负担得起的重要方面,例如变异推断和摊销计划。在这项工作中,我们研究了深度学习的工具,以设计和实现基于主动推断的人造代理,对自由能原理进行深入学习的呈现,调查工作与机器学习和主动推理领域相关,以及讨论实施过程中涉及的设计选择。该手稿探究了积极推理框架的新观点,将其理论方面扎根于更务实的事务中,为活跃推理的新手提供了实用指南,并为深度学习从业人员的起点提供了研究,以调查自由能源原则的实施。
translated by 谷歌翻译
The reinforcement learning paradigm is a popular way to address problems that have only limited environmental feedback, rather than correctly labeled examples, as is common in other machine learning contexts. While significant progress has been made to improve learning in a single task, the idea of transfer learning has only recently been applied to reinforcement learning tasks. The core idea of transfer is that experience gained in learning to perform one task can help improve learning performance in a related, but different, task. In this article we present a framework that classifies transfer learning methods in terms of their capabilities and goals, and then use it to survey the existing literature, as well as to suggest future directions for transfer learning work.
translated by 谷歌翻译