主动推论为自主代理人的行为和学习提供了一个一般框架。它指出,代理商将尝试最大程度地减少其变异自由能,这是根据观察,内部状态和政策的信念定义的。传统上,必须手动指定离散主动推理模型的每个方面,即手动定义隐藏的状态空间结构以及所需的分布,例如可能性和过渡概率。最近,已经努力从使用深神经网络的观察结果自动学习状态空间表示。但是,这些模型通常被过度参数化,并可能过度拟合手头的数据。在本文中,我们提出了一种使用量子物理启发的张量网络的学习状态空间的新方法。张量网络代表量子状态的概率性质以及减少大状态空间的能力使张量网络成为自然推断的自然候选者。我们展示了如何将张量网络用作顺序数据的生成模型。此外,我们展示了如何从这种生成模型中获得信念,以及主动推理剂如何使用这些信念来计算预期的自由能。最后,我们演示了有关经典T迷宫环境的方法。
translated by 谷歌翻译
积极推断是复杂系统中的认知和行为的叙述,它在贝叶斯推论的理论地幔下举起动作,感知和学习。积极的推论已经看到学术研究中的应用越来越多,特别是在寻求模拟人类或动物行为的领域。虽然近年来,来自有效推理文献产生的一些代码已经用Python和Julia这样的开源语言编写,迄今为止,用于模拟活动推理代理的最流行的软件是SPM,Matlab库的DEM工具箱最初开发用于神经影像数据的统计分析和建模。因此,在纯粹的数字和科学学科的应用程序方面,表现出对积极推断的兴趣,因此为在开源科学计算语言中模拟了激活推论的通用,广泛可用的和用户友好的代码,这一切都表现为纯粹的数字以及跨科学学科的应用程序。像python。我们在这里呈现的Python包,Pymdp(参见https://github.com/fifer-active/pymdp)表示朝这个方向的重要一步:即,我们提供了用于模拟有源推断的第一个开源包,部分 - 可观察的马尔可夫决策过程或POMDPS。我们查看包的结构,并解释了模块化设计和定制等优点,同时提供沿着文本代码块,以便演示如何使用它以轻松地构建和运行主动推断过程。我们开发了PyMDP,以增加有效推理框架的可访问性和暴露于有多种纪律背景的研究人员,工程师和开发人员。本着开源软件的精神,我们也希望它在不断增长的积极推理界中产生新的创新,发展和合作。
translated by 谷歌翻译
在过去的10到15年中,积极的推论有助于解释从习惯形成到多巴胺能放电甚至建模好奇心的各种脑机制。然而,当在将所有可能的策略上计算到时间范围内的所有可能的策略时,当前实现遭受指数(空间和时间)复杂性等级。 Fountas等人(2020)使用Monte Carlo树搜索解决这个问题,导致两个不同的任务中的令人印象深刻的结果。在本文中,我们提出了一种替代框架,其旨在通过铸造规划作为结构学习问题来统一树搜索和有效推论。然后呈现两个树搜索算法。首先将预期的自由能量及时向前传播(即,朝向叶子),而第二次向后传播(即,朝向根)。然后,我们证明前向和后向传播分别与主动推断和复杂的推断相关,从而阐明了这两个规划策略之间的差异。
translated by 谷歌翻译
积极推断是一种用于建模大脑的最先进的框架,用于建立广泛的机制,例如习惯形成,多巴胺能排放和好奇心。然而,当在所有可能的策略上计算到达时间范围之前,最近的实现遭受指数(空间和时间)复杂性等级。 fountas等人。 (2020)使用Monte Carlo树搜索解决这个问题,导致两种不同的任务中的非常好的结果。此外,冠军等人。 (2021A)提出了一种基于结构学习的树搜索方法。这是通过开发通过激活推理方法的变形消息(Champion等,2021b)的变分数,这使得能够对贝叶斯网络的组成构建进行积极推理。然而,这条消息通过树搜索方法,我们呼叫分支时间有源推断(BTAI),从未经验过测试。在本文中,我们在迷宫溶解剂的背景下提出了对方法(Champion等,2021A)的实验研究。在这种情况下,我们表明,改进的先前偏好和更深的搜索都有助于减轻局部最小值的漏洞。然后,我们将BTAI与图形导航任务的标准活动推理(AI)进行比较。我们表明,对于小图形,BTAI和AI都成功解决了任务。对于较大的图表,AI展示了指数(空间)复杂性等级,使得该方法是棘手的。但是,BTAI更有效地探讨了策略的空间,成功地缩放到更大的图形。
translated by 谷歌翻译
自由能原理及其必然的积极推论构成了一种生物启发的理论,该理论假设生物学作用保留在一个受限制的世界首选状态中,即它们最小化自由能。根据这一原则,生物学家学习了世界的生成模型和未来的计划行动,该模型将使代理保持稳态状态,以满足其偏好。该框架使自己在计算机中实现,因为它理解了使其计算负担得起的重要方面,例如变异推断和摊销计划。在这项工作中,我们研究了深度学习的工具,以设计和实现基于主动推断的人造代理,对自由能原理进行深入学习的呈现,调查工作与机器学习和主动推理领域相关,以及讨论实施过程中涉及的设计选择。该手稿探究了积极推理框架的新观点,将其理论方面扎根于更务实的事务中,为活跃推理的新手提供了实用指南,并为深度学习从业人员的起点提供了研究,以调查自由能源原则的实施。
translated by 谷歌翻译
有效计划的能力对于生物体和人造系统都是至关重要的。在认知神经科学和人工智能(AI)中广泛研究了基于模型的计划和假期,但是从不同的角度来看,以及难以调和的考虑(生物现实主义与可伸缩性)的不同意见(生物现实主义与可伸缩性)。在这里,我们介绍了一种新颖的方法来计划大型POMDP(Active Tree search(ACT)),该方法结合了神经科学中领先的计划理论的规范性特征和生物学现实主义(主动推论)和树木搜索方法的可扩展性AI。这种统一对两种方法都是有益的。一方面,使用树搜索可以使生物学接地的第一原理,主动推断的方法可应用于大规模问题。另一方面,主动推理为探索 - 开发困境提供了一种原则性的解决方案,该解决方案通常在树搜索方法中以启发性解决。我们的模拟表明,ACT成功地浏览了对基于抽样的方法,需要自适应探索的问题以及大型POMDP问题“ RockSample”的二进制树,其中ACT近似于最新的POMDP解决方案。此外,我们说明了如何使用ACT来模拟人类和其他解决大型计划问题的人类和其他动物的神经生理反应(例如,在海马和前额叶皮层)。这些数值分析表明,主动树搜索是神经科学和AI计划理论的原则性实现,既具有生物现实主义和可扩展性。
translated by 谷歌翻译
We advance a novel computational model of multi-agent, cooperative joint actions that is grounded in the cognitive framework of active inference. The model assumes that to solve a joint task, such as pressing together a red or blue button, two (or more) agents engage in a process of interactive inference. Each agent maintains probabilistic beliefs about the goal of the joint task (e.g., should we press the red or blue button?) and updates them by observing the other agent's movements, while in turn selecting movements that make his own intentions legible and easy to infer by the other agent (i.e., sensorimotor communication). Over time, the interactive inference aligns both the beliefs and the behavioral strategies of the agents, hence ensuring the success of the joint action. We exemplify the functioning of the model in two simulations. The first simulation illustrates a ''leaderless'' joint action. It shows that when two agents lack a strong preference about their joint task goal, they jointly infer it by observing each other's movements. In turn, this helps the interactive alignment of their beliefs and behavioral strategies. The second simulation illustrates a "leader-follower" joint action. It shows that when one agent ("leader") knows the true joint goal, it uses sensorimotor communication to help the other agent ("follower") infer it, even if doing this requires selecting a more costly individual plan. These simulations illustrate that interactive inference supports successful multi-agent joint actions and reproduces key cognitive and behavioral dynamics of "leaderless" and "leader-follower" joint actions observed in human-human experiments. In sum, interactive inference provides a cognitively inspired, formal framework to realize cooperative joint actions and consensus in multi-agent systems.
translated by 谷歌翻译
主动推断是建模生物学和人造药物的行为的概率框架,该框架源于最小化自由能的原理。近年来,该框架已成功地应用于各种情况下,其目标是最大程度地提高奖励,提供可比性,有时甚至是卓越的性能与替代方法。在本文中,我们通过演示如何以及何时进行主动推理代理执行最佳奖励的动作来阐明奖励最大化和主动推断之间的联系。确切地说,我们展示了主动推理为Bellman方程提供最佳解决方案的条件 - 这种公式是基于模型的增强学习和控制的几种方法。在部分观察到的马尔可夫决策过程中,标准的主动推理方案可以为计划视野1的最佳动作产生最佳动作,但不能超越。相比之下,最近开发的递归活跃推理方案(复杂的推理)可以在任何有限的颞范围内产生最佳作用。我们通过讨论主动推理和强化学习之间更广泛的关系来补充分析。
translated by 谷歌翻译
灵活的目标指导行为是人类生活的一个基本方面。基于自由能最小化原理,主动推断理论从计算神经科学的角度正式产生了这种行为。基于该理论,我们介绍了一个输出型,时间预测的,模块化的人工神经网络体系结构,该建筑处理感觉运动信息,渗透到世界上与行为相关的方面,并引起高度灵活的,目标定向的行为。我们表明,我们的建筑经过端对端训练,以最大程度地减少自由能的近似值,它会发展出可以将其解释为负担能力地图的潜在状态。也就是说,新兴的潜在状态表明哪种行动导致哪些效果取决于局部环境。结合主动推断,我们表明可以调用灵活的目标指导行为,并结合新兴的负担能力图。结果,我们的模拟代理会在连续的空间中灵活地转向,避免与障碍物发生碰撞,并且更喜欢高确定性地导致目标的途径。此外,我们表明,学识渊博的代理非常适合跨环境的零拍概括:在训练少数固定环境中的代理商在具有障碍和其他影响其行为的固定环境中,它在程序生成的环境中表现出色,其中包含不同量的环境不同位置的各种尺寸的障碍和地形。
translated by 谷歌翻译
分支时间有源推论(Champion等,2021b,a)是一个框架,提议将规划视为贝叶斯模型扩展的形式。它的根源可以在有源推理中找到(Friston等,2016; Da Costa等,2020;冠军等,2021C),一种广泛用于脑建模的神经科学框架,以及蒙特卡罗树搜索(布朗等人,2012),一种广泛应用于加强学习文学的方法。到目前为止,通过利用变形消息通过(WinN和Bishop,2005)提供的灵活性来执行潜在变量的推断,该迭代过程可以被理解为沿着因子图的边缘发送消息(福尼,2001年)。在本文中,我们利用了替代方法的推理效率称为贝叶斯滤波(Fox等,2003),其不需要更新方程的迭代,直到变分自由能的收敛。相反,该方案在两个阶段交替交替:整合证据和未来国家的预测。这两个相可以有效地执行,并且这提供了通过最先进的七十倍的加速。
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
积极推论是一种统一的感知和行动理论,依赖于通过最小化自由能量来维持世界的内部模型。从行为的角度来看,有效推论代理商可以被视为自我证明的生命,以满足他们的乐观预测,即优选的结果或目标。相比之下,加固学习需要人工设计的奖励来完成任何期望的结果。尽管有效推理可以提供更自然的自我监控目标的控制,但其适用性因其在复杂环境中缩放方法的缺点而受到限制。在这项工作中,我们提出了对比主动推断的对比目标,这强烈降低了学习代理商的生成模式和规划未来行动的计算负担。我们的方法在基于图像的任务中的基于似的主动推断的情况下表现出显着优于基于似的主动推断,同时也是计算地更便宜,更容易训练。我们与能够获得人类设计奖励功能的加强学习代理,表明我们的方法与其表现完全符合。最后,我们还表明,在环境中的牵引力的情况下,对比方法显着更好地表现出明显更好,并且我们的方法能够将目标概括为背景中的变化。
translated by 谷歌翻译
当研究不受限制的行为并允许小鼠离开笼子去驾驶复杂的迷宫时,小鼠在迷宫中表现出觅食行为,以寻求奖励,不时返回他们的家园,例如。喝。令人惊讶的是,当执行这样的``本垒打''时,老鼠不会遵循确切的反向路径,实际上,入口路径和家居路径几乎没有重叠。最近的工作提出了导航的层次主动推理模型,低级别模型对隐藏状态进行了推断,并提出了解释感官输入的姿势,而高级模型则可以推断出在位置之间移动,从而有效地构建环境地图。但是,使用此``MAP''进行计划,只允许代理找到它以前探索的轨迹,这与观察到的小鼠行为相去甚远。在本文中,我们探讨了通过使用低级生成模型来想象潜在的,但未发现的路径,探讨了将前路径纳入计划算法的方法。我们在网格世界环境中演示了概念证明,展示了代理如何使用从基于像素的观测值中学到的生成模型准确地预测地图中的新的,更短的路径。
translated by 谷歌翻译
主动推断是建模大脑的最新框架,该框架解释了各种机制,例如习惯形成,多巴胺能排出和好奇心。最近,已经开发了基于蒙特卡洛树搜索的两个版本的分支时间活动推理(BTAI),以处理在计算所有可能的策略之前,直到时间范围的所有可能的策略时,都会发生指数(时空和时间)的复杂性类别。但是,这两个版本的BTAI仍然遭受指数复杂性类W.R.T的损失。在本文中,我们首先允许对几个观测值进行建模来解决此限制,每个观察都有其自己的可能性映射。同样,我们允许每个潜在状态都有自己的过渡映射。然后,推论算法利用了可能性和过渡映射的分解以加速后验计算。在DSPRITES环境上测试了这两个优化,其中DSPRITES数据集的元数据被用作模型的输入,而不是DSPRITES图像。在此任务上,$ btai_ {vmp} $(Champion等,2022b,a)能够在5.1秒内解决96.9 \%的任务,而$ btai_ {bf} $(Champion等,2021a)是能够在17.5秒内解决98.6 \%的任务。我们的新方法($ btai_ {3mf} $)通过仅在2.559秒内完整求解任务(100 \%),超过了其两个前任。最后,$ btai_ {3mf} $已在灵活且易于使用(Python)软件包中实现,我们开发了一个图形用户界面,以实现对模型信念,计划过程和行为的检查。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
张量网络是一种用于表达和近似大量数据的分解类型。给定的数据集,量子状态或更高维的多线性图是由较小的多线性图组成的组成和近似的。这让人联想到如何将布尔函数分解为栅极阵列:这代表了张量分解的特殊情况,其中张量输入的条目被0、1替换,并且分解化精确。相关技术的收集称为张量网络方法:该主题在几个不同的研究领域中独立开发,这些领域最近通过张量网络的语言变得相互关联。该领域中的Tantamount问题涉及张量网络的可表达性和减少计算开销。张量网络与机器学习的合并是自然的。一方面,机器学习可以帮助确定近似数据集的张量网络的分解。另一方面,可以将给定的张量网络结构视为机器学习模型。本文中,调整了张量网络参数以学习或分类数据集。在这项调查中,我们恢复了张量网络的基础知识,并解释了开发机器学习中张量网络理论的持续努力。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
近年来,机器学习的巨大进步已经开始对许多科学和技术的许多领域产生重大影响。在本文的文章中,我们探讨了量子技术如何从这项革命中受益。我们在说明性示例中展示了过去几年的科学家如何开始使用机器学习和更广泛的人工智能方法来分析量子测量,估计量子设备的参数,发现新的量子实验设置,协议和反馈策略,以及反馈策略,以及通常改善量子计算,量子通信和量子模拟的各个方面。我们重点介绍了公开挑战和未来的可能性,并在未来十年的一些投机愿景下得出结论。
translated by 谷歌翻译
We propose the tensorizing flow method for estimating high-dimensional probability density functions from the observed data. The method is based on tensor-train and flow-based generative modeling. Our method first efficiently constructs an approximate density in the tensor-train form via solving the tensor cores from a linear system based on the kernel density estimators of low-dimensional marginals. We then train a continuous-time flow model from this tensor-train density to the observed empirical distribution by performing a maximum likelihood estimation. The proposed method combines the optimization-less feature of the tensor-train with the flexibility of the flow-based generative models. Numerical results are included to demonstrate the performance of the proposed method.
translated by 谷歌翻译
我们介绍了一种改进政策改进的方法,该方法在基于价值的强化学习(RL)的贪婪方法与基于模型的RL的典型计划方法之间进行了插值。新方法建立在几何视野模型(GHM,也称为伽马模型)的概念上,该模型对给定策略的折现状态验证分布进行了建模。我们表明,我们可以通过仔细的基本策略GHM的仔细组成,而无需任何其他学习,可以评估任何非马尔科夫策略,以固定的概率在一组基本马尔可夫策略之间切换。然后,我们可以将广义政策改进(GPI)应用于此类非马尔科夫政策的收集,以获得新的马尔可夫政策,通常将其表现优于其先驱。我们对这种方法提供了彻底的理论分析,开发了转移和标准RL的应用,并在经验上证明了其对标准GPI的有效性,对充满挑战的深度RL连续控制任务。我们还提供了GHM培训方法的分析,证明了关于先前提出的方法的新型收敛结果,并显示了如何在深度RL设置中稳定训练这些模型。
translated by 谷歌翻译