多功能钢筋学习方法在解决复杂的多助理问题中显示出显着的潜力,但大多数缺乏理论担保。最近,平均实地控制和平均野外游戏已被建立为具有许多代理的大规模多代理问题的贸易解决方案。在这项工作中,由激励调度问题驱动,我们考虑具有常见环境状态的离散时间均值实地控制模型。我们严格地建立了近似最优性,因为在有限的代理人案件中增长,发现动态编程原理保持,导致最佳静止政策的存在。由于由于限制平均场地马尔可夫决策过程所产生的连续动作空间,因此难以一般而言,我们应用建立的深度加强学习方法来解决相关的平均场控制问题。将学习的平均实地控制策略的性能与典型的多代理强化学习方法进行比较,并且被发现汇集到足够多种代理的平均场效,验证所获得的理论结果并达到竞争解决方案。
translated by 谷歌翻译
近年来,数据中心和云服务的容量和并行处理能力大大提高。为了充分利用所述分布式系统,必须实现并行排队架构的最佳负载平衡。现有的最新解决方案未能考虑沟通延迟对许多客户的非常大系统的行为的影响。在这项工作中,我们考虑了一个多代理负载平衡系统,其中包含延迟信息,包括许多客户(负载平衡器)和许多并行队列。为了获得可处理的解决方案,我们通过精确离散化在离散时间内将该系统建模为具有扩大状态行动空间的平均场控制问题。随后,我们应用政策梯度增强学习算法来找到最佳的负载平衡解决方案。在这里,离散时间系统模型包含了同步延迟,在该延迟下,在所有客户端,队列状态信息同步广播和更新。然后,我们在大型系统中为我们的方法提供了理论性能保证。最后,使用实验,我们证明了我们的方法不仅可扩展,而且与最新的Join-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the warriant相比,还表现出良好的性能(JSQ)和其他在同步延迟的情况下政策。
translated by 谷歌翻译
致密的大图限制和平均野外游戏的最新进展已开始实现具有大量代理的广泛动态顺序游戏的可扩展分析。到目前为止,结果已经主要限于Graphon平均现场系统,其具有连续延时扩散或跳跃动态,通常没有控制,并且很少专注于计算方法。我们提出了一种新的离散时间制定,用于Graphon均值野外游戏,作为具有薄弱相互作用的非线性密集图Markov游戏的极限。在理论方面,我们在足够大的系统中给出了Graphon均值场解决方案的广泛且严格的存在和近似性质。在实践方面,我们通过引入代理等价类或将Graphon均值字段系统重新格式化为经典平均字段系统来提供Graphon均值的一般学习方案。通过反复找到正则化的最佳控制解决方案及其生成的平均字段,我们成功地获得了与许多代理商的其他不可行的大密集图游戏中的合理的近似纳入均衡。经验上,我们能够证明一些例子,即有限代理行为越来越接近我们计算的均衡的平均场行为,因为图形或系统尺寸增长,验证了我们的理论。更一般地说,我们成功地与序贯蒙特卡罗方法结合使用政策梯度强化学习。
translated by 谷歌翻译
最近的平均野外游戏(MFG)形式主义促进了对许多代理环境中近似NASH均衡的棘手计算。在本文中,我们考虑具有有限摩托目标目标的离散时间有限的MFG。我们表明,所有具有非恒定固定点运算符的离散时间有限的MFG无法正如现有MFG文献中通常假设的,禁止通过固定点迭代收敛。取而代之的是,我们将熵验证和玻尔兹曼策略纳入固定点迭代中。结果,我们获得了现有方法失败的近似固定点的可证明的融合,并达到了近似NASH平衡的原始目标。所有提出的方法均可在其可剥削性方面进行评估,这两个方法都具有可牵引的精确溶液和高维问题的启发性示例,在这些示例中,精确方法变得棘手。在高维场景中,我们采用了既定的深入强化学习方法,并从经验上将虚拟的游戏与我们的近似值结合在一起。
translated by 谷歌翻译
我们提出了一种建模大规模多机构动力学系统的方法,该系统不仅可以使用平均场游戏理论和超图像的概念在成对的代理之间进行相互作用,而且这些概念是大型超透明仪的限制。据我们所知,我们的工作是HyperGraphs平均野外游戏的第一部作品。加上扩展到多层设置,我们获得了非线性,弱相互作用的动力学剂的大型系统的限制描述。从理论方面来说,我们证明了由此产生的超图平均野外游戏的良好基础,显示出存在和近似NASH属性。在应用方面,我们扩展了数值和学习算法以计算超图平均场平衡。为了从经验上验证我们的方法,我们考虑了一个流行病控制问题和社会谣言传播模型,我们为代理人提供了将谣言传播到不知情的代理人的内在动机。
translated by 谷歌翻译
近年来,强化学习及其多代理类似物在解决各种复杂控制问题方面取得了巨大的成功。然而,在其理论分析和算法的经验设计中,多机构的增强学习仍然具有挑战性,尤其是对于大量的体现的机器人剂,在这些机器人链中仍然是确定的工具链仍然是积极研究的一部分。我们使用新兴的最先进的均值控制技术,以将多机构群体控制转换为更经典的单位分布控制。这允许从单位加强学习的进步中获利,以假设代理之间的相互作用较弱。结果,平均场模型被带有体现的,身体碰撞的代理的真实系统的性质违反。在这里,我们将避免碰撞和对平均场控制的学习结合到一个统一设计智能机器人群行为的统一框架。在理论方面,我们为连续空间和避免碰撞的一般平均场控制提供了新颖的近似保证。从实际方面来说,我们表明我们的方法的表现优于多代理强化学习,并允许在模拟和真实无人机群中避免碰撞的同时进行分散的开环应用程序。总体而言,我们为群体行为设计框架提出了一个框架,该框架既有数学上有充分的基础,而且实际上有用,从而实现了原本棘手的群问题的解决方案。
translated by 谷歌翻译
We consider learning approximate Nash equilibria for discrete-time mean-field games with nonlinear stochastic state dynamics subject to both average and discounted costs. To this end, we introduce a mean-field equilibrium (MFE) operator, whose fixed point is a mean-field equilibrium (i.e. equilibrium in the infinite population limit). We first prove that this operator is a contraction, and propose a learning algorithm to compute an approximate mean-field equilibrium by approximating the MFE operator with a random one. Moreover, using the contraction property of the MFE operator, we establish the error analysis of the proposed learning algorithm. We then show that the learned mean-field equilibrium constitutes an approximate Nash equilibrium for finite-agent games.
translated by 谷歌翻译
In this paper, we introduce a regularized mean-field game and study learning of this game under an infinite-horizon discounted reward function. Regularization is introduced by adding a strongly concave regularization function to the one-stage reward function in the classical mean-field game model. We establish a value iteration based learning algorithm to this regularized mean-field game using fitted Q-learning. The regularization term in general makes reinforcement learning algorithm more robust to the system components. Moreover, it enables us to establish error analysis of the learning algorithm without imposing restrictive convexity assumptions on the system components, which are needed in the absence of a regularization term.
translated by 谷歌翻译
Mean-field games have been used as a theoretical tool to obtain an approximate Nash equilibrium for symmetric and anonymous $N$-player games in literature. However, limiting applicability, existing theoretical results assume variations of a "population generative model", which allows arbitrary modifications of the population distribution by the learning algorithm. Instead, we show that $N$ agents running policy mirror ascent converge to the Nash equilibrium of the regularized game within $\tilde{\mathcal{O}}(\varepsilon^{-2})$ samples from a single sample trajectory without a population generative model, up to a standard $\mathcal{O}(\frac{1}{\sqrt{N}})$ error due to the mean field. Taking a divergent approach from literature, instead of working with the best-response map we first show that a policy mirror ascent map can be used to construct a contractive operator having the Nash equilibrium as its fixed point. Next, we prove that conditional TD-learning in $N$-agent games can learn value functions within $\tilde{\mathcal{O}}(\varepsilon^{-2})$ time steps. These results allow proving sample complexity guarantees in the oracle-free setting by only relying on a sample path from the $N$ agent simulator. Furthermore, we demonstrate that our methodology allows for independent learning by $N$ agents with finite sample guarantees.
translated by 谷歌翻译
最近已证明,平均场控制(MFC)是可扩展的工具,可近似解决大规模的多代理增强学习(MARL)问题。但是,这些研究通常仅限于无约束的累积奖励最大化框架。在本文中,我们表明,即使在存在约束的情况下,也可以使用MFC方法近似MARL问题。具体来说,我们证明,一个$ n $ agent的约束MARL问题,以及每个尺寸的尺寸$ | \ Mathcal {x} | $和$ | \ Mathcal {u} | $的状态和操作空间,可以通过与错误相关的约束MFC问题近似,$ e \ triangleq \ Mathcal {o} \ left([\ sqrt {| \ Mathcal {| \ Mathcal {x} |} |}+\ sqrt {| ]/\ sqrt {n} \ right)$。在奖励,成本和状态过渡功能独立于人口的行动分布的特殊情况下,我们证明该错误可以将错误提高到$ e = \ nathcal {o}(\ sqrt {| | \ Mathcal {x x x } |}/\ sqrt {n})$。另外,我们提供了一种基于自然策略梯度的算法,并证明它可以在$ \ Mathcal {o}(e)$的错误中解决受约束的MARL问题,并具有$ \ MATHCAL {O}的样本复杂性(E^{ - e^{ - 6})$。
translated by 谷歌翻译
我们研究了在随机代理网络中的多功能加固学习(MARL)。目标是找到最大化(折扣)全球奖励的本地化政策。通常,可扩展性在此设置中是一个挑战,因为全局状态/动作空间的大小可以是代理的数量的指数。在依赖性是静态,固定和局部,例如,在固定的,时不变的底层图形的邻居之间,才知道可扩展算法。在这项工作中,我们提出了一个可扩展的演员评论家框架,适用于依赖关系可以是非本地和随机的设置,并提供有限误差绑定,显示了收敛速度如何取决于网络中的信息速度。另外,作为我们分析的副产物,我们获得了一般随机近似方案的新型有限时间收敛结果,以及具有状态聚合的时间差异学习,其超出了网络系统中的Marl的设置。
translated by 谷歌翻译
我们表明,在合作$ n $ n $ agent网络中,可以为代理设计本地可执行的策略,以使所得的平均奖励(值)的折现总和非常接近于计算出的最佳价值(包括非本地)策略。具体而言,我们证明,如果$ | \ MATHCAL {X} |,| \ MATHCAL {U} | $表示状态大小和单个代理的操作空间,那么对于足够小的折现因子,近似错误,则由$ \ MATHCAL {o}(e)$ where $ e \ triangleq \ frac {1} {\ sqrt {n}}} \ left [\ sqrt {\ sqrt {| \ Mathcal {x}} |} |} |} |}+\ sqrt { } |} \ right] $。此外,在一种特殊情况下,奖励和状态过渡功能独立于人口的行动分布,错误将$ \ nathcal {o}(e)$提高到其中$ e \ e \ triangleq \ frac {1} {\ sqrt {\ sqrt {n}} \ sqrt {| \ Mathcal {x} |} $。最后,我们还设计了一种算法来明确构建本地政策。在我们的近似结果的帮助下,我们进一步确定构建的本地策略在$ \ Mathcal {o}(\ max \ {e,\ epsilon \})$最佳策略的距离之内对于任何$ \ epsilon> 0 $,本地策略是$ \ MATHCAL {O}(\ Epsilon^{ - 3})$。
translated by 谷歌翻译
我们在具有代理网络的环境中研究强化学习(RL),其状态和行动以当地的方式交互,其中目标是找到本地化策略,以便最大化(折扣)全局奖励。此设置中的一个根本挑战是状态 - 行动空间大小在代理的数量中呈指数级级别,呈现大网络难以解决的问题。在本文中,我们提出了一个可扩展的演员评论家(SAC)框架,用于利用网络结构并找到一个$ O(\ Rho ^ {\ Kappa})$ - 近似于某些目标的静止点的近似$ \ rho \ in(0,1)$,复杂性,与网络最大的$ \ kappa $-hop邻居的本地状态动作空间大小缩放。我们使用无线通信,流行和流量的示例说明了我们的模型和方法。
translated by 谷歌翻译
增强学习算法通常需要马尔可夫决策过程(MDP)中的状态和行动空间的有限度,并且在文献中已经对连续状态和动作空间的这种算法的适用性进行了各种努力。在本文中,我们表明,在非常温和的规律条件下(特别是仅涉及MDP的转换内核的弱连续性),通过量化状态和动作会聚到限制,Q-Learning用于标准BOREL MDP,而且此外限制满足最优性方程,其导致与明确的性能界限接近最优性,或者保证渐近最佳。我们的方法在(i)上建立了(i)将量化视为测量内核,因此将量化的MDP作为POMDP,(ii)利用Q-Learning的Q-Learning的近的最优性和收敛结果,并最终是有限状态的近最优态模型近似用于MDP的弱连续内核,我们展示对应于构造POMDP的固定点。因此,我们的论文提出了一种非常一般的收敛性和近似值,了解Q-Learning用于连续MDP的适用性。
translated by 谷歌翻译
We study a multi-agent reinforcement learning (MARL) problem where the agents interact over a given network. The goal of the agents is to cooperatively maximize the average of their entropy-regularized long-term rewards. To overcome the curse of dimensionality and to reduce communication, we propose a Localized Policy Iteration (LPI) algorithm that provably learns a near-globally-optimal policy using only local information. In particular, we show that, despite restricting each agent's attention to only its $\kappa$-hop neighborhood, the agents are able to learn a policy with an optimality gap that decays polynomially in $\kappa$. In addition, we show the finite-sample convergence of LPI to the global optimal policy, which explicitly captures the trade-off between optimality and computational complexity in choosing $\kappa$. Numerical simulations demonstrate the effectiveness of LPI.
translated by 谷歌翻译
在动态编程(DP)和强化学习(RL)中,代理商学会在通过由Markov决策过程(MDP)建模的环境中顺序交互来实现预期的长期返回。更一般地在分布加强学习(DRL)中,重点是返回的整体分布,而不仅仅是其期望。虽然基于DRL的方法在RL中产生了最先进的性能,但它们涉及尚未充分理解的额外数量(与非分布设置相比)。作为第一个贡献,我们介绍了一类新的分类运营商,以及一个实用的DP算法,用于策略评估,具有强大的MDP解释。实际上,我们的方法通过增强的状态空间重新重新重新重新重新重新格式化,其中每个状态被分成最坏情况的子变量,并且最佳的子变电站,其值分别通过安全和危险的策略最大化。最后,我们派生了分配运营商和DP算法解决了一个新的控制任务:如何区分安全性的最佳动作,以便在最佳政策空间中打破联系?
translated by 谷歌翻译
具有很多玩家的非合作和合作游戏具有许多应用程序,但是当玩家数量增加时,通常仍然很棘手。由Lasry和Lions以及Huang,Caines和Malham \'E引入的,平均野外运动会(MFGS)依靠平均场外近似值,以使玩家数量可以成长为无穷大。解决这些游戏的传统方法通常依赖于以完全了解模型的了解来求解部分或随机微分方程。最近,增强学习(RL)似乎有望解决复杂问题。通过组合MFGS和RL,我们希望在人口规模和环境复杂性方面能够大规模解决游戏。在这项调查中,我们回顾了有关学习MFG中NASH均衡的最新文献。我们首先确定最常见的设置(静态,固定和进化)。然后,我们为经典迭代方法(基于最佳响应计算或策略评估)提供了一个通用框架,以确切的方式解决MFG。在这些算法和与马尔可夫决策过程的联系的基础上,我们解释了如何使用RL以无模型的方式学习MFG解决方案。最后,我们在基准问题上介绍了数值插图,并以某些视角得出结论。
translated by 谷歌翻译
我们考虑在平均场比赛中在线加强学习。与现有作品相反,我们通过开发一种使用通用代理的单个样本路径来估算均值场和最佳策略的算法来减轻对均值甲骨文的需求。我们称此沙盒学习为其,因为它可以用作在多代理非合作环境中运行的任何代理商的温暖启动。我们采用了两种时间尺度的方法,在该方法中,平均场的在线固定点递归在较慢的时间表上运行,并与通用代理更快的时间范围内的控制策略更新同时进行。在足够的勘探条件下,我们提供有限的样本收敛保证,从平均场和控制策略融合到平均场平衡方面。沙盒学习算法的样本复杂性为$ \ Mathcal {o}(\ epsilon^{ - 4})$。最后,我们从经验上证明了沙盒学习算法在交通拥堵游戏中的有效性。
translated by 谷歌翻译
大型人口系统的分析和控制对研究和工程的各个领域引起了极大的兴趣,从机器人群的流行病学到经济学和金融。一种越来越流行和有效的方法来实现多代理系统中的顺序决策,这是通过多机构增强学习,因为它允许对高度复杂的系统进行自动和无模型的分析。但是,可伸缩性的关键问题使控制和增强学习算法的设计变得复杂,尤其是在具有大量代理的系统中。尽管强化学习在许多情况下都发现了经验成功,但许多代理商的问题很快就变得棘手了,需要特别考虑。在这项调查中,我们将阐明当前的方法,以通过多代理强化学习以及通过诸如平均场游戏,集体智能或复杂的网络理论等研究领域进行仔细理解和分析大型人口系统。这些经典独立的主题领域提供了多种理解或建模大型人口系统的方法,这可能非常适合将来的可拖动MARL算法制定。最后,我们调查了大规模控制的潜在应用领域,并确定了实用系统中学习算法的富有成果的未来应用。我们希望我们的调查可以为理论和应用科学的初级和高级研究人员提供洞察力和未来的方向。
translated by 谷歌翻译
随机游戏的学习可以说是多功能钢筋学习(MARL)中最标准和最基本的环境。在本文中,我们考虑在非渐近制度的随机游戏中分散的Marl。特别是,我们在大量的一般总和随机游戏(SGS)中建立了完全分散的Q学习算法的有限样本复杂性 - 弱循环SGS,包括对所有代理商的普通合作MARL设置具有相同的奖励(马尔可夫团队问题是一个特例。我们专注于实用的同时具有挑战性地设置完全分散的Marl,既不奖励也没有其他药剂的作用,每个试剂都可以观察到。事实上,每个特工都完全忘记了其他决策者的存在。表格和线性函数近似情况都已考虑。在表格设置中,我们分析了分散的Q学习算法的样本复杂性,以收敛到马尔可夫完美均衡(NASH均衡)。利用线性函数近似,结果用于收敛到线性近似平衡 - 我们提出的均衡的新概念 - 这描述了每个代理的策略是线性空间内的最佳回复(到其他代理)。还提供了数值实验,用于展示结果。
translated by 谷歌翻译