我们考虑了在连续的状态行为空间中受到约束马尔可夫决策过程(CMDP)的问题,在该空间中,目标是最大程度地提高预期的累积奖励受到某些约束。我们提出了一种新型的保守自然政策梯度原始二算法(C-NPG-PD),以达到零约束违规,同时实现了目标价值函数的最新融合结果。对于一般策略参数化,我们证明了价值函数与全局最佳功能的融合到由于限制性策略类而导致的近似错误。我们甚至从$ \ Mathcal {o}(1/\ epsilon^6)$从$ \ Mathcal {o}(1/\ Epsilon^4)$提高了现有约束NPG-PD算法\ cite {ding2020}的样本复杂性。。据我们所知,这是第一项通过自然政策梯度样式算法建立零约束违规的工作,用于无限的地平线折扣CMDP。我们通过实验评估证明了提出的算法的优点。
translated by 谷歌翻译
强化学习被广泛用于在与环境互动时需要执行顺序决策的应用中。当决策要求包括满足一些安全限制时,问题就变得更加具有挑战性。该问题在数学上是作为约束的马尔可夫决策过程(CMDP)提出的。在文献中,可以通过无模型的方式解决各种算法来解决CMDP问题,以实现$ \ epsilon $ - 最佳的累积奖励,并使用$ \ epsilon $可行的政策。 $ \ epsilon $可行的政策意味着它遭受了违规的限制。这里的一个重要问题是,我们是否可以实现$ \ epsilon $ - 最佳的累积奖励,并违反零约束。为此,我们主张使用随机原始偶对偶方法来解决CMDP问题,并提出保守的随机原始二重算法(CSPDA),该算法(CSPDA)显示出$ \ tilde {\ tilde {\ Mathcal {o}} \ left(1 /\ epsilon^2 \ right)$样本复杂性,以实现$ \ epsilon $ - 最佳累积奖励,违反零约束。在先前的工作中,$ \ epsilon $ - 最佳策略的最佳可用样本复杂性是零约束的策略是$ \ tilde {\ Mathcal {o}}} \ left(1/\ epsilon^5 \ right)$。因此,与最新技术相比,拟议的算法提供了重大改进。
translated by 谷歌翻译
我们研究具有多个奖励价值函数的马尔可夫决策过程(MDP)的政策优化,应根据给定的标准共同优化,例如比例公平(平滑凹面标量),硬约束(约束MDP)和Max-Min Trade-离开。我们提出了一个改变锚定的正规自然政策梯度(ARNPG)框架,该框架可以系统地将良好表现的一阶方法中的思想纳入多目标MDP问题的策略优化算法的设计。从理论上讲,基于ARNPG框架的设计算法实现了$ \ tilde {o}(1/t)$全局收敛,并具有精确的梯度。从经验上讲,与某些现有的基于策略梯度的方法相比,ARNPG引导的算法在精确梯度和基于样本的场景中也表现出卓越的性能。
translated by 谷歌翻译
我们解决了加固学习的安全问题。我们在折扣无限地平线受限的Markov决策过程框架中提出了问题。现有结果表明,基于梯度的方法能够实现$ \ mathcal {o}(1 / \ sqrt {t})$全球收敛速度,用于最优差距和约束违规。我们展示了一种基于自然的基于政策梯度的算法,该算法具有更快的收敛速度$ \ mathcal {o}(\ log(t)/ t)$的最优性差距和约束违规。当满足Slater的条件并已知先验时,可以进一步保证足够大的$ T $的零限制违规,同时保持相同的收敛速度。
translated by 谷歌翻译
在优化动态系统时,变量通常具有约束。这些问题可以建模为受约束的马尔可夫决策过程(CMDP)。本文考虑了受限制的马尔可夫决策过程(PCMDP),其中代理选择该策略以最大程度地提高有限视野中的总奖励,并在每个时期内满足约束。应用不受约束的问题并应用了基于Q的方法。我们定义了可能正确正确的PCMDP问题的概念(PAC)。事实证明,提出的算法可以实现$(\ epsilon,p)$ - PAC政策,当$ k \ geq \ omega(\ frac {i^2h^6sa \ ell} {\ ell} {\ epsilon^2})$ $ s $和$ a $分别是州和行动的数量。 $ h $是每集时代的数量。 $ i $是约束函数的数量,$ \ ell = \ log(\ frac {sat} {p})$。我们注意到,这是PCMDP的PAC分析的第一个结果,具有峰值约束,其中过渡动力学未知。我们证明了有关能量收集问题和单个机器调度问题的提议算法,该算法接近研究优化问题的理论上限。
translated by 谷歌翻译
我们研究了平均奖励马尔可夫决策过程(AMDP)的问题,并开发了具有强大理论保证的新型一阶方法,以进行政策评估和优化。由于缺乏勘探,现有的彻底评估方法遭受了次优融合率以及处理不足的随机策略(例如确定性政策)的失败。为了解决这些问题,我们开发了一种新颖的差异时间差异(VRTD)方法,具有随机策略的线性函数近似以及最佳收敛保证,以及一种探索性方差降低的时间差(EVRTD)方法,用于不充分的随机策略,可相当的融合保证。我们进一步建立了政策评估偏见的线性收敛速率,这对于改善策略优化的总体样本复杂性至关重要。另一方面,与对MDP的政策梯度方法的有限样本分析相比,对AMDP的策略梯度方法的现有研究主要集中在基础马尔可夫流程的限制性假设下(例如,参见Abbasi-e, Yadkori等人,2019年),他们通常缺乏整体样本复杂性的保证。为此,我们开发了随机策略镜下降(SPMD)的平均奖励变体(LAN,2022)。我们建立了第一个$ \ widetilde {\ Mathcal {o}}(\ epsilon^{ - 2})$样品复杂性,用于在生成模型(带有UNICHAIN假设)和Markovian Noise模型(使用Ergodicicic Modele(具有核能的模型)下,使用策略梯度方法求解AMDP假设)。该界限可以进一步改进到$ \ widetilde {\ Mathcal {o}}}(\ epsilon^{ - 1})$用于求解正则化AMDPS。我们的理论优势通过数值实验来证实。
translated by 谷歌翻译
最近已证明,平均场控制(MFC)是可扩展的工具,可近似解决大规模的多代理增强学习(MARL)问题。但是,这些研究通常仅限于无约束的累积奖励最大化框架。在本文中,我们表明,即使在存在约束的情况下,也可以使用MFC方法近似MARL问题。具体来说,我们证明,一个$ n $ agent的约束MARL问题,以及每个尺寸的尺寸$ | \ Mathcal {x} | $和$ | \ Mathcal {u} | $的状态和操作空间,可以通过与错误相关的约束MFC问题近似,$ e \ triangleq \ Mathcal {o} \ left([\ sqrt {| \ Mathcal {| \ Mathcal {x} |} |}+\ sqrt {| ]/\ sqrt {n} \ right)$。在奖励,成本和状态过渡功能独立于人口的行动分布的特殊情况下,我们证明该错误可以将错误提高到$ e = \ nathcal {o}(\ sqrt {| | \ Mathcal {x x x } |}/\ sqrt {n})$。另外,我们提供了一种基于自然策略梯度的算法,并证明它可以在$ \ Mathcal {o}(e)$的错误中解决受约束的MARL问题,并具有$ \ MATHCAL {O}的样本复杂性(E^{ - e^{ - 6})$。
translated by 谷歌翻译
我们考虑了折现成本约束的马尔可夫决策过程(CMDP)策略优化问题,其中代理商试图最大化折扣累计奖励,但受到折扣累积公用事业的许多限制。为了解决这个受约束的优化程序,我们研究了经典原始偶性方法的在线参与者 - 批判性变体,其中使用来自基本时间变化的马尔可夫过程产生的单个轨迹的样品估算了原始功能和双重函数的梯度。这种在线原始双重自然参与者批评算法维护并迭代更新三个变量:双变量(或拉格朗日乘数),一个原始变量(或actor)以及用于估算原始变量和偶变量的梯度的评论变量。这些变量同时更新,但在不同的时间尺度上(使用不同的步骤尺寸),它们都相互交织在一起。我们的主要贡献是得出该算法与CMDP问题全局最佳收敛的有限时间分析。具体而言,我们表明,在适当的步骤中,最佳差距和约束违规的情况下,以$ \ mathcal {o}(1/k^{1/6})$的价格收敛到零,其中k是数字。迭代。据我们所知,本文是第一个研究用于解决CMDP问题的在线原始偶发参与者方法的有限时间复杂性。我们还通过数值模拟来验证该算法的有效性。
translated by 谷歌翻译
我们研究了受限的强化学习问题,其中代理的目的是最大程度地提高预期的累积奖励,从而受到对实用程序函数的预期总价值的约束。与现有的基于模型的方法或无模型方法伴随着“模拟器”,我们旨在开发第一个无模型的无模拟算法,即使在大规模系统中,也能够实现sublinear遗憾和透明度的约束侵犯。为此,我们考虑具有线性函数近似的情节约束决策过程,其中过渡动力学和奖励函数可以表示为某些已知功能映射的线性函数。我们表明$ \ tilde {\ mathcal {o}}(\ sqrt {d^3h^3t})$遗憾和$ \ tilde {\ tillcal {\ mathcal {o}}(\ sqrt {d^3h^3ht})$约束$约束$约束可以实现违规范围,其中$ d $是功能映射的尺寸,$ h $是情节的长度,而$ t $是总数的总数。我们的界限是在没有明确估计未知过渡模型或需要模拟器的情况下达到的,并且仅通过特征映射的维度依赖于状态空间。因此,即使国家的数量进入无穷大,我们的界限也会存在。我们的主要结果是通过标准LSVI-UCB算法的新型适应来实现的。特别是,我们首先将原始二次优化引入LSVI-UCB算法中,以在遗憾和违反约束之间取得平衡。更重要的是,我们使用软马克斯政策取代了LSVI-UCB中的状态行动功能的标准贪婪选择。事实证明,这对于通过其近似平滑度的权衡来确定受约束案例的统一浓度是关键。我们还表明,一个人可以达到均匀的约束违规行为,同时仍然保持相同的订单相对于$ t $。
translated by 谷歌翻译
受限的强化学习是最大程度地提高预期奖励受到公用事业/成本的限制。但是,由于建模错误,对抗性攻击,非平稳性,训练环境可能与测试环境不一样,导致严重的性能降级和更重要的违反约束。我们提出了一个在模型不确定性下的强大约束强化学习框架,其中MDP不是固定的,而是在某些不确定性集中,目的是确保在不确定性集中满足所有MDP的限制,并最大程度地满足对公用事业/成本的限制不确定性集中最差的奖励性能。我们设计了一种强大的原始双重方法,并在理论上进一步发展了其收敛性,复杂性和可行性的保证。然后,我们研究了$ \ delta $ - 污染不确定性集的具体示例,设计一种在线且无模型的算法,并理论上表征了其样本复杂性。
translated by 谷歌翻译
我们改进了用于分析非凸优化随机梯度下降(SGD)的最新工具,以获得香草政策梯度(PG) - 加强和GPOMDP的收敛保证和样本复杂性。我们唯一的假设是预期回报是平滑的w.r.t.策略参数以及其渐变的第二个时刻满足某种\ EMPH {ABC假设}。 ABC的假设允许梯度的第二时刻绑定为\ geq 0 $次的子项优差距,$ b \ geq 0 $乘以完整批量梯度的标准和添加剂常数$ c \ geq 0 $或上述任何组合。我们表明ABC的假设比策略空间上的常用假设更为一般,以证明收敛到静止点。我们在ABC的假设下提供单个融合定理,并表明,尽管ABC假设的一般性,我们恢复了$ \ widetilde {\ mathcal {o}}(\ epsilon ^ {-4})$样本复杂性pg 。我们的融合定理还可在选择超参数等方面提供更大的灵活性,例如步长和批量尺寸的限制$ M $。即使是单个轨迹案例(即,$ M = 1 $)适合我们的分析。我们认为,ABC假设的一般性可以为PG提供理论担保,以至于以前未考虑的更广泛的问题。
translated by 谷歌翻译
作为安全加强学习的重要框架,在最近的文献中已经广泛研究了受约束的马尔可夫决策过程(CMDP)。然而,尽管在各种式学习设置下取得了丰富的结果,但就算法设计和信息理论样本复杂性下限而言,仍然缺乏对离线CMDP问题的基本理解。在本文中,我们专注于仅在脱机数据可用的情况下解决CMDP问题。通过采用单极浓缩系数$ c^*$的概念,我们建立了一个$ \ omega \ left(\ frac {\ min \ left \ left \ weft \ {| \ mathcal {s} || \ mathcal {a} a} |,, | \ Mathcal {s} |+i \ right \} c^*} {(1- \ gamma)^3 \ epsilon^2} \ right)$ sample Complacy度在离线cmdp问题上,其中$ i $架对于约束数量。通过引入一种简单但新颖的偏差控制机制,我们提出了一种称为DPDL的近乎最佳的原始二重学习算法。该算法证明,除了$ \ tilde {\ Mathcal {o}}}}(((1- \ gamma)^{ - 1})$外,该算法可确保零约束违规及其样本复杂性匹配上下界。还包括有关如何处理未知常数$ c^*$以及离线数据集中潜在的异步结构的全面讨论。
translated by 谷歌翻译
我们考虑了具有未知成本函数的大规模马尔可夫决策过程,并解决了从有限一套专家演示学习政策的问题。我们假设学习者不允许与专家互动,并且无法访问任何类型的加固信号。现有的逆钢筋学习方法具有强大的理论保证,但在计算上是昂贵的,而最先进的政策优化算法实现了重大的经验成功,但受到有限的理论理解受到阻碍。为了弥合理论与实践之间的差距,我们使用拉格朗日二元介绍了一种新的Bilinear鞍点框架。所提出的原始双视点允许我们通过随机凸优化的镜头开发出无模型可释放的算法。该方法享有实现,低内存要求和独立于州数量的计算和采样复杂性的优点。我们进一步提出了同等的无悔在线学习解释。
translated by 谷歌翻译
分散的参与者 - 批评(AC)算法已被广泛用于多机构增强学习(MARL),并取得了杰出的成功。除了其经验成功之外,分散的AC算法的理论收敛性在很大程度上没有探索。现有的有限时间收敛结果是基于双环更新或两次尺度的步骤规则得出的,这在实际实施中不经常采用。在这项工作中,我们介绍了一种完全分散的AC算法,演员,评论家和全球奖励估算器以交替的方式更新,阶跃尺寸的顺序相同,即,我们采用\ emph {single-emph {single-timesscale}更新。从理论上讲,使用线性近似进行价值和奖励估计,我们表明我们的算法具有$ \ tilde {\ Mathcal {o}}}(\ epsilon^{ - 2})$的样本复杂性,在马尔可夫式采样下与最佳复杂性相匹配双环实现(在此,$ \ tilde {\ Mathcal {o}} $隐藏了日志项)。样本复杂性可以提高到$ {\ Mathcal {o}}(\ epsilon^{ - 2})$下的I.I.D.采样方案。建立我们的复杂性结果的核心是\ emph {我们揭示的最佳评论家变量的隐藏平滑度}。我们还提供了算法及其分析的本地动作隐私版本。最后,我们进行实验,以显示我们算法优于现有的分散AC算法的优势。
translated by 谷歌翻译
与表征解决马尔可夫决策过程(MDP)样品复杂性的进步相反,解决约束MDP(CMDP)的最佳统计复杂性仍然未知。我们通过在折扣CMDP中学习近乎最佳策略的样本复杂性上的最小上限和下限来解决这个问题,并访问生成模型(模拟器)。特别是,我们设计了一种基于模型的算法,该算法解决了两个设置:(i)允许违反小小的约束的可行性,以及(ii)严格的可行性,其中需要输出策略来满足约束。对于(i),我们证明我们的算法通过制作$ \ tilde {o} \ left(\ frac {s a \ log(1/\ delta)来返回带有概率$ 1- \ delta $的$ \ epsilon $ - 优势策略} {(1- \ gamma)^3 \ epsilon^2} \ right)$ QUERIES $ QUERIES与生成模型相匹配,因此与无约束的MDP的样品复杂性匹配。对于(ii),我们表明该算法的样本复杂性是由$ \ tilde {o} \ left(\ frac {s a a \ log,\ log(1/\ delta)} {(1 - \ gamma)^5 \,\ epsilon^2 \ zeta^2} \ right)$,其中$ \ zeta $是与问题相关的slater常数,其特征是可行区域的大小。最后,我们证明了严格的可行性设置的匹配较低限制,因此获得了折扣CMDP的第一个最小值最佳界限。我们的结果表明,在允许违反小小的约束时,学习CMDP与MDP一样容易,但是当我们要求零约束违规时,本质上更加困难。
translated by 谷歌翻译
本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题,其目标是使具有变量的外目标函数最小化,该变量被限制为对(内部)优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况,而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似(TTSA)算法。在算法中,使用较大步长的随机梯度更新用于内部问题,而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率:当外部问题强烈凸起(RESP。〜弱凸)时,TTSA算法查找$ \ MATHCAL {O}(k ^ { - 2/3})$ -Optimal(resp。〜$ \ mathcal {o}(k ^ {-2/5})$ - 静止)解决方案,其中$ k $是总迭代号。作为一个应用程序,我们表明,两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是,与全球最优政策相比,自然演员批评算法显示以预期折扣奖励的差距,以$ \ mathcal {o}(k ^ { - 1/4})的速率收敛。
translated by 谷歌翻译
我们考虑解决强大的马尔可夫决策过程(MDP)的问题,该过程涉及一组折扣,有限状态,有限的动作空间MDP,具有不确定的过渡核。计划的目的是找到一项强大的政策,以优化针对过渡不确定性的最坏情况值,从而将标准MDP计划作为特殊情况。对于$(\ Mathbf {s},\ Mathbf {a})$ - 矩形不确定性集,我们开发了一种基于策略的一阶方法,即稳健的策略镜像下降(RPMD),并建立$ \ Mathcal {o }(\ log(1/\ epsilon))$和$ \ Mathcal {o}(1/\ epsilon)$迭代复杂性,用于查找$ \ epsilon $ -optimal策略,并带有两个增加的步骤式方案。 RPMD的先前收敛适用于任何Bregman差异,前提是政策空间在以初始政策为中心时通过差异测量的半径限制了半径。此外,当布雷格曼的分歧对应于平方的欧几里得距离时,我们建立了一个$ \ mathcal {o}(\ max \ {1/\ epsilon,1/(\ eta \ eTa \ epsilon^2)\ epsilon^2)\任何常量的步进$ \ eta $。对于Bregman差异的一般类别,如果不确定性集满足相对强的凸度,则还为RPMD建立了类似的复杂性。当仅通过与名义环境的在线互动获得一阶信息时,我们进一步开发了一个名为SRPMD的随机变体。对于Bregman General Divergences,我们建立了一个$ \ MATHCAL {O}(1/\ Epsilon^2)$和$ \ Mathcal {O}(1/\ Epsilon^3)$样品复杂性,具有两个增加的静态方案。对于Euclidean Bregman Divergence,我们建立了一个$ \ MATHCAL {O}(1/\ Epsilon^3)$样本复杂性,并具有恒定的步骤。据我们所知,所有上述结果似乎是应用于强大的MDP问题的基于策略的一阶方法的新事物。
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
Reinforcement learning (RL) problems over general state and action spaces are notoriously challenging. In contrast to the tableau setting, one can not enumerate all the states and then iteratively update the policies for each state. This prevents the application of many well-studied RL methods especially those with provable convergence guarantees. In this paper, we first present a substantial generalization of the recently developed policy mirror descent method to deal with general state and action spaces. We introduce new approaches to incorporate function approximation into this method, so that we do not need to use explicit policy parameterization at all. Moreover, we present a novel policy dual averaging method for which possibly simpler function approximation techniques can be applied. We establish linear convergence rate to global optimality or sublinear convergence to stationarity for these methods applied to solve different classes of RL problems under exact policy evaluation. We then define proper notions of the approximation errors for policy evaluation and investigate their impact on the convergence of these methods applied to general-state RL problems with either finite-action or continuous-action spaces. To the best of our knowledge, the development of these algorithmic frameworks as well as their convergence analysis appear to be new in the literature.
translated by 谷歌翻译
我们表明,在合作$ n $ n $ agent网络中,可以为代理设计本地可执行的策略,以使所得的平均奖励(值)的折现总和非常接近于计算出的最佳价值(包括非本地)策略。具体而言,我们证明,如果$ | \ MATHCAL {X} |,| \ MATHCAL {U} | $表示状态大小和单个代理的操作空间,那么对于足够小的折现因子,近似错误,则由$ \ MATHCAL {o}(e)$ where $ e \ triangleq \ frac {1} {\ sqrt {n}}} \ left [\ sqrt {\ sqrt {| \ Mathcal {x}} |} |} |} |}+\ sqrt { } |} \ right] $。此外,在一种特殊情况下,奖励和状态过渡功能独立于人口的行动分布,错误将$ \ nathcal {o}(e)$提高到其中$ e \ e \ triangleq \ frac {1} {\ sqrt {\ sqrt {n}} \ sqrt {| \ Mathcal {x} |} $。最后,我们还设计了一种算法来明确构建本地政策。在我们的近似结果的帮助下,我们进一步确定构建的本地策略在$ \ Mathcal {o}(\ max \ {e,\ epsilon \})$最佳策略的距离之内对于任何$ \ epsilon> 0 $,本地策略是$ \ MATHCAL {O}(\ Epsilon^{ - 3})$。
translated by 谷歌翻译