逆增强学习(IRL)是从专家演示中推断奖励功能的强大范式。许多IRL算法都需要已知的过渡模型,有时甚至是已知的专家政策,或者至少需要访问生成模型。但是,对于许多现实世界应用,这些假设太强了,在这些应用程序中,只能通过顺序相互作用访问环境。我们提出了一种新颖的IRL算法:逆增强学习(ACEIRL)的积极探索,该探索积极探索未知的环境和专家政策,以快速学习专家的奖励功能并确定良好的政策。 Aceirl使用以前的观察来构建置信区间,以捕获合理的奖励功能,并找到关注环境最有用区域的勘探政策。 Aceirl是使用样品复杂性界限的第一种活动IRL的方法,不需要环境的生成模型。在最坏情况下,Aceirl与活性IRL的样品复杂性与生成模型匹配。此外,我们建立了一个与问题相关的结合,该结合将Aceirl的样品复杂性与给定IRL问题的次级隔离间隙联系起来。我们在模拟中对Aceirl进行了经验评估,发现它的表现明显优于更幼稚的探索策略。
translated by 谷歌翻译
Epsilon-Greedy,SoftMax或Gaussian噪声等近视探索政策在某些强化学习任务中无法有效探索,但是在许多其他方面,它们的表现都很好。实际上,实际上,由于简单性,它们通常被选为最佳选择。但是,对于哪些任务执行此类政策成功?我们可以为他们的有利表现提供理论保证吗?尽管这些政策具有显着的实际重要性,但这些关键问题几乎没有得到研究。本文介绍了对此类政策的理论分析,并为通过近视探索提供了对增强学习的首次遗憾和样本复杂性。我们的结果适用于具有有限的Bellman Eluder维度的情节MDP中的基于价值功能的算法。我们提出了一种新的复杂度度量,称为近视探索差距,用Alpha表示,该差距捕获了MDP的结构属性,勘探策略和给定的值函数类别。我们表明,近视探索的样品复杂性与该数量的倒数1 / alpha^2二次地量表。我们通过具体的例子进一步证明,由于相应的动态和奖励结构,在近视探索成功的几项任务中,近视探索差距确实是有利的。
translated by 谷歌翻译
我们介绍了一种普遍的策略,可实现有效的多目标勘探。它依赖于adagoal,一种基于简单约束优化问题的新的目标选择方案,其自适应地针对目标状态,这既不是太困难也不是根据代理目前的知识达到的。我们展示了Adagoal如何用于解决学习$ \ epsilon $ -optimal的目标条件的政策,以便在$ L $ S_0 $ S_0 $奖励中获得的每一个目标状态,以便在$ S_0 $中获取。免费马尔可夫决策过程。在标准的表格外壳中,我们的算法需要$ \ tilde {o}(l ^ 3 s a \ epsilon ^ { - 2})$探索步骤,这几乎很少最佳。我们还容易在线性混合Markov决策过程中实例化Adagoal,其产生具有线性函数近似的第一目标导向的PAC保证。除了强大的理论保证之外,迈克纳队以现有方法的高级别算法结构为锚定,为目标条件的深度加固学习。
translated by 谷歌翻译
在大约正确的(PAC)强化学习(RL)中,需要代理来识别具有$ 1- \ delta $的$ \ epsilon $最佳政策。尽管此问题存在最小值最佳算法,但其实例依赖性复杂性在情节马尔可夫决策过程(MDPS)中仍然难以捉摸。在本文中,我们提出了具有有限状态和动作空间的确定性情节MDP中PAC RL样品复杂性的第一个(几乎)匹配的上限和下限。特别是,我们的界限为国家行动对的新概念构成了我们称为确定性返回差距的新概念。尽管我们的依赖实例的下限是作为线性程序编写的,但我们的算法非常简单,并且在学习过程中不需要解决这样的优化问题。他们的设计和分析采用了新颖的想法,包括图理论概念,例如最小流量和最大削减,我们认为这为这个问题提供了新的启示。
translated by 谷歌翻译
在线强化学习(RL)中的挑战之一是代理人需要促进对环境的探索和对样品的利用来优化其行为。无论我们是否优化遗憾,采样复杂性,状态空间覆盖范围或模型估计,我们都需要攻击不同的勘探开发权衡。在本文中,我们建议在分离方法组成的探索 - 剥削问题:1)“客观特定”算法(自适应)规定哪些样本以收集到哪些状态,似乎它可以访问a生成模型(即环境的模拟器); 2)负责尽可能快地生成规定样品的“客观无关的”样品收集勘探策略。建立最近在随机最短路径问题中进行探索的方法,我们首先提供一种算法,它给出了每个状态动作对所需的样本$ B(S,a)$的样本数量,需要$ \ tilde {o} (bd + d ^ {3/2} s ^ 2 a)收集$ b = \ sum_ {s,a} b(s,a)$所需样本的$时间步骤,以$ s $各国,$ a $行动和直径$ d $。然后我们展示了这种通用探索算法如何与“客观特定的”策略配对,这些策略规定了解决各种设置的样本要求 - 例如,模型估计,稀疏奖励发现,无需无成本勘探沟通MDP - 我们获得改进或新颖的样本复杂性保证。
translated by 谷歌翻译
强化学习理论集中在两个基本问题上:实现低遗憾,并确定$ \ epsilon $ - 最佳政策。虽然简单的减少允许人们应用低温算法来获得$ \ epsilon $ - 最佳政策并达到最坏的最佳速率,但尚不清楚低regret算法是否可以获得实例 - 最佳率的策略识别率。我们表明这是不可能的 - 在遗憾和确定$ \ epsilon $ - 最佳政策之间以最佳的利率确定了基本的权衡。由于我们的负面发现,我们提出了针对PAC表格增强学习实例依赖性样本复杂性的新量度,该方法明确说明了基础MDP中可达到的国家访问分布。然后,我们提出和分析一种基于计划的新型算法,该算法达到了这种样本的复杂性 - 产生的复杂性会随着次要差距和状态的“可达到性”而缩放。我们显示我们的算法几乎是最小的最佳选择,并且在一些示例中,我们实例依赖性样品复杂性比最差案例界限可显着改善。
translated by 谷歌翻译
Model-free reinforcement learning (RL) algorithms, such as Q-learning, directly parameterize and update value functions or policies without explicitly modeling the environment. They are typically simpler, more flexible to use, and thus more prevalent in modern deep RL than model-based approaches. However, empirical work has suggested that model-free algorithms may require more samples to learn [7,22]. The theoretical question of "whether model-free algorithms can be made sample efficient" is one of the most fundamental questions in RL, and remains unsolved even in the basic scenario with finitely many states and actions.We prove that, in an episodic MDP setting, Q-learning with UCB exploration achieves regret Õ( √ H 3 SAT ), where S and A are the numbers of states and actions, H is the number of steps per episode, and T is the total number of steps. This sample efficiency matches the optimal regret that can be achieved by any model-based approach, up to a single √ H factor. To the best of our knowledge, this is the first analysis in the model-free setting that establishes √ T regret without requiring access to a "simulator." * The first two authors contributed equally.
translated by 谷歌翻译
在许多综合设置(例如视频游戏)和GO中,增强学习(RL)超出了人类的绩效。但是,端到端RL模型的现实部署不太常见,因为RL模型对环境的轻微扰动非常敏感。强大的马尔可夫决策过程(MDP)框架(其中的过渡概率属于名义模型设置的不确定性)提供了一种开发健壮模型的方法。虽然先前的分析表明,RL算法是有效的,假设访问生成模型,但尚不清楚RL在更现实的在线设置下是否可以有效,这需要在探索和开发之间取得仔细的平衡。在这项工作中,我们通过与未知的名义系统进行互动来考虑在线强大的MDP。我们提出了一种强大的乐观策略优化算法,该算法可有效。为了解决由对抗性环境引起的其他不确定性,我们的模型具有通过Fenchel Conjugates得出的新的乐观更新规则。我们的分析确定了在线强大MDP的第一个遗憾。
translated by 谷歌翻译
尽管在理解增强学习的最小样本复杂性(RL)(在“最坏情况”的实例上学习的复杂性)方面已经取得了很多进展,但这种复杂性的衡量标准通常不会捕捉到真正的学习困难。在实践中,在“简单”的情况下,我们可能希望获得比最糟糕的实例可以实现的要好得多。在这项工作中,我们试图理解在具有线性函数近似的RL设置中学习近乎最佳策略(PAC RL)的“实例依赖性”复杂性。我们提出了一种算法,\ textsc {pedel},该算法实现了依赖于实例的复杂性的量度,这是RL中的第一个具有功能近似设置,从而捕获了每个特定问题实例的学习难度。通过一个明确的示例,我们表明\ textsc {pedel}可以在低重晶,最小值 - 最佳算法上获得可证明的收益,并且这种算法无法达到实例 - 最佳速率。我们的方法取决于基于设计的新型实验程序,该程序将勘探预算重点放在与学习近乎最佳政策最相关的“方向”上,并且可能具有独立的兴趣。
translated by 谷歌翻译
Many real-world reinforcement learning tasks require control of complex dynamical systems that involve both costly data acquisition processes and large state spaces. In cases where the transition dynamics can be readily evaluated at specified states (e.g., via a simulator), agents can operate in what is often referred to as planning with a \emph{generative model}. We propose the AE-LSVI algorithm for best-policy identification, a novel variant of the kernelized least-squares value iteration (LSVI) algorithm that combines optimism with pessimism for active exploration (AE). AE-LSVI provably identifies a near-optimal policy \emph{uniformly} over an entire state space and achieves polynomial sample complexity guarantees that are independent of the number of states. When specialized to the recently introduced offline contextual Bayesian optimization setting, our algorithm achieves improved sample complexity bounds. Experimentally, we demonstrate that AE-LSVI outperforms other RL algorithms in a variety of environments when robustness to the initial state is required.
translated by 谷歌翻译
最近有兴趣了解地平线依赖于加固学习(RL)的样本复杂性。值得注意的是,对于具有Horizo​​ n长度$ H $的RL环境,之前的工作表明,使用$ \ mathrm {polylog}(h)有可能学习$ o(1)$ - 最佳策略的可能大致正确(pac)算法$当州和行动的数量固定时的环境交互剧集。它尚不清楚$ \ mathrm {polylog}(h)$依赖性是必要的。在这项工作中,我们通过开发一种算法来解决这个问题,该算法在仅使用ONTO(1)美元的环境交互的同时实现相同的PAC保证,完全解决RL中样本复杂性的地平线依赖性。我们通过(i)在贴现和有限地平线马尔可夫决策过程(MDP)和(ii)在MDP中的新型扰动分析中建立价值函数之间的联系。我们相信我们的新技术具有独立兴趣,可在RL中应用相关问题。
translated by 谷歌翻译
Modern Reinforcement Learning (RL) is commonly applied to practical problems with an enormous number of states, where function approximation must be deployed to approximate either the value function or the policy. The introduction of function approximation raises a fundamental set of challenges involving computational and statistical efficiency, especially given the need to manage the exploration/exploitation tradeoff. As a result, a core RL question remains open: how can we design provably efficient RL algorithms that incorporate function approximation? This question persists even in a basic setting with linear dynamics and linear rewards, for which only linear function approximation is needed.This paper presents the first provable RL algorithm with both polynomial runtime and polynomial sample complexity in this linear setting, without requiring a "simulator" or additional assumptions. Concretely, we prove that an optimistic modification of Least-Squares Value Iteration (LSVI)-a classical algorithm frequently studied in the linear setting-achieves O( √ d 3 H 3 T ) regret, where d is the ambient dimension of feature space, H is the length of each episode, and T is the total number of steps. Importantly, such regret is independent of the number of states and actions.
translated by 谷歌翻译
我们研究了基于模型的无奖励加强学习,具有ePiSodic Markov决策过程的线性函数近似(MDP)。在此设置中,代理在两个阶段工作。在勘探阶段,代理商与环境相互作用并在没有奖励的情况下收集样品。在规划阶段,代理商给出了特定的奖励功能,并使用从勘探阶段收集的样品来学习良好的政策。我们提出了一种新的可直接有效的算法,称为UCRL-RFE在线性混合MDP假设,其中MDP的转换概率内核可以通过线性函数参数化,在状态,动作和下一个状态的三联体上定义的某些特征映射上参数化。我们展示了获得$ \ epsilon $-Optimal策略进行任意奖励函数,Ucrl-RFE需要以大多数$ \ tilde {\ mathcal {o}}来进行采样(h ^ 5d ^ 2 \ epsilon ^ { - 2})勘探阶段期间的$派对。在这里,$ H $是集的长度,$ d $是特征映射的尺寸。我们还使用Bernstein型奖金提出了一种UCRL-RFE的变种,并表明它需要在大多数$ \ TINDE {\ MATHCAL {o}}(H ^ 4D(H + D)\ epsilon ^ { - 2})进行样本$达到$ \ epsilon $ -optimal政策。通过构建特殊类的线性混合MDPS,我们还证明了对于任何无奖励算法,它需要至少为$ \ TINDE \ OMEGA(H ^ 2d \ epsilon ^ { - 2})$剧集来获取$ \ epsilon $ -optimal政策。我们的上限与依赖于$ \ epsilon $的依赖性和$ d $ if $ h \ ge d $。
translated by 谷歌翻译
无奖励强化学习(RL)考虑了代理在探索过程中无法访问奖励功能的设置,但必须提出仅在探索后才揭示的任意奖励功能的近乎最佳的政策。在表格环境中,众所周知,这是一个比奖励意识(PAC)RL(代理在探索过程中访问奖励功能)更困难的问题$ | \ Mathcal {s} | $,状态空间的大小。我们表明,在线性MDP的设置中,这种分离不存在。我们首先在$ d $二维线性MDP中开发了一种计算高效算法,其样品复杂度比例为$ \ widetilde {\ Mathcal {o}}(d^2 H^5/\ epsilon^2)$ 。然后,我们显示出$ \ omega(d^2 h^2/\ epsilon^2)$的匹配尺寸依赖性的下限,该限制为奖励感知的RL设置。据我们所知,我们的方法是第一个在线性MDP中实现最佳$ d $依赖性的计算有效算法,即使在单次奖励PAC设置中也是如此。我们的算法取决于一种新的程序,该过程有效地穿越了线性MDP,在任何给定的``特征方向''中收集样品,并在最大状态访问概率(线性MDP等效)中享受最佳缩放样品复杂性。我们表明,该探索过程也可以应用于解决线性MDP中````良好条件''''协变量的问题。
translated by 谷歌翻译
强化学习算法的实用性由于相对于问题大小的规模差而受到限制,因为学习$ \ epsilon $ -optimal策略的样本复杂性为$ \ tilde {\ omega} \ left(| s | s || a || a || a || a | h^3 / \ eps^2 \ right)$在MDP的最坏情况下,带有状态空间$ S $,ACTION SPACE $ A $和HORIZON $ H $。我们考虑一类显示出低级结构的MDP,其中潜在特征未知。我们认为,价值迭代和低级别矩阵估计的自然组合导致估计误差在地平线上呈指数增长。然后,我们提供了一种新算法以及统计保证,即有效利用了对生成模型的访问,实现了$ \ tilde {o} \ left的样本复杂度(d^5(d^5(| s |+| a |)\),我们有效利用低级结构。对于等级$ d $设置的Mathrm {Poly}(h)/\ EPS^2 \ right)$,相对于$ | s |,| a | $和$ \ eps $的缩放,这是最小值的最佳。与线性和低级别MDP的文献相反,我们不需要已知的功能映射,我们的算法在计算上很简单,并且我们的结果长期存在。我们的结果提供了有关MDP对过渡内核与最佳动作值函数所需的最小低级结构假设的见解。
translated by 谷歌翻译
尽管无奖励强化学习勘探阶段的主要目标(RF-RL)是减少具有最小轨迹数量的估计模型中的不确定性时间。目前尚不清楚这种安全的探索要求如何影响相应的样本复杂性,以实现所获得的计划中所需的最佳性。在这项工作中,我们首次尝试回答这个问题。特别是,我们考虑了事先知道安全基线政策的情况,并提出了一个统一的安全奖励探索(甜蜜)框架。然后,我们将甜蜜框架专门为表格和低级MDP设置,并分别开发出算法所构成的表格甜味和低级别甜味。两种算法都利用了新引入的截短值函数的凹度和连续性,并保证在探索过程中以高概率侵犯了零约束。此外,两种算法都可以在计划阶段的任何约束中找到近乎最佳的政策。值得注意的是,算法下的样本复杂性在无限制的对应物中匹配甚至超过最恒定因素的最新情况,这证明安全约束几乎不会增加RF-RL的样本复杂性。
translated by 谷歌翻译
在表格设置下,我们研究了折扣马尔可夫决策过程(MDP)的强化学习问题。我们提出了一种名为UCBVI - $ \ Gamma $的基于模型的算法,该算法基于\ emph {面对不确定原理}和伯尔斯坦型奖金的乐观。我们展示了UCBVI - $ \ Gamma $实现了一个$ \ tilde {o} \ big({\ sqrt {sat}} / {(1- \ gamma)^ {1.5}} \ big)$后悔,在哪里$ s $是州的数量,$ a $是行动的数量,$ \ gamma $是折扣因子,$ t $是步数。此外,我们构建了一类硬MDP并表明对于任何算法,预期的遗憾是至少$ \ tilde {\ omega} \ big({\ sqrt {sat}} / {(1- \ gamma)^ {1.5}} \大)$。我们的上限与对数因子的最低限度相匹配,这表明UCBVI - $ \ Gamma $几乎最小的贴现MDP。
translated by 谷歌翻译
在学徒学习(AL)中,我们在没有获得成本函数的情况下给予马尔可夫决策过程(MDP)。相反,我们观察由根据某些政策执行的专家采样的轨迹。目标是找到一个与专家对某些预定义的成本函数的性能相匹配的策略。我们介绍了AL的在线变体(在线学徒学习; OAL),其中代理商预计与环境相互作用,在与环境互动的同时相互表现。我们表明,通过组合两名镜面血缘无遗憾的算法可以有效地解决了OAL问题:一个用于策略优化,另一个用于学习最坏情况的成本。通过采用乐观的探索,我们使用$ O(\ SQRT {k})$后悔派生算法,其中$ k $是与MDP的交互数量以及额外的线性错误术语,其取决于专家轨迹的数量可用的。重要的是,我们的算法避免了在每次迭代时求解MDP的需要,与先前的AL方法相比,更实用。最后,我们实现了我们算法的深层变体,该算法与Gail \ Cite {Ho2016Generative}共享了一些相似之处,但在鉴别者被替换为OAL问题的成本。我们的模拟表明OAL在高维控制问题中表现良好。
translated by 谷歌翻译
从最小值和实例依赖性视图中,已经对乐观算法进行了广泛的研究,以在情节表格MDP中进行遗憾的最小化。但是,对于PAC RL问题,目标是确定具有很高可能性的近乎最佳策略,对它们的实例依赖性样本复杂性知之甚少。 Wagenmaker等人的负面结果。 (2021)表明,乐观的抽样规则不能用于达到(仍然难以捉摸的)最佳实例依赖性样本复杂性。在正面,我们为PAC RL的乐观算法提供了第一个依赖于实例依赖性的结合,BPI-UCRL仅可用的最小值保证(Kaufmann等,2021)。尽管我们的界限具有一些最小的访问概率,但与先前工作中出现的价值差距相比,它的次要差距的精致概念。此外,在具有确定性过渡的MDP中,我们表明BPI-UCRL实际上是近乎最佳的。从技术方面来说,由于独立兴趣的新“目标技巧”,我们的分析非常简单。我们用新颖的硬度结果补充了这些发现,解释了为什么与Minimax政权不同,为什么PAC RL的实例依赖性复杂性与遗憾最小化的复杂性不易与遗憾最小化相关。
translated by 谷歌翻译
本文为表格马尔可夫决策过程(MDP)提供了第一种多项式时间算法,该算法享受了遗憾的界限\ emph {独立于计划范围}。具体来说,我们考虑具有$ S $州的表格MDP,$ A $ ACTICY,计划范围$ h $,总奖励为$ 1 $,代理商播放$ K $ evipodes。我们设计了一种实现$ o \ left(\ mathrm {poly}(s,a,a,\ log k)\ sqrt {k} \ right)$遗憾的算法(\ mathrm {poly}(s,a,a,\ log k)polylog}(h)$依赖项〜\ citep {zhang2020 reininforcement}或对$ s $〜\ citep {li2021settling}具有指数依赖关系。我们的结果依赖于一系列新的结构引理,从而建立了固定策略的近似能力,稳定性和浓度特性,这些策略可以在与马尔可夫链有关的其他问题中应用。
translated by 谷歌翻译