一种被称为优先体验重播(PER)的广泛研究的深钢筋学习(RL)技术使代理可以从与其时间差异(TD)误差成正比的过渡中学习。尽管已经表明,PER是离散作用域中深度RL方法总体性能的最关键组成部分之一,但许多经验研究表明,在连续控制中,它的表现非常低于参与者 - 批评算法。从理论上讲,我们表明,无法有效地通过具有较大TD错误的过渡对演员网络进行训练。结果,在Q网络下计算的近似策略梯度与在最佳Q功能下计算的实际梯度不同。在此激励的基础上,我们引入了一种新颖的经验重播抽样框架,用于演员批评方法,该框架还认为稳定性和最新发现的问题是Per的经验表现不佳。引入的算法提出了对演员和评论家网络的有效和高效培训的改进的新分支。一系列广泛的实验验证了我们的理论主张,并证明了引入的方法显着优于竞争方法,并获得了与标准的非政策参与者 - 批评算法相比,获得最先进的结果。
translated by 谷歌翻译
我们使用专家建议设置研究预测,其目的是结合一组专家(例如独立运行算法)产生的决策来做出决定。我们通过专家咨询设置的预测实现了最小的最佳动态遗憾,即,我们可以以最佳的方式与专家决策的时变(不一定是固定)组合竞争。我们的最终算法是真正在线的,没有先前的信息,例如时间范围或损失范围,文献中不同算法通常使用它们。我们的遗憾保证和Min-Max的下限都是普遍考虑的,即专家损失可以具有时间变化的属性,并且可能是无限的。我们的算法可以针对损失反馈和决策的限制性方案进行调整。我们的保证是普遍的,即,我们的最终算法可以以最大的最佳方式以对数复杂性提供对任何竞争对手序列的后悔保证。请注意,据我们所知,为了提出专家建议问题的预测,我们的算法是第一个在没有先验知识的情况下产生这种普遍最佳,适应性和真正的在线保证的。
translated by 谷歌翻译
与政策策略梯度技术相比,使用先前收集的数据的无模型的无模型深钢筋学习(RL)方法可以提高采样效率。但是,当利益政策的分布与收集数据的政策之间的差异时,非政策学习变得具有挑战性。尽管提出了良好的重要性抽样和范围的政策梯度技术来补偿这种差异,但它们通常需要一系列长轨迹,以增加计算复杂性并引起其他问题,例如消失或爆炸梯度。此外,由于需要行动概率,它们对连续动作领域的概括严格受到限制,这不适合确定性政策。为了克服这些局限性,我们引入了一种替代的非上政策校正算法,用于连续作用空间,参与者 - 批判性非政策校正(AC-OFF-POC),以减轻先前收集的数据引入的潜在缺陷。通过由代理商对随机采样批次过渡的状态的最新动作决策计算出的新颖差异度量,该方法不需要任何策略的实际或估计的行动概率,并提供足够的一步重要性抽样。理论结果表明,引入的方法可以使用固定的独特点获得收缩映射,从而可以进行“安全”的非政策学习。我们的经验结果表明,AC-Off-POC始终通过有效地安排学习率和Q学习和政策优化的学习率,以比竞争方法更少的步骤改善最新的回报。
translated by 谷歌翻译
在高维连续任务中学习的学习是具有挑战性的,主要是当体验重播记忆非常有限时。我们引入了一种简单而有效的经验共享机制,用于在未来的非政策深度强化学习应用程序中进行连续动作域中的确定性政策,其中分配的经验重播缓冲液的分配记忆受到限制。为了克服通过从其他代理商的经验中学习引起的外推误差,我们通过一种新型的非政策校正技术促进了我们的算法,而没有任何动作概率估计。我们测试方法在挑战OpenAi Gym连续控制任务方面的有效性,并得出结论,它可以在多个代理商之间获得安全的体验,并在重播记忆受到严格限制时表现出强大的性能。
translated by 谷歌翻译
我们在在线环境中研究了非线性预测,并引入了混合模型,该模型通过端到端体系结构有效地减轻了对手工设计的功能的需求和传统非线性预测/回归方法的手动模型选择问题。特别是,我们使用递归结构从顺序信号中提取特征,同时保留状态信息,即历史记录和增强决策树以产生最终输出。该连接是以端到端方式的,我们使用随机梯度下降共同优化整个体系结构,我们还为此提供了向后的通过更新方程。特别是,我们采用了一个经常性的神经网络(LSTM)来从顺序数据中提取自适应特征,并提取梯度增强机械(Soft GBDT),以进行有效的监督回归。我们的框架是通用的,因此可以使用其他深度学习体系结构进行特征提取(例如RNN和GRU)和机器学习算法进行决策,只要它们是可区分的。我们证明了算法对合成数据的学习行为以及各种现实生活数据集对常规方法的显着性能改进。此外,我们公开分享提出的方法的源代码,以促进进一步的研究。
translated by 谷歌翻译
基于价值的深度增强学习(RL)算法遭受主要由函数近似和时间差(TD)学习引起的估计偏差。此问题会引起故障状态 - 动作值估计,因此损害了学习算法的性能和鲁棒性。尽管提出了几种技术来解决,但学习算法仍然遭受这种偏差。在这里,我们介绍一种技术,该技术使用经验重放机制消除了截止策略连续控制算法中的估计偏差。我们在加权双延迟深度确定性政策梯度算法中自适应地学习加权超参数β。我们的方法名为Adaptive-WD3(AWD3)。我们展示了Openai健身房的连续控制环境,我们的算法匹配或优于最先进的脱离政策政策梯度学习算法。
translated by 谷歌翻译
经验重放机制允许代理多次使用经验。在以前的作品中,过渡的抽样概率根据其重要性进行调整。重新分配采样概率在每次迭代后的重传缓冲器的每个过渡是非常低效的。因此,经验重播优先算法重新计算时,相应的过渡进行采样,以获得计算效率转变的意义。然而,过渡的重要性水平动态变化的政策和代理人的价值函数被更新。此外,经验回放存储转换由可显著从代理的最新货币政策偏离剂的以前的政策产生。从代理引线的最新货币政策更关闭策略更新,这是有害的代理高偏差。在本文中,我们开发了一种新的算法,通过KL散度批次优先化体验重播(KLPER),其优先批次转换的,而不是直接优先每个过渡。此外,为了减少更新的截止policyness,我们的算法选择一个批次中的某一批次的数量和力量的通过很有可能是代理的最新货币政策所产生的一批学习代理。我们结合与深确定性政策渐变和Twin算法延迟深确定性政策渐变,并评估它在不同的连续控制任务。 KLPER提供培训期间的抽样效率,最终表现和政策的稳定性方面有前途的深确定性的连续控制算法的改进。
translated by 谷歌翻译
我们介绍了一种在线凸优化算法,该算法利用了预测的亚级别下降,并具有最佳的自适应学习率。我们的方法为一系列一系列一般凸函数提供了二阶最小动态遗憾保证(即取决于平方的亚级别规范的总和),这些序列可能没有强大的凸度,平滑度,表现出色甚至Lipschitz-continunition。遗憾的保证是反对具有有界路径变化(即连续决策之间的距离之和)的任何比较者决策顺序。我们通过合并实际的亚级别规范来生成最坏的二阶动态遗憾的下限。我们表明,这种下限与我们在不变的因素内的遗憾保证匹配,这使我们的算法最小值最佳。我们还得出每个决策坐标的扩展。当比较器序列的路径变化的界限随着时间的流逝而增长或随着时间的流逝而部分到达时,我们演示了如何最好地保留我们的遗憾保证。我们进一步以算法为基础,以消除对比较路径变化的任何知识的需求,并在没有先验信息的情况下提供最小值的最佳二阶遗憾保证。我们的方法可以以最小的最佳方式(即每个遗憾保证)同时(普遍)(普遍)与所有比较序列竞争,这取决于相应的比较路径变化。我们讨论了对我们的方法的修改,以解决时间,计算和内存的复杂性降低。除了相应的路径变化外,我们还通过使遗憾保证还取决于比较器集的直径来进一步改善结果。
translated by 谷歌翻译
We investigate ensemble methods for prediction in an online setting. Unlike all the literature in ensembling, for the first time, we introduce a new approach using a meta learner that effectively combines the base model predictions via using a superset of the features that is the union of the base models' feature vectors instead of the predictions themselves. Here, our model does not use the predictions of the base models as inputs to a machine learning algorithm, but choose the best possible combination at each time step based on the state of the problem. We explore three different constraint spaces for the ensembling of the base learners that linearly combines the base predictions, which are convex combinations where the components of the ensembling vector are all nonnegative and sum up to 1; affine combinations where the weight vector components are required to sum up to 1; and the unconstrained combinations where the components are free to take any real value. The constraints are both theoretically analyzed under known statistics and integrated into the learning procedure of the meta learner as a part of the optimization in an automated manner. To show the practical efficiency of the proposed method, we employ a gradient-boosted decision tree and a multi-layer perceptron separately as the meta learners. Our framework is generic so that one can use other machine learning architectures as the ensembler as long as they allow for a custom differentiable loss for minimization. We demonstrate the learning behavior of our algorithm on synthetic data and the significant performance improvements over the conventional methods over various real life datasets, extensively used in the well-known data competitions. Furthermore, we openly share the source code of the proposed method to facilitate further research and comparison.
translated by 谷歌翻译
犯罪预测问题的现有方法在表达细节时不成功,因为它们将概率值分配给大区域。本文介绍了一种具有图形卷积网络(GCN)和多变量高斯分布的新架构,以执行适用于任何时空数据的高分辨率预测。通过利用GCN的灵活结构并提供细分算法,我们以高分辨率在高分辨率下解决稀疏问题。我们用图形卷积门控经常性单位(Graph-concgru)构建我们的模型,以学习空间,时间和分类关系。在图形的每个节点中,我们学习来自GCN的提取特征的多变量概率分布。我们对现实生活和合成数据集进行实验,我们的模型获得了最佳验证和基线模型中的最佳测试分数,具有显着改进。我们表明我们的模型不仅是生成的,而且是精确的。
translated by 谷歌翻译