深度加固学习在各种类型的游戏中使人类水平甚至超级人类性能。然而,学习所需的探测量通常很大。深度加强学习也具有超级性能,因为没有人类能够实现这种探索。为了解决这个问题,我们专注于\ Textit {Saspicing}策略,这是一种与现有优化算法的定性不同的方法。因此,我们提出了线性RS(LINR),其是一种令人满意的算法和风险敏感的满足(RS)的线性扩展,用于应用于更广泛的任务。 RS的概括提供了一种算法,可以通过采用现有优化算法的不同方法来减少探索性操作的体积。 Linrs利用线性回归和多字符分类来线性地近似于RS计算所需的动作选择的动作值和比例。我们的实验结果表明,与上下文强盗问题中的现有算法相比,Linrs减少了探索和运行时间的数量。这些结果表明,满足算法的进一步概括对于复杂的环境可能是有用的,包括要用深增强学习处理的环境。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
我们提出了一种数据驱动的算法,广告商可以用来自动在线出版商的数字广告广告。该算法使广告客户能够跨越可用的目标受众和AD-Media搜索通过在线实验找到其广告系列的最佳组合。找到最佳受众ad AD组合的问题使许多独特的挑战变得复杂,包括(a)需要积极探索以解决先前的不确定性并加快搜索有利可图的组合,(b)许多组合可供选择,产生高维搜索公式,以及(c)成功概率非常低,通常只有百分之一。我们的算法(指定的LRDL,logistic回归与Debiased Lasso的首字母缩写)通过结合四个元素来解决这些挑战:一个用于主动探索的多层匪徒框架;套索惩罚功能以处理高维度;一个内置的偏见核,可处理套索引起的正则化偏差;以及一个半参数回归模型,用于促进跨武器交叉学习的结果。该算法是作为汤普森采样器实施的,据我们所知,这是第一个实际上可以解决以上所有挑战的方法。具有真实和合成数据的模拟表明该方法是有效的,并记录了其在最近的高维匪徒文献中的几个基准测试中的出色性能。
translated by 谷歌翻译
在潜在的强盗问题中,学习者可以访问奖励分布,并且 - 对于非平稳的变体 - 环境的过渡模型。奖励分布在手臂和未知的潜在状态下进行条件。目的是利用奖励历史来识别潜在状态,从而使未来的武器选择最佳。潜在的匪徒设置将自己适用于许多实际应用,例如推荐人和决策支持系统,其中丰富的数据允许在线学习的环境模型的离线估算仍然是关键组成部分。在这种情况下,以前的解决方案始终根据代理商对国家的信念选择最高的奖励组,而不是明确考虑信息收集臂的价值。这种信息收集的武器不一定会提供最高的奖励,因此永远不会选择始终选择最高奖励武器的代理商选择。在本文中,我们提出了一种潜在土匪信息收集的方法。鉴于特殊的奖励结构和过渡矩阵,我们表明,鉴于代理商对国家的信念,选择最好的手臂会产生更高的遗憾。此外,我们表明,通过仔细选择武器,我们可以改善对国家分布的估计,从而通过将来通过更好的手臂选择来降低累积后悔。我们在合成和现实世界数据集上评估了我们的方法,显示出对最新方法的遗憾显着改善。
translated by 谷歌翻译
我们在这里采用贝叶斯非参数混合模型,以将多臂匪徒扩展到尤其是汤普森采样,以扩展到存在奖励模型不确定性的场景。在随机的多臂强盗中,播放臂的奖励是由未知分布产生的。奖励不确定性,即缺乏有关奖励生成分布的知识,引起了探索 - 开发权的权衡:强盗代理需要同时了解奖励分布的属性,并顺序决定下一步要采取哪种操作。在这项工作中,我们通过采用贝叶斯非参数高斯混合模型来进行奖励模型不确定性,将汤普森的抽样扩展到场景中,以进行灵活的奖励密度估计。提出的贝叶斯非参数混合物模型汤普森采样依次学习了奖励模型,该模型最能近似于真实但未知的每臂奖励分布,从而实现了成功的遗憾表现。我们基于基于后验分析的新颖的分析得出的,这是一种针对该方法的渐近遗憾。此外,我们从经验上评估了其在多样化和以前难以捉摸的匪徒环境中的性能,例如,在指数级的家族中,奖励不受异常值和不同的每臂奖励分布。我们表明,拟议的贝叶斯非参数汤普森取样优于表现,无论是平均累积的遗憾和遗憾的波动,最先进的替代方案。在存在强盗奖励模型不确定性的情况下,提出的方法很有价值,因为它避免了严格的逐案模型设计选择,但提供了重要的遗憾。
translated by 谷歌翻译
在不确定性下的自动机器人决策中,必须考虑剥削和探索可用选项之间的权衡。如果可以利用与选项相关的次要信息,则此类决策问题通常可以作为上下文多臂强盗(CMAB)提出。在这项研究中,我们采用主动推断,该推断近年来在神经科学领域进行了积极研究,作为CMAB的替代行动选择策略。与常规的行动选择策略不同,在计算与决策代理人的概率模型相关的预期自由能(EFE)时,可以严格评估每种选项的不确定性,这是从自由能原理中得出的。我们专门解决了使用分类观察可能性函数的情况,因此EFE值在分析上是棘手的。我们介绍了基于变异和拉普拉斯近似值计算EFE的新近似方法。广泛的仿真研究结果表明,与其他策略相比,主动推断通常需要迭代率要少得多,以识别最佳选择并普遍实现累积累积的遗憾,以相对较低的额外计算成本。
translated by 谷歌翻译
The application of reinforcement learning in credit scoring has created a unique setting for contextual logistic bandit that does not conform to the usual exploration-exploitation tradeoff but rather favors exploration-free algorithms. Through sufficient randomness in a pool of observable contexts, the reinforcement learning agent can simultaneously exploit an action with the highest reward while still learning more about the structure governing that environment. Thus, it is the case that greedy algorithms consistently outperform algorithms with efficient exploration, such as Thompson sampling. However, in a more pragmatic scenario in credit scoring, lenders can, to a degree, classify each borrower as a separate group, and learning about the characteristics of each group does not infer any information to another group. Through extensive simulations, we show that Thompson sampling dominates over greedy algorithms given enough timesteps which increase with the complexity of underlying features.
translated by 谷歌翻译
Thompson sampling is one of oldest heuristic to address the exploration / exploitation trade-off, but it is surprisingly unpopular in the literature. We present here some empirical results using Thompson sampling on simulated and real data, and show that it is highly competitive. And since this heuristic is very easy to implement, we argue that it should be part of the standard baselines to compare against.
translated by 谷歌翻译
我们研究汤普森采样对上下文匪徒的效率。现有的基于汤普森采样的算法需要构建后验分布的拉普拉斯近似(即高斯分布),这是在一般协方差矩阵中的高维应用中效率低下的效率。此外,高斯近似可能不是对一般奖励产生功能的后验分布的良好替代物。我们提出了一种有效的后采样算法,即Langevin Monte Carlo Thompson采样(LMC-TS),该采样(LMC-TS)使用Markov Chain Monte Carlo(MCMC)方法直接从上下文斑块中的后验分布中直接采样。我们的方法在计算上是有效的,因为它只需要执行嘈杂的梯度下降更新而不构建后验分布的拉普拉斯近似。我们证明,所提出的算法实现了相同的sublinear遗憾,作为一种特殊情况的汤普森采样算法,是上下文匪徒的特殊情况,即线性上下文的强盗。我们在不同上下文匪徒模型上对合成数据和现实世界数据集进行实验,这表明直接从后验进行采样既具有计算上有效又具有竞争性能。
translated by 谷歌翻译
This paper surveys the eld of reinforcement learning from a computer-science perspective. It is written to be accessible to researchers familiar with machine learning. Both the historical basis of the eld and a broad selection of current work are summarized. Reinforcement learning is the problem faced by an agent that learns behavior through trial-and-error interactions with a dynamic environment. The work described here has a resemblance to work in psychology, but di ers considerably in the details and in the use of the word \reinforcement." The paper discusses central issues of reinforcement learning, including trading o exploration and exploitation, establishing the foundations of the eld via Markov decision theory, learning from delayed reinforcement, constructing empirical models to accelerate learning, making use of generalization and hierarchy, and coping with hidden state. It concludes with a survey of some implemented systems and an assessment of the practical utility of current methods for reinforcement learning.
translated by 谷歌翻译
Personalized web services strive to adapt their services (advertisements, news articles, etc.) to individual users by making use of both content and user information. Despite a few recent advances, this problem remains challenging for at least two reasons. First, web service is featured with dynamically changing pools of content, rendering traditional collaborative filtering methods inapplicable. Second, the scale of most web services of practical interest calls for solutions that are both fast in learning and computation.In this work, we model personalized recommendation of news articles as a contextual bandit problem, a principled approach in which a learning algorithm sequentially selects articles to serve users based on contextual information about the users and articles, while simultaneously adapting its article-selection strategy based on user-click feedback to maximize total user clicks.The contributions of this work are three-fold. First, we propose a new, general contextual bandit algorithm that is computationally efficient and well motivated from learning theory. Second, we argue that any bandit algorithm can be reliably evaluated offline using previously recorded random traffic. Finally, using this offline evaluation method, we successfully applied our new algorithm to a Yahoo! Front Page Today Module dataset containing over 33 million events. Results showed a 12.5% click lift compared to a standard context-free bandit algorithm, and the advantage becomes even greater when data gets more scarce.
translated by 谷歌翻译
对于许多强化学习(RL)应用程序,指定奖励是困难的。本文考虑了一个RL设置,其中代理仅通过查询可以询问可以的专家来获取有关奖励的信息,例如,评估单个状态或通过轨迹提供二进制偏好。从如此昂贵的反馈中,我们的目标是学习奖励的模型,允许标准RL算法实现高预期的回报,尽可能少的专家查询。为此,我们提出了信息定向奖励学习(IDRL),它使用奖励的贝叶斯模型,然后选择要最大化信息增益的查询,这些查询是有关合理的最佳策略之间的返回差异的差异。与针对特定类型查询设计的先前主动奖励学习方法相比,IDRL自然地适应不同的查询类型。此外,它通过将焦点转移降低奖励近似误差来实现类似或更好的性能,从而降低奖励近似误差,以改善奖励模型引起的策略。我们支持我们的调查结果,在多个环境中进行广泛的评估,并具有不同的查询类型。
translated by 谷歌翻译
Safe Reinforcement Learning can be defined as the process of learning policies that maximize the expectation of the return in problems in which it is important to ensure reasonable system performance and/or respect safety constraints during the learning and/or deployment processes. We categorize and analyze two approaches of Safe Reinforcement Learning. The first is based on the modification of the optimality criterion, the classic discounted finite/infinite horizon, with a safety factor. The second is based on the modification of the exploration process through the incorporation of external knowledge or the guidance of a risk metric. We use the proposed classification to survey the existing literature, as well as suggesting future directions for Safe Reinforcement Learning.
translated by 谷歌翻译
可以将相当多的现实问题提出为决策问题,其中必须反复从一组替代方案中做出适当的选择。多次专家判断,无论是人为的还是人为的,都可以帮助做出正确的决定,尤其是在探索替代解决方案的昂贵时。由于专家意见可能会偏离,因此可以通过汇总独立判断来解决找到正确的替代方案的问题作为集体决策问题(CDM)。当前的最新方法集中于有效地找到最佳专家,因此如果所有专家均不合格或过于偏见,则表现不佳,从而可能破坏决策过程。在本文中,我们提出了一种基于上下文多臂匪徒问题(CMAB)的新算法方法,以识别和抵消这种偏见的专业知识。我们探索同质,异质和两极分化的专家小组,并表明这种方法能够有效利用集体专业知识,优于最先进的方法,尤其是当提供的专业知识质量降低时。我们的新型CMAB启发方法实现了更高的最终表现,并且在收敛的同时比以前的自适应算法更快。
translated by 谷歌翻译
机器学习算法中多个超参数的最佳设置是发出大多数可用数据的关键。为此目的,已经提出了几种方法,例如进化策略,随机搜索,贝叶斯优化和启发式拇指规则。在钢筋学习(RL)中,学习代理在与其环境交互时收集的数据的信息内容严重依赖于许多超参数的设置。因此,RL算法的用户必须依赖于基于搜索的优化方法,例如网格搜索或Nelder-Mead单简单算法,这对于大多数R1任务来说是非常效率的,显着减慢学习曲线和离开用户的速度有目的地偏见数据收集的负担。在这项工作中,为了使RL算法更加用户独立,提出了一种使用贝叶斯优化的自主超参数设置的新方法。来自过去剧集和不同的超参数值的数据通过执行行为克隆在元学习水平上使用,这有助于提高最大化获取功能的加强学习变体的有效性。此外,通过紧密地整合在加强学习代理设计中的贝叶斯优化,还减少了收敛到给定任务的最佳策略所需的状态转换的数量。与其他手动调整和基于优化的方法相比,计算实验显示了有希望的结果,这突出了改变算法超级参数来增加所生成数据的信息内容的好处。
translated by 谷歌翻译
最近在文献中显示,在线学习实验的样本平均值在用于估计平均奖励时偏置。为了纠正偏差,违规评估方法,包括重要性采样和双倍稳健的估算,通常计算条件倾向分数,这对于UCB等非随机策略而言。本文提供了使用Bootstrap衰减样本的过程,这不需要对奖励分配的知识并应用于任何自适应策略。数值实验证明了受欢迎的多武装强盗算法产生的样本的有效偏差,例如探索 - 然后提交(ETC),UCB,Thompson采样(TS)和$ \ epsilon $ -Greedy(例如)。我们分析并提供了ETC算法下的程序的理论理由,包括真实和引导世界中偏差衰减率的渐近融合。
translated by 谷歌翻译
多臂匪徒(MAB)提供了一种原则性的在线学习方法,以达到探索和剥削之间的平衡。由于表现出色和反馈学习低,没有学习在多种情况下采取行动,因此多臂匪徒在诸如推荐系统等应用程序中引起了广泛的关注。同样,在推荐系统中,协作过滤(CF)可以说是推荐系统中最早,最具影响力的方法。至关重要的是,新用户和不断变化的推荐项目池是推荐系统需要解决的挑战。对于协作过滤,经典方法是训练模型离线,然后执行在线测试,但是这种方法无法再处理用户偏好的动态变化,即所谓的冷启动。那么,如何在没有有效信息的情况下有效地向用户推荐项目?为了解决上述问题,已经提出了一个基于多臂强盗的协作过滤推荐系统,名为BanditMF。 BANDITMF旨在解决多军强盗算法和协作过滤中的两个挑战:(1)如何在有效信息稀缺的条件下解决冷启动问题以进行协作过滤,(2)强大社会关系域中的强盗算法问题是由独立估计与每个用户相关的未知参数并忽略用户之间的相关性引起的。
translated by 谷歌翻译
我们解决了在线顺序决策的问题,即在利用当前知识以最大程度地提高绩效和探索新信息以使用多武器的强盗框架获得长期利益之间的权衡平衡。汤普森采样是选择解决这一探索探索困境的动作的启发式方法之一。我们首先提出了一个通用框架,该框架可帮助启发性地调整汤普森采样中的探索与剥削权衡取舍,并使用后部分布中的多个样本进行调整。利用此框架,我们为多臂匪徒问题提出了两种算法,并为累积遗憾提供了理论界限。接下来,我们证明了拟议算法对汤普森采样的累积遗憾表现的经验改善。我们还显示了所提出的算法在现实世界数据集上的有效性。与现有方法相反,我们的框架提供了一种机制,可以根据手头的任务改变探索/开发量。为此,我们将框架扩展到两个其他问题,即,在土匪中最佳的ARM识别和时间敏感学习,并将我们的算法与现有方法进行比较。
translated by 谷歌翻译
已经研究了几十年的上下文多武装匪,并适应了各种应用,如在线广告和个性化推荐。为了解决匪徒的开发探索权衡,有三种主要技术:epsilon - 贪婪,汤普森采样(TS)和上置信度(UCB)。在最近的文献中,线性上下窗匪徒采用了脊回归来估计奖励功能,并将其与TS或UCB策略结合起来的探索。但是,这行作品明确假设奖励基于ARM向量的线性函数,在现实世界数据集中可能不是真的。为了克服这一挑战,已经提出了一系列神经基的强盗算法,其中分配了神经网络以学习基础奖励功能,并且TS或UCB适于探索。在本文中,我们提出了一种具有新的探索策略的神经基匪徒方法。除了利用神经网络(开发网络)外学习奖励功能之外,与目前估计的奖励相比,EE-Net采用另一个神经网络(勘探网络)来自适应地学习潜在的增益。然后,构建决策者以将输出与剥削和探索网络组合起来。我们证明了EE-Net实现了$ \ mathcal {o}(\ sqrt {t \ log t})$后悔,它比现有最先进的神经强盗算法更紧密($ \ mathcal {o}(\基于UCB和TS的SQRT {T} \ log t)$。通过对四世界数据集的广泛实验,我们表明EE-Net优于现有的线性和神经匪徒的方法。
translated by 谷歌翻译
深度强化学习(DRL)和深度多机构的强化学习(MARL)在包括游戏AI,自动驾驶汽车,机器人技术等各种领域取得了巨大的成功。但是,众所周知,DRL和Deep MARL代理的样本效率低下,即使对于相对简单的问题设置,通常也需要数百万个相互作用,从而阻止了在实地场景中的广泛应用和部署。背后的一个瓶颈挑战是众所周知的探索问题,即如何有效地探索环境和收集信息丰富的经验,从而使政策学习受益于最佳研究。在稀疏的奖励,吵闹的干扰,长距离和非平稳的共同学习者的复杂环境中,这个问题变得更加具有挑战性。在本文中,我们对单格和多代理RL的现有勘探方法进行了全面的调查。我们通过确定有效探索的几个关键挑战开始调查。除了上述两个主要分支外,我们还包括其他具有不同思想和技术的著名探索方法。除了算法分析外,我们还对一组常用基准的DRL进行了全面和统一的经验比较。根据我们的算法和实证研究,我们终于总结了DRL和Deep Marl中探索的公开问题,并指出了一些未来的方向。
translated by 谷歌翻译