Designing experiments often requires balancing between learning about the true treatment effects and earning from allocating more samples to the superior treatment. While optimal algorithms for the Multi-Armed Bandit Problem (MABP) provide allocation policies that optimally balance learning and earning, they tend to be computationally expensive. The Gittins Index (GI) is a solution to the MABP that can simultaneously attain optimality and computationally efficiency goals, and it has been recently used in experiments with Bernoulli and Gaussian rewards. For the first time, we present a modification of the GI rule that can be used in experiments with exponentially-distributed rewards. We report its performance in simulated 2- armed and 3-armed experiments. Compared to traditional non-adaptive designs, our novel GI modified design shows operating characteristics comparable in learning (e.g. statistical power) but substantially better in earning (e.g. direct benefits). This illustrates the potential that designs using a GI approach to allocate participants have to improve participant benefits, increase efficiencies, and reduce experimental costs in adaptive multi-armed experiments with exponential rewards.
translated by 谷歌翻译
在比较多臂匪徒算法的性能时,通常会忽略缺失数据的潜在影响。实际上,这也影响了他们的实现,在克服此问题的最简单方法是继续根据原始的强盗算法进行采样,而忽略了缺失的结果。我们通过广泛的仿真研究研究了对这种方法的性能的影响,以处理几种强盗算法的缺失数据,假设奖励是随机缺失的。我们专注于具有二元结果的两臂匪徒在患者分配的背景下用于样本量相对较小的临床试验的背景下。但是,我们的结果适用于预计丢失数据的Bandit算法的其他应用。我们评估所得的运营特征,包括预期的奖励。考虑到双臂失踪的不同概率。我们工作的关键发现是,当使用忽略丢失数据的最简单策略时,对多军匪徒策略的预期性能的影响会根据这些策略平衡勘探探索折衷权衡的方式而有所不同。旨在探索的算法继续将样本分配给手臂,而响应却更多(被认为是具有较少观察到的信息的手臂,该算法比其他算法更具吸引力)。相比之下,针对剥削的算法将迅速为来自手臂的样品迅速分配高价值,而当前高平均值的算法如何,与每只手臂的水平观测无关。此外,对于算法更多地关注探索,我们说明,可以使用简单的平均插补方法来缓解缺失响应的问题。
translated by 谷歌翻译
像汤普森采样等多武装强盗算法可用于进行自适应实验,其中最大化奖励意味着数据用于逐步为更多参与者分配更有效的武器。这些转让策略增加了统计假设试验的风险,鉴定武器之间的差异,当没有一个时,并且在真正是一个是一个时,武器的差异存在差异。我们为2臂实验仿真,探讨了两种算法,这些算法结合了统计分析的均匀随机化的益处,具有通过Thompson采样(TS)实现的奖励最大化的益处。首先,前两种汤普森采样增加了固定量的均匀随机分配(UR)随时间均匀传播。二,一种新的启发式算法,称为TS Postdiff(差异后概率)。 Ts Postdiff采用贝叶斯方法来混合TS和UR:使用UR分配分配参与者的概率是后部概率,即两个臂之间的差异是“小”(低于某个阈值),允许在存在时探索更多的探索很少或没有奖励获得。我们发现TS PostDiff方法跨多种效果大小进行良好,因此不需要根据真实效果大小的猜测进行调整。
translated by 谷歌翻译
我们研究了在确认临床试验期间适应从给定治疗中受益的患者亚群的问题。这种自适应临床试验通常被称为自适应富集设计,已在生物统计学中进行了彻底研究,重点是构成(子)种群的有限数量的亚组(通常为两个)和少量的临时分析点。在本文中,我们旨在放宽对此类设计的经典限制,并研究如何从有关自适应和在线实验的最新机器学习文献中纳入想法,以使试验更加灵活和高效。我们发现亚种群选择问题的独特特征 - 最重要的是,(i)通常有兴趣在预算有限的情况下找到具有任何治疗益处的亚群(不一定是最大效果的单个亚组),并且(ii)(ii)在整个亚种群中只能证明有效性 - 在设计算法解决方案时引起了有趣的挑战和新的Desiderata。在这些发现的基础上,我们提出了Adaggi和Adagcpi,这是两个用于亚群构造的元算法,分别侧重于确定良好的亚组和良好的综合亚群。我们从经验上研究了它们在一系列模拟方案中的性能,并获得了对它们在不同设置的(DIS)优势的见解。
translated by 谷歌翻译
在教育环境中进行随机实验提出了一个问题,即我们如何使用机器学习技术来改善教育干预措施。使用自适应实验中的汤普森采样(TS)(TS)等多臂匪徒(MAB)算法,即使在干预完成之前,也可以通过增加对最佳状态(ARM)的分配可能性来获得更好的结果的机会。这是比传统的A/B测试的优势,该测试可能会分配相等数量的学生为最佳和非最佳条件。问题是勘探探索权衡取舍。尽管自适应政策旨在收集足够的信息来分配更多的学生以可靠地提供更好的武器,但过去的工作表明,这可能还不够探索,无法就武器是否有所不同,得出可靠的结论。因此,在整个实验中提供额外的均匀随机(UR)探索是很有趣的。本文展示了一个真实的自适应实验,该实验是关于学生如何与教师每周的电子邮件提醒互动以建立时间管理习惯的。我们感兴趣的指标是打开电子邮件率,它跟踪由不同主题行的武器。这些是按照不同的分配算法传递的:ur,ts和我们确定为ts {\ dag} - 结合了TS和UR奖励以更新其先验者。我们强调了这些自适应算法的问题 - 在没有显着差异时可能会剥削手臂 - 并解决它们的原因和后果。未来的方向包括研究最佳臂的早期选择不是理想的情况以及自适应算法如何解决它们的情况。
translated by 谷歌翻译
强化学习进行推荐和实验的现实应用面临实际挑战:不同匪徒的相对奖励可以在学习代理的一生中发展。要处理这些非机构案件,代理商必须忘记一些历史知识,因为它可能不再与最小化的遗憾有关。我们提出了一种处理非平稳性的解决方案,该解决方案适合于大规模部署,以向业务运营商提供自动适应性优化。我们的解决方案旨在提供可解释的学习,这些学习可以被人类信任,同时响应非平稳性以最大程度地减少遗憾。为此,我们开发了一种自适应的贝叶斯学习代理,该学习者采用了一种新型的动态记忆形式。它可以通过统计假设检验来实现可解释性,通过在比较奖励并动态调整其内存以实现此功能时,通过统计能力的设定点来实现统计能力的设定点。根据设计,代理对不同种类的非平稳性不可知。使用数值模拟,我们将其绩效与现有提案进行比较,并表明在多个非平稳场景下,我们的代理人正确地适应了真实奖励的实际变化。在所有强盗解决方案中,学习和实现最大表现之间都有明确的权衡。与另一种类似强大的方法相比,我们的解决方案在此权衡方面的一个不同点:我们优先考虑可解释性,这依靠更多的学习,而付出了一些遗憾。我们描述了自动优化的大规模部署的体系结构,即服务,我们的代理商在适应不断变化的情况的同时可以实现可解释性。
translated by 谷歌翻译
我们考虑了决定如何最好地靶向和优先考虑现有疫苗的问题,这些疫苗可能可以保护对传染病的新变体的保护。顺序实验是一种有前途的方法。但是,由于反馈延迟以及疾病患病率的整体起伏和流动的挑战使得该任务不适用的方法。我们提出了一种可以应对这些挑战的方法,汤普森采样的方法。我们的方法涉及运行汤普森采样,每次观察事件时,都由部分可能性确定的信念更新。为了测试我们的方法,我们根据美国的Covid-19感染数据200天进行了半合成实验。
translated by 谷歌翻译
自适应实验可以增加当前学生从教学干预的现场实验中获得更好结果的机会。在此类实验中,在收集更多数据时将学生分配到条件变化的可能性,因此可以将学生分配给可能表现更好的干预措施。数字教育环境降低了进行此类适应性实验的障碍,但很少在教育中应用。原因之一可能是研究人员可以访问很少的现实案例研究,这些案例研究说明了在特定情况下这些实验的优势和缺点。我们通过使用Thompson采样算法进行自适应实验来评估学生在学生中提醒的效果,并将其与传统的统一随机实验进行比较。我们将其作为有关如何进行此类实验的案例研究,并提出了有关自适应随机实验可能或多或少有用的条件的一系列开放问题。
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
We introduce a new setting, optimize-and-estimate structured bandits. Here, a policy must select a batch of arms, each characterized by its own context, that would allow it to both maximize reward and maintain an accurate (ideally unbiased) population estimate of the reward. This setting is inherent to many public and private sector applications and often requires handling delayed feedback, small data, and distribution shifts. We demonstrate its importance on real data from the United States Internal Revenue Service (IRS). The IRS performs yearly audits of the tax base. Two of its most important objectives are to identify suspected misreporting and to estimate the "tax gap" -- the global difference between the amount paid and true amount owed. Based on a unique collaboration with the IRS, we cast these two processes as a unified optimize-and-estimate structured bandit. We analyze optimize-and-estimate approaches to the IRS problem and propose a novel mechanism for unbiased population estimation that achieves rewards comparable to baseline approaches. This approach has the potential to improve audit efficacy, while maintaining policy-relevant estimates of the tax gap. This has important social consequences given that the current tax gap is estimated at nearly half a trillion dollars. We suggest that this problem setting is fertile ground for further research and we highlight its interesting challenges. The results of this and related research are currently being incorporated into the continual improvement of the IRS audit selection methods.
translated by 谷歌翻译
我们在这里采用贝叶斯非参数混合模型,以将多臂匪徒扩展到尤其是汤普森采样,以扩展到存在奖励模型不确定性的场景。在随机的多臂强盗中,播放臂的奖励是由未知分布产生的。奖励不确定性,即缺乏有关奖励生成分布的知识,引起了探索 - 开发权的权衡:强盗代理需要同时了解奖励分布的属性,并顺序决定下一步要采取哪种操作。在这项工作中,我们通过采用贝叶斯非参数高斯混合模型来进行奖励模型不确定性,将汤普森的抽样扩展到场景中,以进行灵活的奖励密度估计。提出的贝叶斯非参数混合物模型汤普森采样依次学习了奖励模型,该模型最能近似于真实但未知的每臂奖励分布,从而实现了成功的遗憾表现。我们基于基于后验分析的新颖的分析得出的,这是一种针对该方法的渐近遗憾。此外,我们从经验上评估了其在多样化和以前难以捉摸的匪徒环境中的性能,例如,在指数级的家族中,奖励不受异常值和不同的每臂奖励分布。我们表明,拟议的贝叶斯非参数汤普森取样优于表现,无论是平均累积的遗憾和遗憾的波动,最先进的替代方案。在存在强盗奖励模型不确定性的情况下,提出的方法很有价值,因为它避免了严格的逐案模型设计选择,但提供了重要的遗憾。
translated by 谷歌翻译
我们提出了一种数据驱动的算法,广告商可以用来自动在线出版商的数字广告广告。该算法使广告客户能够跨越可用的目标受众和AD-Media搜索通过在线实验找到其广告系列的最佳组合。找到最佳受众ad AD组合的问题使许多独特的挑战变得复杂,包括(a)需要积极探索以解决先前的不确定性并加快搜索有利可图的组合,(b)许多组合可供选择,产生高维搜索公式,以及(c)成功概率非常低,通常只有百分之一。我们的算法(指定的LRDL,logistic回归与Debiased Lasso的首字母缩写)通过结合四个元素来解决这些挑战:一个用于主动探索的多层匪徒框架;套索惩罚功能以处理高维度;一个内置的偏见核,可处理套索引起的正则化偏差;以及一个半参数回归模型,用于促进跨武器交叉学习的结果。该算法是作为汤普森采样器实施的,据我们所知,这是第一个实际上可以解决以上所有挑战的方法。具有真实和合成数据的模拟表明该方法是有效的,并记录了其在最近的高维匪徒文献中的几个基准测试中的出色性能。
translated by 谷歌翻译
最近在文献中显示,在线学习实验的样本平均值在用于估计平均奖励时偏置。为了纠正偏差,违规评估方法,包括重要性采样和双倍稳健的估算,通常计算条件倾向分数,这对于UCB等非随机策略而言。本文提供了使用Bootstrap衰减样本的过程,这不需要对奖励分配的知识并应用于任何自适应策略。数值实验证明了受欢迎的多武装强盗算法产生的样本的有效偏差,例如探索 - 然后提交(ETC),UCB,Thompson采样(TS)和$ \ epsilon $ -Greedy(例如)。我们分析并提供了ETC算法下的程序的理论理由,包括真实和引导世界中偏差衰减率的渐近融合。
translated by 谷歌翻译
动态治疗方案(DTRS)是个性化的,适应性的,多阶段的治疗计划,可将治疗决策适应个人的初始特征,并在随后的每个阶段中的中级结果和特征,在前阶段受到决策的影响。例子包括对糖尿病,癌症和抑郁症等慢性病的个性化一线和二线治疗,这些治疗适应患者对一线治疗,疾病进展和个人特征的反应。尽管现有文献主要集中于估算离线数据(例如从依次随机试验)中的最佳DTR,但我们研究了以在线方式开发最佳DTR的问题,在线与每个人的互动都会影响我们的累积奖励和我们的数据收集,以供我们的数据收集。未来的学习。我们将其称为DTR匪徒问题。我们提出了一种新颖的算法,通过仔细平衡探索和剥削,可以保证当过渡和奖励模型是线性时,可以实现最佳的遗憾。我们证明了我们的算法及其在合成实验和使用现实世界中对重大抑郁症的适应性治疗的案例研究中的好处。
translated by 谷歌翻译
可以将相当多的现实问题提出为决策问题,其中必须反复从一组替代方案中做出适当的选择。多次专家判断,无论是人为的还是人为的,都可以帮助做出正确的决定,尤其是在探索替代解决方案的昂贵时。由于专家意见可能会偏离,因此可以通过汇总独立判断来解决找到正确的替代方案的问题作为集体决策问题(CDM)。当前的最新方法集中于有效地找到最佳专家,因此如果所有专家均不合格或过于偏见,则表现不佳,从而可能破坏决策过程。在本文中,我们提出了一种基于上下文多臂匪徒问题(CMAB)的新算法方法,以识别和抵消这种偏见的专业知识。我们探索同质,异质和两极分化的专家小组,并表明这种方法能够有效利用集体专业知识,优于最先进的方法,尤其是当提供的专业知识质量降低时。我们的新型CMAB启发方法实现了更高的最终表现,并且在收敛的同时比以前的自适应算法更快。
translated by 谷歌翻译
在强盗多个假设测试中,每个ARM对应于我们希望测试的不同NULL假设,并且目标是设计正确识别大型有趣的武器(真正发现)的自适应算法,同时仅错误地识别少数不感兴趣的武器(虚假的发现)。非强盗多测试中的一个常见度量是错误的发现速率(FDR)。我们为强盗FDR控制提出了一个统一的模块化框架,强调了探索和证据总结的解耦。我们利用了强大的鞅的“e-processage”概念,以确保在通用问题设置中进行任意复合空无效,探索规则和停止时间的FDR控制。特别地,即使臂的奖励分布可能是相关的,有效的FDR控制也可以依赖,可以同时查询多个臂,并且多个(协作或竞争)代理可以是查询臂,也可以是覆盖组合半强盗类型设置。在每次步骤中,每次ARM奖励分配是独立的,并且在每个步骤都会审议了每个ARM奖励分配的环境。我们的框架在这​​个特殊情况下恢复了匹配的样本复杂性保证,在实践中表现相对或更好。对于其他设置,示例复杂性将取决于问题的更精细的细节(正在测试的复合空,探索算法,数据依赖结构,停止规则),我们不会探索这些;我们的贡献是表明FDR保证对这些细节进行了干净,完全不可知。
translated by 谷歌翻译
基本的多臂匪徒(mAb)问题是试图最大程度地利用从不同概率分布的土匪获得的奖励,因为只能进行有限数量的尝试。在研究市场上的交易算法时,我们正在研究mabs问题最复杂的变体之一,即非平稳连续体匪徒(NCBS)问题。布里斯托尔证券交易所(BSE)是基于通过限制订单的连续双拍卖来对电子金融交换的简单模拟。市场可以由具有不同交易算法的自动交易者填充。在其中,PRSH算法体现了解决NCBS问题的一些基本思想。但是,它面临调整超参数并适应复杂市场条件变化的困难。我们提出了一种称为PRB的新算法,该算法通过贝叶斯优化解决了连续的土匪问题,并通过一种新颖的“ Burnit-Bandit”框架解决了非平稳土匪问题。使用BSE,我们使用尽可能多的交易者代理商在两个不同的市场动态下模拟真实的市场环境。然后,我们分别在不同的市场动态下研究了PRSH算法和PRB算法的最佳超参数。最后,通过同时让交易者使用两种算法贸易,我们证明了PRB算法的性能优于两个市场动态下的PRSH算法。特别是,我们对所有实验结果进行严格的假设测试,以确保其正确性。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
躁动不安的多臂土匪(RMAB)是在不确定性下分配有限资源的框架。这是一个非常有用的模型,用于监测受益人和执行及时的干预措施,以确保在公共卫生环境中获得最大的利益(例如,确保患者在结核病环境中服用药物,确保怀孕的母亲听取有关良好怀孕习惯的自动电话)。由于资源有限,通常某些社区或地区会饿死可能带来后续影响的干预措施。为了避免在个人/地区/社区的执行干预措施中饥饿,我们首先提供了软性约束,然后提供了一种方法来强制RMAB中的软性公平约束。柔软的公平约束要求,如果选择后一个臂的长期累积奖励较高,则算法永远不会在概率上偏爱另一只手臂。我们的方法将基于SoftMax的价值迭代方法在RMAB设置中纳入设计选择算法,以满足提出的公平约束。我们的方法(称为Softfair)也提供了理论性能保证,并且在渐近上是最佳的。最后,我们证明了我们在模拟基准上的方法的实用性,并证明可以在没有重大牺牲的价值牺牲的情况下处理软性公平约束。
translated by 谷歌翻译
多臂强盗(MAB)模型是在不确定环境中研究决策的最古典模型之一。在此模型中,玩家需要选择强盗机器可能的k个可能的臂,以便在每个时间步骤中播放,在每个时间步骤中,相应的手臂向玩家返回随机奖励,这可能是从特定的未知分布中返回的。玩家的目标是在此过程中收集尽可能多的奖励。尽管具有简单性,但MAB模型还是为研究探索与开发与设计有效算法之间的权衡取舍提供了一个绝佳的操场,以在不确定性下进行顺序决策。尽管已经建立了许多渐近最佳算法,但由于决策和收集的奖励之间的交织,MAB模型随机动力学的有限时间行为似乎更加难以分析。在本文中,我们在统计物理学中采用技术来分析MAB模型,该模型促进了在有限的短时间内表征累积后悔的分布,对mAb算法的中心含量以及复杂的动力学行为的中心含量模型。
translated by 谷歌翻译