Mobile health (mHealth) technologies empower patients to adopt/maintain healthy behaviors in their daily lives, by providing interventions (e.g. push notifications) tailored to the user's needs. In these settings, without intervention, human decision making may be impaired (e.g. valuing near term pleasure over own long term goals). In this work, we formalize this relationship with a framework in which the user optimizes a (potentially impaired) Markov Decision Process (MDP) and the mHealth agent intervenes on the user's MDP parameters. We show that different types of impairments imply different types of optimal intervention. We also provide analytical and empirical explorations of these differences.
translated by 谷歌翻译
分享自治是指使自治工人能够与人类合作的方法,以提高人类性能。然而,除了提高性能之外,它通常也可能是有益的,代理同时考虑保留用户的经验或合作满意度。为了解决这一额外目标,我们通过约束自主代理的干预次数来研究改进用户体验的方法。我们提出了两种无模型的加强学习方法,可以考虑到干预措施的艰难和软限制。我们表明,我们的方法不仅表现出现有的基线,而且还消除了手动调整黑匣子超参数,以控制援助水平。我们还提供了对干预情景的深入分析,以进一步照亮系统理解。
translated by 谷歌翻译
在线增强学习(RL)算法越来越多地用于个性化移动健康和在线教育领域的数字干预措施。在这些设置中设计和测试RL算法方面的常见挑战包括确保RL算法在实时约束下可以稳定学习和运行,并考虑了环境的复杂性,例如,缺乏用于用户动力学的准确机械模型。为了指导人们如何应对这些挑战,我们将PC(可预测性,可计算性,稳定性)框架扩展到了一个数据科学框架,该框架结合了监督学习中的机器学习和统计数据的最佳实践(Yu and Kumbier,2020年),用于数字干预设置的RL算法。此外,我们提供有关如何设计仿真环境的准则,这是使用PCS框架评估RL候选算法的关键工具。我们说明了使用PCS框架来设计Oralytics的RL算法,这是一项移动健康研究,旨在通过个性化的干预消息来改善用户的牙刷行为。 Oralytics将于2022年底进入该领域。
translated by 谷歌翻译
牙齿疾病是最常见的慢性疾病之一,尽管可以预防。但是,关于最佳口腔卫生实践的专业建议通常被患者遗忘或放弃。因此,患者可能会受益于及时和个性化的鼓励来进行口腔自我保健行为。在本文中,我们开发了一种在线增强学习(RL)算法,用于优化基于移动的提示以鼓励口腔卫生行为的交付。开发这种算法的主要挑战之一是确保算法考虑当前行动对未来行动有效性(即延迟效应)的影响,尤其是当使算法变得稳定,自动运行时,尤其是当该算法变得简单时在受约束的现实世界中(即高度嘈杂,稀疏的数据)中。我们通过设计质量奖励来应对这一挑战,从而最大程度地提高所需的健康结果(即高质量的刷牙),同时最大程度地减少用户负担。我们还强调了一个程序,可以通过构建模拟环境测试床并使用测试床评估候选人来优化奖励的超参数。本文讨论的RL算法将用于Oralytics,这是一种口头自我护理应用程序,提供行为策略,以促进患者参与口腔卫生实践。
translated by 谷歌翻译
人类代理团队,这是一个问题,其中人类和自治机构合作实现一项任务,是人类AI协作的典型。为有效的合作,人类希望有一个有效的计划,而是在现实的情况下,他们可能难以计算由于认知限制的最佳计划。在这种情况下,具有许多计算资源的代理的指导可能是有用的。但是,如果代理人明确指导人类行为,人类可能会觉得他们已经失去了自主,并由代理商控制。因此,我们调查了通过代理人行为提供的隐性指导。通过这种指导,代理商以一种方式使人类能够易于找到合作任务的有效计划,然后可以改善计划。由于人类自愿改善了他们的计划,他或她保持自治。我们通过将贝叶斯思想理论集成到现有的协作规划算法中并通过行为实验进行了模拟了一个具有隐含指导,并通过隐性指导的行为实验证明了使人们能够在改善计划和保留自治之间保持平衡。
translated by 谷歌翻译
作为一个重要的心理和社会实验,迭代的囚犯困境(IPD)将合作或缺陷作为原子行动视为选择。我们建议研究迭代的囚犯困境(IPD)游戏中在线学习算法的行为,在那里我们研究了整个强化学习剂:多臂匪徒,上下文的强盗和钢筋学习。我们根据迭代囚犯的困境的比赛进行评估,其中多个特工可以以顺序竞争。这使我们能够分析由多个自私的独立奖励驱动的代理所学到的政策的动态,还使我们研究了这些算法适合人类行为的能力。结果表明,考虑当前的情况做出决定是这种社会困境游戏中最糟糕的情况。陈述了有关在线学习行为和临床验证的倍数,以此作为将人工智能算法与人类行为及其在神经精神病疾病中的异常状态联系起来的努力。
translated by 谷歌翻译
强化学习(RL)在很大程度上依赖于探索以从环境中学习并最大程度地获得观察到的奖励。因此,必须设计一个奖励功能,以确保从收到的经验中获得最佳学习。以前的工作将自动机和基于逻辑的奖励成型与环境假设相结合,以提供自动机制,以根据任务综合奖励功能。但是,关于如何将基于逻辑的奖励塑造扩大到多代理增强学习(MARL)的工作有限。如果任务需要合作,则环境将需要考虑联合状态,以跟踪其他代理,从而遭受对代理数量的维度的诅咒。该项目探讨了如何针对不同场景和任务设计基于逻辑的奖励成型。我们提出了一种针对半偏心逻辑基于逻辑的MARL奖励成型的新方法,该方法在代理数量中是可扩展的,并在多种情况下对其进行了评估。
translated by 谷歌翻译
我们利用离线增强学习(RL)模型在现实世界中有预算限制的情况下进行连续的目标促销。在我们的应用程序中,移动应用程序旨在通过向客户发送现金奖金并在每个时间段内控制此类现金奖金的成本来促进客户保留。为了实现多任务目标,我们提出了预算限制的加强学习,以进行顺序促销(BCRLSP)框架,以确定要发送给用户的现金奖金的价值。我们首先找出目标策略和相关的Q值,这些Q值是使用RL模型最大化用户保留率的。然后添加线性编程(LP)模型以满足促销成本的限制。我们通过最大化从RL模型中汲取的动作的Q值来解决LP问题。在部署期间,我们将离线RL模型与LP模型相结合,以在预算约束下生成强大的策略。使用在线和离线实验,我们通过证明BCRLSP达到的长期客户保留率和比各种基线更低的成本来证明我们方法的功效。利用近乎实时的成本控制方法,提出的框架可以轻松地使用嘈杂的行为政策和/或满足灵活的预算约束。
translated by 谷歌翻译
跨越多个领域的系统的自主权水平正在提高,但是这些系统仍然经历故障。减轻失败风险的一种方法是整合人类对自治系统的监督,并依靠人类在自治失败时控制人类。在这项工作中,我们通过行动建议制定了一种协作决策的方法,该建议在不控制系统的情况下改善行动选择。我们的方法通过通过建议合并共享的隐式信息来修改代理商的信念,并以比遵循建议的行动遵循更少的建议,以更少的建议来利用每个建议。我们假设协作代理人共享相同的目标,并通过有效的行动进行交流。通过假设建议的行动仅取决于国家,我们可以将建议的行动纳入对环境的独立观察。协作环境的假设使我们能够利用代理商的政策来估计行动建议的分布。我们提出了两种使用建议动作的方法,并通过模拟实验证明了该方法。提出的方法可以提高性能,同时对次优的建议也有鲁棒性。
translated by 谷歌翻译
许多收集行为大数据的互联网平台都使用它来预测内部目的的用户行为及其业务客户(例如广告商,保险公司,安全部队,政府,政治咨询公司),他们利用了个性化,定位和其他决策的预测-制造。因此,提高预测精度非常有价值。数据科学研究人员设计了改善预测的算法,模型和方法。通过更大,更丰富的数据,还可以改善预测。除了改进算法和数据外,平台还可以通过使用行为修改技术将用户的行为推向其预测值,从而偷偷摸摸地实现更好的预测准确性,从而证明了更多的某些预测。这种明显的“改进”预测可能是通过使用强化学习算法结合预测和行为修改的。机器学习和统计文献中没有这种策略。研究其特性需要将因果关系与预测符号整合在一起。为此,我们将Pearl的因果Do(。)操作员纳入预测词汇中。然后,我们分解给定行为修改的预期预测误差,并确定影响预测能力的组件。我们的派生阐明了这种行为修改对数据科学家,平台,客户和行为被操纵的人类的影响。行为修改可以使用户的行为更加可预测,甚至更均匀;然而,当业务客户在实践中使用预测时,这种明显的可预测性可能不会推广。朝着他们的预测推动的结果可能与客户的意图矛盾,并且对操纵用户有害。
translated by 谷歌翻译
加强学习(RL)提供了通过试验和错误学习的自然主义框架,这是由于其简单和有效性,并且由于其与人类和动物如何通过经验获得技能。然而,现实世界的体现学习,例如由人类和动物执行的,位于持续的非剧目世界中,而RL中的共同基准任务是epiSodic,在试验之间重置的环境以提供多次尝试。当尝试采取为ePiSodic模拟环境开发的RL算法并在现实世界平台上运行时,这种差异呈现出一项重大挑战,如机器人。在本文中,我们的目标是通过为自主强化学习(ARL)框架(ARL)提供框架来解决这一差异:加强学习的代理商不仅通过自己的经验学习,而且还争夺缺乏人类监督在试验之间重置。我们在此框架上介绍了一个模拟的基准伯爵,其中包含一系列多样化和具有挑战性的模拟任务,这些任务反映了所引入学习的障碍,当只有最小的对外在干预的依赖性时,可以假设。我们表明,作为干预措施的剧集RL和现有方法斗争的标准方法最小化,强调了对强化学习开发新算法的需求,更加注重自主。
translated by 谷歌翻译
具有成本效益的资产管理是多个行业的兴趣领域。具体而言,本文开发了深入的加固学习(DRL)解决方案,以自动确定不断恶化的水管的最佳康复政策。我们在在线和离线DRL设置中处理康复计划的问题。在在线DRL中,代理与具有不同长度,材料和故障率特征的多个管道的模拟环境进行交互。我们使用深Q学习(DQN)训练代理商,以最低限度的平均成本和减少故障概率学习最佳政策。在离线学习中,代理使用静态数据,例如DQN重播数据,通过保守的Q学习算法学习最佳策略,而无需与环境进行进一步的交互。我们证明,基于DRL的政策改善了标准预防,纠正和贪婪的计划替代方案。此外,从固定的DQN重播数据集中学习超过在线DQN设置。结果保证,由大型国家和行动轨迹组成的水管的现有恶化概况为在离线环境中学习康复政策提供了宝贵的途径,而无需模拟器。
translated by 谷歌翻译
强化学习的最新工作集中在学习的几个特征上,这些政策超出了最大化的奖励。这些特性包括公平,解释性,概括和鲁棒性。在本文中,我们定义了介入的鲁棒性(IR),这是一种通过培训程序的偶然方面(例如训练数据的顺序或代理商采取的特定探索性动作)引入了多变异性的量度。尽管培训程序的这些附带方面有所不同,但在干预下采取非常相似的行动时,培训程序具有很高的IR。我们开发了一种直观的,定量的IR度量,并在数十个干预措施和状态的三个atari环境中对八种算法进行计算。从这些实验中,我们发现IR随训练和算法类型的量而变化,并且高性能并不意味着高IR,正如人们所期望的那样。
translated by 谷歌翻译
In recent years, advances in deep learning have resulted in a plethora of successes in the use of reinforcement learning (RL) to solve complex sequential decision tasks with high-dimensional inputs. However, existing systems lack the necessary mechanisms to provide humans with a holistic view of their competence, presenting an impediment to their adoption, particularly in critical applications where the decisions an agent makes can have significant consequences. Yet, existing RL-based systems are essentially competency-unaware in that they lack the necessary interpretation mechanisms to allow human operators to have an insightful, holistic view of their competency. In this paper, we extend a recently-proposed framework for explainable RL that is based on analyses of "interestingness." Our new framework provides various measures of RL agent competence stemming from interestingness analysis and is applicable to a wide range of RL algorithms. We also propose novel mechanisms for assessing RL agents' competencies that: 1) identify agent behavior patterns and competency-controlling conditions by clustering agent behavior traces solely using interestingness data; and 2) identify the task elements mostly responsible for an agent's behavior, as measured through interestingness, by performing global and local analyses using SHAP values. Overall, our tools provide insights about RL agent competence, both their capabilities and limitations, enabling users to make more informed decisions about interventions, additional training, and other interactions in collaborative human-machine settings.
translated by 谷歌翻译
Hierarchical decomposition of control is unavoidable in large dynamical systems. In reinforcement learning (RL), it is usually solved with subgoals defined at higher policy levels and achieved at lower policy levels. Reaching these goals can take a substantial amount of time, during which it is not verified whether they are still worth pursuing. However, due to the randomness of the environment, these goals may become obsolete. In this paper, we address this gap in the state-of-the-art approaches and propose a method in which the validity of higher-level actions (thus lower-level goals) is constantly verified at the higher level. If the actions, i.e. lower level goals, become inadequate, they are replaced by more appropriate ones. This way we combine the advantages of hierarchical RL, which is fast training, and flat RL, which is immediate reactivity. We study our approach experimentally on seven benchmark environments.
translated by 谷歌翻译
我们开发了增强学习(RL)框架,用于通过稀疏,用户解释的更改来改善现有行为策略。我们的目标是在获得尽可能多的收益的同时进行最小的改变。我们将最小的变化定义为在原始政策和拟议的政策之间具有稀疏的全球对比解释。我们改善了当前的政策,以使全球对比解释的简短限制。我们使用离散的MDP和连续的2D导航域来演示我们的框架。
translated by 谷歌翻译
The reward hypothesis posits that, "all of what we mean by goals and purposes can be well thought of as maximization of the expected value of the cumulative sum of a received scalar signal (reward)." We aim to fully settle this hypothesis. This will not conclude with a simple affirmation or refutation, but rather specify completely the implicit requirements on goals and purposes under which the hypothesis holds.
translated by 谷歌翻译
在强化学习文献中,有许多用于上下文强盗(CB)或马尔可夫决策过程(MDP)环境的算法。但是,当在现实世界中部署强化学习算法时,即使有领域专业知识,通常也很难知道将顺序决策问题视为CB或MDP是否适合。换句话说,行动会影响未来的状态,还是仅影响即时奖励?关于环境的性质做出错误的假设可能会导致学习效率低下,甚至可以阻止该算法学习最佳政策,即使使用无限数据。在这项工作中,我们开发了一种在线算法,该算法使用贝叶斯假设测试方法来学习环境的性质。我们的算法允许从业人员合并有关环境是否是CB还是MDP的知识,并有效地在经典CB和基于MDP的算法之间插值,以减轻对环境分配环境的影响。我们进行仿真并证明,在CB设置中,我们的算法比基于MDP的算法降低了遗憾,而在非Bandit MDP设置中,我们的算法能够学习最佳策略,通常可以与基于MDP的算法相当地遗憾。
translated by 谷歌翻译
我们提出了世界价值函数(WVFS),这是一种面向目标的一般价值函数,它代表了如何不仅要解决给定任务,还代表代理环境中的任何其他目标任务。这是通过将代理装备内部目标空间定义为经历终端过渡的所有世界状态来实现的。然后,代理可以修改标准任务奖励以定义其自己的奖励功能,事实证明,它可以驱动其学习如何实现所有可触及的内部目标,以及在当前任务中的价值。我们在学习和计划的背景下展示了WVF的两个关键好处。特别是,给定有学习的WVF,代理可以通过简单地估计任务的奖励功能来计算新任务中的最佳策略。此外,我们表明WVF还隐式编码环境的过渡动力学,因此可以用于执行计划。实验结果表明,WVF可以比常规价值功能更快地学习,而它们的推断环境动态的能力可用于整合学习和计划方法以进一步提高样本效率。
translated by 谷歌翻译
Inferring reward functions from human behavior is at the center of value alignment - aligning AI objectives with what we, humans, actually want. But doing so relies on models of how humans behave given their objectives. After decades of research in cognitive science, neuroscience, and behavioral economics, obtaining accurate human models remains an open research topic. This begs the question: how accurate do these models need to be in order for the reward inference to be accurate? On the one hand, if small errors in the model can lead to catastrophic error in inference, the entire framework of reward learning seems ill-fated, as we will never have perfect models of human behavior. On the other hand, if as our models improve, we can have a guarantee that reward accuracy also improves, this would show the benefit of more work on the modeling side. We study this question both theoretically and empirically. We do show that it is unfortunately possible to construct small adversarial biases in behavior that lead to arbitrarily large errors in the inferred reward. However, and arguably more importantly, we are also able to identify reasonable assumptions under which the reward inference error can be bounded linearly in the error in the human model. Finally, we verify our theoretical insights in discrete and continuous control tasks with simulated and human data.
translated by 谷歌翻译