As one of the prevalent methods to achieve automation systems, Imitation Learning (IL) presents a promising performance in a wide range of domains. However, despite the considerable improvement in policy performance, the corresponding research on the explainability of IL models is still limited. Inspired by the recent approaches in explainable artificial intelligence methods, we proposed a model-agnostic explaining framework for IL models called R2RISE. R2RISE aims to explain the overall policy performance with respect to the frames in demonstrations. It iteratively retrains the black-box IL model from the randomized masked demonstrations and uses the conventional evaluation outcome environment returns as the coefficient to build an importance map. We also conducted experiments to investigate three major questions concerning frames' importance equality, the effectiveness of the importance map, and connections between importance maps from different IL models. The result shows that R2RISE successfully distinguishes important frames from the demonstrations.
translated by 谷歌翻译
深度加强学习(RL)代理在一系列复杂的控制任务中变得越来越精通。然而,由于引入黑盒功能,代理的行为通常很难解释,使得难以获得用户的信任。虽然存在一些基于视觉的RL的有趣的解释方法,但大多数人都无法发现时间因果信息,提高其可靠性的问题。为了解决这个问题,我们提出了一个时间空间因果解释(TSCI)模型,以了解代理人的长期行为,这对于连续决策至关重要。 TSCI模型构建了颞会因果关系的制定,这反映了连续观测结果与RL代理的决策之间的时间因果关系。然后,采用单独的因果发现网络来识别时间空间因果特征,这被限制为满足时间因果关系。 TSCI模型适用于复发代理,可用于发现培训效率高效率的因果特征。经验结果表明,TSCI模型可以产生高分辨率和敏锐的关注掩模,以突出大多数关于视觉的RL代理如何顺序决策的最大证据的任务相关的时间空间信息。此外,我们还表明,我们的方法能够为从时刻视角提供有价值的基于视觉的RL代理的因果解释。
translated by 谷歌翻译
模仿学习研究社区最近取得了重大进展,以使人工代理人仅凭视频演示模仿行为。然而,由于视频观察的高维质性质,针对此问题开发的当前最新方法表现出很高的样本复杂性。为了解决这个问题,我们在这里介绍了一种新的算法,称为使用状态观察者VGAIFO-SO从观察中获得的,称为视觉生成对抗性模仿。 Vgaifo-So以此为核心,试图使用一种新型的自我监管的状态观察者来解决样本效率低下,该观察者从高维图像中提供了较低维度的本体感受状态表示的估计。我们在几个连续的控制环境中进行了实验表明,Vgaifo-SO比其他IFO算法更有效地从仅视频演示中学习,有时甚至可以实现与观察(Gaifo)算法的生成对抗性模仿(Gaifo)算法的性能,该算法有特权访问访问权限示威者的本体感知状态信息。
translated by 谷歌翻译
深度学习已经变得过于复杂,并且在解决图像分类,对象检测等若干古典问题方面享有恒星的成功。已经提出了几种解释这些决定的方法。由于它们不利用模型的内部来解释该决定,为生成显着性图产生显着性图的方法特别感到很有趣。大多数黑匣子方法扰乱了输入并观察输出的变化。我们将显着的图形制定为顺序搜索问题,并利用加强学习(RL)来累积来自输入图像的证据,最强烈地支持分类器的决策。这种战略鼓励智能地搜索扰动,这将导致高质量的解释。虽然成功的黑匣子解释方法需要依靠重计算并遭受小的样本近似,但我们的方法学到的确定性政策使得在推理期间更有效。三个基准数据集的实验证明了在不损害性能的情况下推动了推理时间的提议方法的优越性。项目页面:https://cvir.github.io/projects/rexl.html
translated by 谷歌翻译
Deep neural networks are being used increasingly to automate data analysis and decision making, yet their decision-making process is largely unclear and is difficult to explain to the end users. In this paper, we address the problem of Explainable AI for deep neural networks that take images as input and output a class probability. We propose an approach called RISE that generates an importance map indicating how salient each pixel is for the model's prediction. In contrast to white-box approaches that estimate pixel importance using gradients or other internal network state, RISE works on blackbox models. It estimates importance empirically by probing the model with randomly masked versions of the input image and obtaining the corresponding outputs. We compare our approach to state-of-the-art importance extraction methods using both an automatic deletion/insertion metric and a pointing metric based on human-annotated object segments. Extensive experiments on several benchmark datasets show that our approach matches or exceeds the performance of other methods, including white-box approaches.
translated by 谷歌翻译
Reinforcement Learning (RL) is a popular machine learning paradigm where intelligent agents interact with the environment to fulfill a long-term goal. Driven by the resurgence of deep learning, Deep RL (DRL) has witnessed great success over a wide spectrum of complex control tasks. Despite the encouraging results achieved, the deep neural network-based backbone is widely deemed as a black box that impedes practitioners to trust and employ trained agents in realistic scenarios where high security and reliability are essential. To alleviate this issue, a large volume of literature devoted to shedding light on the inner workings of the intelligent agents has been proposed, by constructing intrinsic interpretability or post-hoc explainability. In this survey, we provide a comprehensive review of existing works on eXplainable RL (XRL) and introduce a new taxonomy where prior works are clearly categorized into model-explaining, reward-explaining, state-explaining, and task-explaining methods. We also review and highlight RL methods that conversely leverage human knowledge to promote learning efficiency and performance of agents while this kind of method is often ignored in XRL field. Some challenges and opportunities in XRL are discussed. This survey intends to provide a high-level summarization of XRL and to motivate future research on more effective XRL solutions. Corresponding open source codes are collected and categorized at https://github.com/Plankson/awesome-explainable-reinforcement-learning.
translated by 谷歌翻译
在本文中,我们提出了一个健壮的模仿学习(IL)框架,该框架在扰动环境动态时改善了IL的稳健性。在单个环境中训练的现有IL框架可能会因环境动力学的扰动而灾难性地失败,因为它无法捕获可以更改潜在环境动态的情况。我们的框架有效地处理了具有不同动态的环境,通过模仿了采样环境动力学中的多个专家,以增强环境动力学的一般变化中的鲁棒性。为了强力模仿多个样本专家,我们将代理商政策与每个样本专家之间的Jensen-Shannon分歧降低了风险。数值结果表明,与常规IL基准相比,我们的算法显着提高了针对动力学扰动的鲁棒性。
translated by 谷歌翻译
自2015年首次介绍以来,深入增强学习(DRL)方案的使用已大大增加。尽管在许多不同的应用中使用了使用,但他们仍然存在缺乏可解释性的问题。面包缺乏对研究人员和公众使用DRL解决方案的使用。为了解决这个问题,已经出现了可解释的人工智能(XAI)领域。这是各种不同的方法,它们希望打开DRL黑框,范围从使用可解释的符号决策树到诸如Shapley值之类的数值方法。这篇评论研究了使用哪些方法以及使用了哪些应用程序。这样做是为了确定哪些模型最适合每个应用程序,或者是否未充分利用方法。
translated by 谷歌翻译
While deep reinforcement learning has proven to be successful in solving control tasks, the "black-box" nature of an agent has received increasing concerns. We propose a prototype-based post-hoc policy explainer, ProtoX, that explains a blackbox agent by prototyping the agent's behaviors into scenarios, each represented by a prototypical state. When learning prototypes, ProtoX considers both visual similarity and scenario similarity. The latter is unique to the reinforcement learning context, since it explains why the same action is taken in visually different states. To teach ProtoX about visual similarity, we pre-train an encoder using contrastive learning via self-supervised learning to recognize states as similar if they occur close together in time and receive the same action from the black-box agent. We then add an isometry layer to allow ProtoX to adapt scenario similarity to the downstream task. ProtoX is trained via imitation learning using behavior cloning, and thus requires no access to the environment or agent. In addition to explanation fidelity, we design different prototype shaping terms in the objective function to encourage better interpretability. We conduct various experiments to test ProtoX. Results show that ProtoX achieved high fidelity to the original black-box agent while providing meaningful and understandable explanations.
translated by 谷歌翻译
由于部分可观察性,高维视觉感知和延迟奖励,在MINECRAFT等开放世界游戏中的学习理性行为仍然是挑战,以便对加固学习(RL)研究造成挑战性,高维视觉感知和延迟奖励。为了解决这个问题,我们提出了一种具有代表学习和模仿学习的样本有效的等级RL方法,以应对感知和探索。具体来说,我们的方法包括两个层次结构,其中高级控制器学习控制策略来控制选项,低级工作人员学会解决每个子任务。为了提高子任务的学习,我们提出了一种技术组合,包括1)动作感知表示学习,其捕获了行动和表示之间的基础关系,2)基于鉴别者的自模仿学习,以实现有效的探索,以及3)合奏行为克隆一致性筛选政策鲁棒性。广泛的实验表明,Juewu-MC通过大边缘显着提高了样品效率并优于一组基线。值得注意的是,我们赢得了神经脂溢斯矿业锦标赛2021年研究竞赛的冠军,并实现了最高的绩效评分。
translated by 谷歌翻译
We develop a simple framework to learn bio-inspired foraging policies using human data. We conduct an experiment where humans are virtually immersed in an open field foraging environment and are trained to collect the highest amount of rewards. A Markov Decision Process (MDP) framework is introduced to model the human decision dynamics. Then, Imitation Learning (IL) based on maximum likelihood estimation is used to train Neural Networks (NN) that map human decisions to observed states. The results show that passive imitation substantially underperforms humans. We further refine the human-inspired policies via Reinforcement Learning (RL) using the on-policy Proximal Policy Optimization (PPO) algorithm which shows better stability than other algorithms and can steadily improve the policies pretrained with IL. We show that the combination of IL and RL can match human results and that good performance strongly depends on combining the allocentric information with an egocentric representation of the environment.
translated by 谷歌翻译
最近,目睹了利用专家国家在模仿学习(IL)中的各种成功应用。然而,来自视觉输入(ILFVI)的另一个IL设定 - IL,它通过利用在线视觉资源而具有更大的承诺,它具有低数据效率和良好的性能,从政策学习方式和高度产生了差 - 宣称视觉输入。我们提出了由禁止策略学习方式,数据增强和编码器技术组成的OPIFVI(视觉输入的偏离策略模仿),分别分别解决所提到的挑战。更具体地,为了提高数据效率,OPIFVI以脱策方式进行IL,可以多次使用采样数据。此外,我们提高了opifvi与光谱归一化的稳定性,以减轻脱助政策培训的副作用。我们认为代理商的ILFVI表现不佳的核心因素可能不会从视觉输入中提取有意义的功能。因此,Opifvi采用计算机愿望的数据增强,以帮助列车编码器,可以更好地从视觉输入中提取功能。另外,对编码器的梯度背交量的特定结构旨在稳定编码器训练。最后,我们证明OPIFVI能够实现专家级性能和优于现有的基线,无论是通过使用Deepmind控制套件的广泛实验,无论视觉演示还是视觉观测。
translated by 谷歌翻译
我们研究了离线模仿学习(IL)的问题,在该问题中,代理商旨在学习最佳的专家行为政策,而无需其他在线环境互动。取而代之的是,该代理来自次优行为的补充离线数据集。解决此问题的先前工作要么要求专家数据占据离线数据集的大部分比例,要么需要学习奖励功能并在以后执行离线加强学习(RL)。在本文中,我们旨在解决问题,而无需进行奖励学习和离线RL培训的其他步骤,当时示范包含大量次优数据。基于行为克隆(BC),我们引入了一个额外的歧视者,以区分专家和非专家数据。我们提出了一个合作框架,以增强这两个任务的学习,基于此框架,我们设计了一种新的IL算法,其中歧视者的输出是BC损失的权重。实验结果表明,与基线算法相比,我们提出的算法可获得更高的回报和更快的训练速度。
translated by 谷歌翻译
在几次拍摄的仿制学习(FSIL)中,使用行为克隆(BC)来解决少数专家演示的看不见的任务成为一个流行的研究方向。以下功能在机器人应用中至关重要:(1)在包含多个阶段的复合任务中行为。 (2)从少量变体和未对准示范中检索知识。 (3)从不同的专家学习。以前没有工作可以同时达到这些能力。在这项工作中,我们在上述设置的联盟下进行FSIL问题,并介绍一个小说阶段意识注意网络(扫描),以同时检索来自少数示范的知识。扫描使用注意模块识别长度变体演示中的每个阶段。此外,它是根据演示条件的政策设计,了解专家和代理人之间的关系。实验结果表明,扫描可以从不同的专家中学习,而不进行微调和优于复杂的复合任务的基线,可视化可视化。
translated by 谷歌翻译
人工智能(AI)和机器学习(ML)在网络安全挑战中的应用已在行业和学术界的吸引力,部分原因是对关键系统(例如云基础架构和政府机构)的广泛恶意软件攻击。入侵检测系统(IDS)使用某些形式的AI,由于能够以高预测准确性处理大量数据,因此获得了广泛的采用。这些系统托管在组织网络安全操作中心(CSOC)中,作为一种防御工具,可监视和检测恶意网络流,否则会影响机密性,完整性和可用性(CIA)。 CSOC分析师依靠这些系统来决定检测到的威胁。但是,使用深度学习(DL)技术设计的IDS通常被视为黑匣子模型,并且没有为其预测提供理由。这为CSOC分析师造成了障碍,因为他们无法根据模型的预测改善决策。解决此问题的一种解决方案是设计可解释的ID(X-IDS)。这项调查回顾了可解释的AI(XAI)的最先进的ID,目前的挑战,并讨论了这些挑战如何涉及X-ID的设计。特别是,我们全面讨论了黑匣子和白盒方法。我们还在这些方法之间的性能和产生解释的能力方面提出了权衡。此外,我们提出了一种通用体系结构,该建筑认为人类在循环中,该架构可以用作设计X-ID时的指南。研究建议是从三个关键观点提出的:需要定义ID的解释性,需要为各种利益相关者量身定制的解释以及设计指标来评估解释的需求。
translated by 谷歌翻译
仿制学习(IL)是一个框架,了解从示范中模仿专家行为。最近,IL显示了高维和控制任务的有希望的结果。然而,IL通常遭受环境互动方面的样本低效率,这严重限制了它们对模拟域的应用。在工业应用中,学习者通常具有高的相互作用成本,与环境的互动越多,对环境的损害越多,学习者本身就越多。在本文中,我们努力通过引入逆钢筋学习的新颖方案来提高样本效率。我们的方法,我们调用\ texit {model redion函数基础的模仿学习}(mrfil),使用一个集合动态模型作为奖励功能,是通过专家演示培训的内容。关键的想法是通过在符合专家示范分布时提供积极奖励,为代理商提供与漫长地平线相匹配的演示。此外,我们展示了新客观函数的收敛保证。实验结果表明,与IL方法相比,我们的算法达到了竞争性能,并显着降低了环境交互。
translated by 谷歌翻译
在实践中,只要可以设计教学代理以提供专家监督,仿制学习就是纯粹的加强学习。但是,我们表明,当教学代理商决定与学生无法访问的特权信息时,在模仿学习期间,此信息被边缘化,导致“模仿差距”,导致潜在,差距。先前的工作通过仿制学习的仿制学习来弥合这一差距。虽然经常成功,但逐步的进展失败,需要频繁切换勘探和记忆之间的频繁交换。为了更好地解决这些任务并减轻模仿缺口,我们提出“适应性不管”(顾问)。顾问在培训期间动态重量仿制和奖励的加固学习损失,在模仿和探索之间启用了在线切换。在Gridworlds中设置的一套充满挑战的任务,多代理粒子环境和高保真3D模拟器,我们展示了与顾问的在线交换,优于纯粹的模仿,纯粹的加固学习以及它们的顺序和并行组合。
translated by 谷歌翻译
随着可解释的人工智能(XAI)的快速发展,过去的一系列工作表明,基于扰动后的HOC XAI模型中对分布外(OOD)问题的担忧和解释在社会上是错误对准的。我们探讨了使用近似值来模仿黑盒模型的行为的事后解释方法的局限性。然后,我们提出了基于解释的反事实再培训(XCR),提取迅速提取的特征。 XCR应用了XAI模型生成的解释作为反事实输入,以重新培训黑框模型来解决OOD和社会错位问题。对流行图像数据集的评估表明,XCR只能保留12.5%的最关键功能而不更改黑框模型结构时,可以改善模型性能。此外,对腐败数据集基准的评估表明,XCR对改善模型鲁棒性非常有帮助,并积极影响OOD问题的校准。即使没有像某些OOD校准方法那样在验证集中进行校准,但损坏的数据度量标准的表现优于现有方法。如果应用了验证集上的校准,我们的方法还可以在OOD校准度量上使用当前的OOD校准方法。
translated by 谷歌翻译
虽然深增强学习已成为连续决策问题的有希望的机器学习方法,但对于自动驾驶或医疗应用等高利害域来说仍然不够成熟。在这种情况下,学习的政策需要例如可解释,因此可以在任何部署之前检查它(例如,出于安全性和验证原因)。本调查概述了各种方法,以实现加固学习(RL)的更高可解释性。为此,我们将解释性(作为模型的财产区分开来和解释性(作为HOC操作后的讲话,通过代理的干预),并在RL的背景下讨论它们,并强调前概念。特别是,我们认为可译文的RL可能会拥抱不同的刻面:可解释的投入,可解释(转型/奖励)模型和可解释的决策。根据该计划,我们总结和分析了与可解释的RL相关的最近工作,重点是过去10年来发表的论文。我们还简要讨论了一些相关的研究领域并指向一些潜在的有前途的研究方向。
translated by 谷歌翻译
路线选择建模,即估计个人在旅途中遵循的路径的过程,是运输计划和需求预测的基本任务。经典方法通常采用具有线性实用程序功能和高级路由特性的离散选择模型(DCM)框架。尽管最近的一些研究开始探索深度学习对于旅行选择建模的适用性,但它们都是基于路径的,具有相对简单的模型体系结构,无法利用详细的链接级功能。现有的基于链接的模型虽然理论上有希望,但通常不够可扩展或灵活,无法说明目标特征。为了解决这些问题,这项研究提出了针对基于链接的路线选择建模的一般深层逆增强学习(IRL)框架,该框架能够纳入高维特征并捕获复杂的关系。具体而言,我们将对抗性IRL模型调整为路由选择问题,以有效地估计目标依赖的奖励和策略功能。实验结果基于上海的出租车GPS数据,中国验证了拟议模型对常规DCM和其他模仿学习基线的改善,即使是在培训数据中看不见的目的地。我们还使用可解释的AI技术演示了模型的解释性。拟议的方法为路线选择模型的未来开发提供了新的方向。它是一般的,应该适应不同模式和网络上其他路线选择问题。
translated by 谷歌翻译