当同时部署大量传感器和执行器的多个服务时,设计智能家庭服务是一项复杂的任务。它可能依赖于基于知识或数据驱动的方法。前者可以使用基于规则的方法静态设计服务,后者可以使用学习方法动态地发现居民的偏好。但是,这些方法都不完全令人满意,因为规则不能涵盖所有可能改变的可能情况,而学习方法可能会做出有时对居民无法理解的决定。在本文中,提出了PBRE(基于教学的规则提取器),以从学习方法中提取规则,以实现智能家庭系统的动态规则生成。预期的优势是采用了基于规则的方法的解释性和学习方法的动态性。我们将PBRE与现有规则提取方法进行比较,结果显示PBRE的性能更好。我们还应用PBRE从NRL(基于神经网络的强化学习)代表的智能家庭服务中提取规则。结果表明,PBRE可以帮助NRL模拟的服务向居民提出可理解的建议。
translated by 谷歌翻译
智能家庭中使用的技术有所改善,以便从反馈中了解用户偏好,以便为用户提供便利。大多数智能家庭学习统一的模型,以表示当乘员池包括不同年龄,性别和地点的人时通常失败的用户的热偏好。对于每个用户来说具有不同的热敏感觉对智能家庭构成挑战,以便在不忘记他人的政策的情况下为每个乘员学习个性化偏好。当具有不同偏好的新用户集成在家中时,具有单个最佳政策的智能家庭可能无法提供舒适性。在本文中,我们提出了一种贝母,一种贝叶斯增强学习算法,可以使用其热偏好来近似当前可观察环境中的当前乘员状态,然后决定它是新的占用者还是属于先前观察到的用户的池。然后,我们将POSHS算法与基于LSTM的算法进行比较,用于学习和估计乘员的当前状态,同时还采用最佳动作来减少设置偏好所需的时间。我们根据等级加固学习,使用高达5种模拟人类模型进行这些实验。结果表明,豪华可以从其温度和湿度偏好地近似当前用户状态,并且还减少了在智能家庭存在下通过人体模型设定最佳温度和湿度所需的时间步长的数量。
translated by 谷歌翻译
The high emission and low energy efficiency caused by internal combustion engines (ICE) have become unacceptable under environmental regulations and the energy crisis. As a promising alternative solution, multi-power source electric vehicles (MPS-EVs) introduce different clean energy systems to improve powertrain efficiency. The energy management strategy (EMS) is a critical technology for MPS-EVs to maximize efficiency, fuel economy, and range. Reinforcement learning (RL) has become an effective methodology for the development of EMS. RL has received continuous attention and research, but there is still a lack of systematic analysis of the design elements of RL-based EMS. To this end, this paper presents an in-depth analysis of the current research on RL-based EMS (RL-EMS) and summarizes the design elements of RL-based EMS. This paper first summarizes the previous applications of RL in EMS from five aspects: algorithm, perception scheme, decision scheme, reward function, and innovative training method. The contribution of advanced algorithms to the training effect is shown, the perception and control schemes in the literature are analyzed in detail, different reward function settings are classified, and innovative training methods with their roles are elaborated. Finally, by comparing the development routes of RL and RL-EMS, this paper identifies the gap between advanced RL solutions and existing RL-EMS. Finally, this paper suggests potential development directions for implementing advanced artificial intelligence (AI) solutions in EMS.
translated by 谷歌翻译
我们建议使用基于规则的技术加速系统级调试的根源程序。我们描述了该过程及其如何提供高质量的调试提示,以减少调试工作。这包括来自许多测试日志的工程功能的启发式方法,以及用于生成强大调试提示的数据分析技术。作为案例研究,我们将这些技术用于电源管理(PM)设计功能软件包C8的根源失败,并显示了它们的有效性。此外,我们提出了一种挖掘引起根源的经验和重用结果,加速未来调试活动并减少对验证专家的依赖的方法。我们认为,这些技术也对不同级别的抽象级别的其他验证活动也有益,对于复杂的硬件,软件和固件系统,包括前硅和后硅。
translated by 谷歌翻译
复杂的事件处理(CEP)是一组方法,可以使用复杂和高度描述性模式从大规模数据流中提取有效的知识。许多应用程序,例如在线金融,医疗保健监控和欺诈检测,使用CEP技术来实时捕获关键警报,潜在威胁或重要通知。截至今天,在许多领域,模式是由人类专家手动定义的。但是,所需的模式通常包含令人费解的关系,而人类很难检测到,并且在许多领域中,人类的专业知识都是稀缺的。我们提出了救赎主(基于加固的CEP模式矿工),这是一种新颖的增强和主动学习方法,旨在采矿CEP模式,允许在减少所需人类努力的同时提取知识的扩展。这种方法包括一种新颖的政策梯度方法,用于庞大的多元空间,以及一种结合强化和积极学习以进行CEP规则学习的新方法,同时最大程度地减少培训所需的标签数量。救赎主的目标是使CEP集成在以前无法使用的域中。据我们所知,救赎主是第一个提出事先观察到的新CEP规则的系统,并且是第一种旨在增加专家没有足够信息的领域模式知识的方法。我们对各种数据集的实验表明,救赎主能够扩展模式知识,同时超过了几种用于模式挖掘的最先进的强化学习方法。
translated by 谷歌翻译
2048 is a single-player stochastic puzzle game. This intriguing and addictive game has been popular worldwide and has attracted researchers to develop game-playing programs. Due to its simplicity and complexity, 2048 has become an interesting and challenging platform for evaluating the effectiveness of machine learning methods. This dissertation conducts comprehensive research on reinforcement learning and computer game algorithms for 2048. First, this dissertation proposes optimistic temporal difference learning, which significantly improves the quality of learning by employing optimistic initialization to encourage exploration for 2048. Furthermore, based on this approach, a state-of-the-art program for 2048 is developed, which achieves the highest performance among all learning-based programs, namely an average score of 625377 points and a rate of 72% for reaching 32768-tiles. Second, this dissertation investigates several techniques related to 2048, including the n-tuple network ensemble learning, Monte Carlo tree search, and deep reinforcement learning. These techniques are promising for further improving the performance of the current state-of-the-art program. Finally, this dissertation discusses pedagogical applications related to 2048 by proposing course designs and summarizing the teaching experience. The proposed course designs use 2048-like games as materials for beginners to learn reinforcement learning and computer game algorithms. The courses have been successfully applied to graduate-level students and received well by student feedback.
translated by 谷歌翻译
In the last years many accurate decision support systems have been constructed as black boxes, that is as systems that hide their internal logic to the user. This lack of explanation constitutes both a practical and an ethical issue. The literature reports many approaches aimed at overcoming this crucial weakness sometimes at the cost of scarifying accuracy for interpretability. The applications in which black box decision systems can be used are various, and each approach is typically developed to provide a solution for a specific problem and, as a consequence, delineating explicitly or implicitly its own definition of interpretability and explanation. The aim of this paper is to provide a classification of the main problems addressed in the literature with respect to the notion of explanation and the type of black box system. Given a problem definition, a black box type, and a desired explanation this survey should help the researcher to find the proposals more useful for his own work. The proposed classification of approaches to open black box models should also be useful for putting the many research open questions in perspective.
translated by 谷歌翻译
防御网络攻击的计算机网络需要及时应对警报和威胁情报。关于如何响应的决定涉及基于妥协指标的多个节点跨多个节点协调动作,同时最大限度地减少对网络操作的中断。目前,PlayBooks用于自动化响应过程的部分,但通常将复杂的决策留给人类分析师。在这项工作中,我们在大型工业控制网络中提出了一种深度增强学习方法,以便在大型工业控制网络中进行自主反应和恢复。我们提出了一种基于关注的神经结构,其在保护下灵活地灵活。要培训和评估自治防御者代理,我们提出了一个适合加强学习的工业控制网络仿真环境。实验表明,学习代理可以有效减轻在执行前几个月几个月的可观察信号的进步。所提出的深度加强学习方法优于模拟中完全自动化的Playbook方法,采取更少的破坏性动作,同时在网络上保留更多节点。学习的政策对攻击者行为的变化也比PlayBook方法更加强大。
translated by 谷歌翻译
我们考虑创建助手的问题,这些助手可以帮助代理人(通常是人类)解决新颖的顺序决策问题,假设代理人无法将奖励功能明确指定给助手。我们没有像目前的方法那样旨在自动化并代替代理人,而是赋予助手一个咨询角色,并将代理商作为主要决策者。困难是,我们必须考虑由代理商的限制或限制引起的潜在偏见,这可能导致其看似非理性地拒绝建议。为此,我们介绍了一种新颖的援助形式化,以模拟这些偏见,从而使助手推断和适应它们。然后,我们引入了一种计划助手建议的新方法,该方法可以扩展到大型决策问题。最后,我们通过实验表明我们的方法适应了这些代理偏见,并且比基于自动化的替代方案给代理带来了更高的累积奖励。
translated by 谷歌翻译
越来越多的工作已经认识到利用机器学习(ML)进步的重要性,以满足提取访问控制属性,策略挖掘,策略验证,访问决策等有效自动化的需求。在这项工作中,我们调查和总结了各种ML解决不同访问控制问题的方法。我们提出了ML模型在访问控制域中应用的新分类学。我们重点介绍当前的局限性和公开挑战,例如缺乏公共现实世界数据集,基于ML的访问控制系统的管理,了解黑盒ML模型的决策等,并列举未来的研究方向。
translated by 谷歌翻译
In recent years, reinforcement learning (RL) has become increasingly successful in its application to science and the process of scientific discovery in general. However, while RL algorithms learn to solve increasingly complex problems, interpreting the solutions they provide becomes ever more challenging. In this work, we gain insights into an RL agent's learned behavior through a post-hoc analysis based on sequence mining and clustering. Specifically, frequent and compact subroutines, used by the agent to solve a given task, are distilled as gadgets and then grouped by various metrics. This process of gadget discovery develops in three stages: First, we use an RL agent to generate data, then, we employ a mining algorithm to extract gadgets and finally, the obtained gadgets are grouped by a density-based clustering algorithm. We demonstrate our method by applying it to two quantum-inspired RL environments. First, we consider simulated quantum optics experiments for the design of high-dimensional multipartite entangled states where the algorithm finds gadgets that correspond to modern interferometer setups. Second, we consider a circuit-based quantum computing environment where the algorithm discovers various gadgets for quantum information processing, such as quantum teleportation. This approach for analyzing the policy of a learned agent is agent and environment agnostic and can yield interesting insights into any agent's policy.
translated by 谷歌翻译
动态作业车间调度问题(DJSP)是一类是专门考虑固有的不确定性,如切换顺序要求和现实的智能制造的设置可能机器故障调度任务。因为传统方法不能动态生成环境的扰动面有效调度策略,我们制定DJSP马尔可夫决策过程(MDP)通过强化学习(RL)加以解决。为此,我们提出了一个灵活的混合架构,采用析取图的状态和一组通用的调度规则与之前最小的领域知识的行动空间。注意机制被用作状态的特征提取的图形表示学习(GRL)模块,并且采用双决斗深Q-网络与优先重放和嘈杂的网络(D3QPN)到每个状态映射到最适当的调度规则。此外,我们提出Gymjsp,基于众所周知的或图书馆公共标杆,提供了RL和DJSP研究社区标准化现成的现成工具。各种DJSP实例综合实验证实,我们提出的框架是优于基准算法可在所有情况下,较小的完工时间,并提供了在混合架构的各个组成部分的有效性实证理由。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
本文介绍了寻求信息(是)任务,概念和算法的信息重新分类。拟议的分类系统提供了新的维度,以研究寻求任务和方法的信息。新尺寸包括搜索迭代,搜索目标类型和程序的数量,以实现这些目标。寻求任务的信息沿着这些尺寸呼叫合适的计算解决方案的差异。然后,该文章评论了符合每个新类别的机器学习解决方案。该论文结束了对系统的评估活动进行了审查。
translated by 谷歌翻译
数字化和远程连接扩大了攻击面,使网络系统更脆弱。由于攻击者变得越来越复杂和资源丰富,仅仅依赖传统网络保护,如入侵检测,防火墙和加密,不足以保护网络系统。网络弹性提供了一种新的安全范式,可以使用弹性机制来补充保护不足。一种网络弹性机制(CRM)适应了已知的或零日威胁和实际威胁和不确定性,并对他们进行战略性地响应,以便在成功攻击时保持网络系统的关键功能。反馈架构在启用CRM的在线感应,推理和致动过程中发挥关键作用。强化学习(RL)是一个重要的工具,对网络弹性的反馈架构构成。它允许CRM提供有限或没有事先知识和攻击者的有限攻击的顺序响应。在这项工作中,我们审查了Cyber​​恢复力的RL的文献,并讨论了对三种主要类型的漏洞,即姿势有关,与信息相关的脆弱性的网络恢复力。我们介绍了三个CRM的应用领域:移动目标防御,防守网络欺骗和辅助人类安全技术。 RL算法也有漏洞。我们解释了RL的三个漏洞和目前的攻击模型,其中攻击者针对环境与代理商之间交换的信息:奖励,国家观察和行动命令。我们展示攻击者可以通过最低攻击努力来欺骗RL代理商学习邪恶的政策。最后,我们讨论了RL为基于RL的CRM的网络安全和恢复力和新兴应用的未来挑战。
translated by 谷歌翻译
强化学习(RL)和脑电脑接口(BCI)是过去十年一直在增长的两个领域。直到最近,这些字段彼此独立操作。随着对循环(HITL)应用的兴趣升高,RL算法已经适用于人类指导,从而产生互动强化学习(IRL)的子领域。相邻的,BCI应用一直很感兴趣在人机交互期间从神经活动中提取内在反馈。这两个想法通过将BCI集成到IRL框架中,将RL和BCI设置在碰撞过程中,通过将内在反馈可用于帮助培训代理商来帮助框架。这种交叉点被称为内在的IRL。为了进一步帮助,促进BCI和IRL的更深层次,我们对内在IRILL的审查有着重点在于其母体领域的反馈驱动的IRL,同时还提供有关有效性,挑战和未来研究方向的讨论。
translated by 谷歌翻译
行为树(BT)是一种在自主代理中(例如机器人或计算机游戏中的虚拟实体)之间在不同任务之间进行切换的方法。 BT是创建模块化和反应性的复杂系统的一种非常有效的方法。这些属性在许多应用中至关重要,这导致BT从计算机游戏编程到AI和机器人技术的许多分支。在本书中,我们将首先对BTS进行介绍,然后我们描述BTS与早期切换结构的关系,并且在许多情况下如何概括。然后,这些想法被用作一套高效且易于使用的设计原理的基础。安全性,鲁棒性和效率等属性对于自主系统很重要,我们描述了一套使用BTS的状态空间描述正式分析这些系统的工具。借助新的分析工具,我们可以对BTS如何推广早期方法的形式形式化。我们还显示了BTS在自动化计划和机器学习中的使用。最后,我们描述了一组扩展的工具,以捕获随机BT的行为,其中动作的结果由概率描述。这些工具可以计算成功概率和完成时间。
translated by 谷歌翻译
新一代网络威胁的兴起要求更复杂和智能的网络防御解决方案,配备了能够学习在没有人力专家知识的情况下做出决策的自治代理。近年来提出了用于自动网络入侵任务的几种强化学习方法(例如,马尔可夫)。在本文中,我们介绍了一种新一代的网络入侵检测方法,将基于Q学习的增强学习与用于网络入侵检测的深馈前神经网络方法相结合。我们提出的深度Q-Learning(DQL)模型为网络环境提供了正在进行的自动学习能力,该网络环境可以使用自动试验误差方法检测不同类型的网络入侵,并连续增强其检测能力。我们提供涉及DQL模型的微调不同的超参数的细节,以获得更有效的自学。根据我们基于NSL-KDD数据集的广泛实验结果,我们确认折扣因子在250次训练中设定为0.001,产生了最佳的性能结果。我们的实验结果还表明,我们所提出的DQL在检测不同的入侵课程和优于其他类似的机器学习方法方面的高度有效。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
This paper surveys the recent attempts, both from the machine learning and operations research communities, at leveraging machine learning to solve combinatorial optimization problems. Given the hard nature of these problems, state-of-the-art algorithms rely on handcrafted heuristics for making decisions that are otherwise too expensive to compute or mathematically not well defined. Thus, machine learning looks like a natural candidate to make such decisions in a more principled and optimized way. We advocate for pushing further the integration of machine learning and combinatorial optimization and detail a methodology to do so. A main point of the paper is seeing generic optimization problems as data points and inquiring what is the relevant distribution of problems to use for learning on a given task.
translated by 谷歌翻译