本文研究了深入的增强学习(DRL),以解决多个无人驾驶汽车(UAV)的任务调度问题。当前的方法通常使用精确的启发式算法来解决该问题,而随着任务量表的增长,计算时间迅速增加,并且启发式规则需要手动设计。作为一种自学方法,DRL可以在没有手工设计的规则的情况下快速获得高质量的解决方案。但是,巨大的决策空间使得在大规模任务的情况下,对DRL模型的培训变得不稳定。在这项工作中,为了解决大规模的问题,我们开发了一个基于鸿沟和征服的框架(DCF),以将原始问题与任务分配和无人机路由计划子问题分配,并在上层和下层解决,分别。基于DCF,提出了双层深钢筋学习方法(DL-DRL),其中高层DRL模型被设计为将任务分配给适当的无人机和下层DRL模型[即广泛使用的注意力模型(AM)]应用于生成可行的无人机路由。由于上层模型确定了低层模型的输入数据分布,并且在培训期间通过低层模型计算其奖励,因此我们制定了交互式训练策略(ITS),其中整个训练过程由PRE组成 - 培训,强化培训和替代培训过程。实验结果表明,我们的DL-DRL胜过基于主流学习和大多数传统方法的主体,并且与最新的启发式方法[即OR-Tools]具有竞争力,尤其是在大规模问题上。通过测试针对较大较大的模型学习的模型,还可以验证DL-DRL的巨大概括性。此外,一项消融研究表明,我们的它可以达到模型性能和训练持续时间之间的妥协。
translated by 谷歌翻译
多目标定向运动问题(MO-OPS)是经典的多目标路由问题,在过去几十年中,人们一直受到很多关注。这项研究旨在通过问题分解框架解决MO-OPS,即MO-OP分解为多目标背包问题(MOKP)和旅行推销员问题(TSP)。然后,MOKP和TSP分别通过多目标进化算法(MOEA)和深钢筋学习(DRL)方法来解决。虽然MOEA模块用于选择城市,但DRL模块用于计划这些城市的哈密顿路径。这两个模块的迭代使用将人口驱动到Mo-ops的帕累托前沿。在各种类型的MO-OP实例上,将提出方法的有效性与NSGA-II和NSGA-III进行了比较。实验结果表明,我们的方法几乎在所有测试实例上表现出最佳性能,并且表现出强大的概括能力。
translated by 谷歌翻译
雇用无人驾驶航空公司(无人机)吸引了日益增长的兴趣,并成为互联网(物联网)网络中的数据收集技术的最先进技术。在本文中,目的是最大限度地减少UAV-IOT系统的总能耗,我们制定了联合设计了UAV的轨迹和选择IOT网络中的群集头作为受约束的组合优化问题的问题,该问题被归类为NP-努力解决。我们提出了一种新的深度加强学习(DRL),其具有顺序模型策略,可以通过无监督方式有效地学习由UAV的轨迹设计来实现由序列到序列神经网络表示的策略。通过广泛的模拟,所获得的结果表明,与其他基线算法相比,所提出的DRL方法可以找到无人机的轨迹,这些轨迹需要更少的能量消耗,并实现近乎最佳性能。此外,仿真结果表明,我们所提出的DRL算法的训练模型具有出色的概括能力,对更大的问题尺寸而没有必要恢复模型。
translated by 谷歌翻译
我们建议一个基于深入强化学习的经理工作框架,以解决旅行推销员问题(TSP)的艰难而又非平凡的变体,\ ie〜有时间窗口和拒绝(MTSPTWR)的多车辆TSP(MTSPTWR),在此之前无法服务的客户截止日期将受到拒绝。特别是,在拟议的框架中,经理代理人通过基于图形同构网络(GIN)的策略网络将客户分配给每辆车,从而将MTSPTWR分为子路由任务。工人代理人通过根据每辆车的旅行长度和拒绝率来最大程度地降低成本来解决子路由任务,然后将其最多的最大值送回经理代理以学习更好的任务。实验结果表明,所提出的框架在更高的解决方案质量和较短的计算时间方面优于强基础。更重要的是,训练有素的代理商还取得了竞争性能,以解决看不见的较大实例。
translated by 谷歌翻译
In many domains such as transportation and logistics, search and rescue, or cooperative surveillance, tasks are pending to be allocated with the consideration of possible execution uncertainties. Existing task coordination algorithms either ignore the stochastic process or suffer from the computational intensity. Taking advantage of the weakly coupled feature of the problem and the opportunity for coordination in advance, we propose a decentralized auction-based coordination strategy using a newly formulated score function which is generated by forming the problem into task-constrained Markov decision processes (MDPs). The proposed method guarantees convergence and at least 50% optimality in the premise of a submodular reward function. Furthermore, for the implementation on large-scale applications, an approximate variant of the proposed method, namely Deep Auction, is also suggested with the use of neural networks, which is evasive of the troublesome for constructing MDPs. Inspired by the well-known actor-critic architecture, two Transformers are used to map observations to action probabilities and cumulative rewards respectively. Finally, we demonstrate the performance of the two proposed approaches in the context of drone deliveries, where the stochastic planning for the drone league is cast into a stochastic price-collecting Vehicle Routing Problem (VRP) with time windows. Simulation results are compared with state-of-the-art methods in terms of solution quality, planning efficiency and scalability.
translated by 谷歌翻译
物流运营商最近提出了一项技术,可以帮助降低城市货运分销中的交通拥堵和运营成本,最近提出了移动包裹储物柜(MPLS)。鉴于他们能够在整个部署领域搬迁,因此他们具有提高客户可访问性和便利性的潜力。在这项研究中,我们制定了移动包裹储物柜问题(MPLP),这是位置路由问题(LRP)的特殊情况,该案例确定了整天MPL的最佳中途停留位置以及计划相应的交付路线。开发了基于混合Q学习网络的方法(HQM),以解决所得大问题实例的计算复杂性,同时逃脱了本地Optima。此外,HQM与全球和局部搜索机制集成在一起,以解决经典强化学习(RL)方法所面临的探索和剥削困境。我们检查了HQM在不同问题大小(最多200个节点)下的性能,并根据遗传算法(GA)进行了基准测试。我们的结果表明,HQM获得的平均奖励比GA高1.96倍,这表明HQM具有更好的优化能力。最后,我们确定有助于车队规模要求,旅行距离和服务延迟的关键因素。我们的发现概述了MPL的效率主要取决于时间窗口的长度和MPL中断的部署。
translated by 谷歌翻译
钢筋学习最近在许多组合优化问题中显示了学习质量解决方案的承诺。特别地,基于注意的编码器 - 解码器模型在各种路由问题上显示出高效率,包括旅行推销员问题(TSP)。不幸的是,它们对具有无人机(TSP-D)的TSP表现不佳,需要在协调中路由车辆的异构队列 - 卡车和无人机。在TSP-D中,这两个车辆正在串联移动,并且可能需要在用于其他车辆的节点上等待加入。不那么关注的基于关注的解码器无法在车辆之间进行这种协调。我们提出了一种注意力编码器-LSTM解码器混合模型,其中解码器的隐藏状态可以代表所做的动作序列。我们经验证明,这种混合模型可提高基于纯粹的关注的模型,用于解决方案质量和计算效率。我们对MIN-MAX电容车辆路由问题(MMCVRP)的实验还确认混合模型更适合于多车辆的协调路由而不是基于注意的模型。
translated by 谷歌翻译
最近的研究表明,神经组合优化(NCO)在许多组合优化问题(如路由)中具有优于传统算法的优点,但是对于涉及相互条件的动作空间的包装,诸如打包的更加复杂的优化任务的效率较低。在本文中,我们提出了一种经常性的条件查询学习(RCQL)方法来解决2D和3D包装问题。我们首先通过经常性编码器嵌入状态,然后采用先前操作的条件查询注意。条件查询机制填充了学习步骤之间的信息差距,将问题塑造为Markov决策过程。从复发中受益,单个RCQL模型能够处理不同尺寸的包装问题。实验结果表明,RCQL可以有效地学习用于离线和在线条带包装问题(SPP)的强烈启发式,优于空间利用率范围广泛的基线。 RCQL与最先进的方法相比,在离线2D 40盒案例中将平均箱间隙比率降低1.83%,3.84%。同时,我们的方法还实现了5.64%的空间利用率,对于1000件物品的空间利用率比现有技术更高。
translated by 谷歌翻译
Unmanned aerial vehicle (UAV) swarms are considered as a promising technique for next-generation communication networks due to their flexibility, mobility, low cost, and the ability to collaboratively and autonomously provide services. Distributed learning (DL) enables UAV swarms to intelligently provide communication services, multi-directional remote surveillance, and target tracking. In this survey, we first introduce several popular DL algorithms such as federated learning (FL), multi-agent Reinforcement Learning (MARL), distributed inference, and split learning, and present a comprehensive overview of their applications for UAV swarms, such as trajectory design, power control, wireless resource allocation, user assignment, perception, and satellite communications. Then, we present several state-of-the-art applications of UAV swarms in wireless communication systems, such us reconfigurable intelligent surface (RIS), virtual reality (VR), semantic communications, and discuss the problems and challenges that DL-enabled UAV swarms can solve in these applications. Finally, we describe open problems of using DL in UAV swarms and future research directions of DL enabled UAV swarms. In summary, this survey provides a comprehensive survey of various DL applications for UAV swarms in extensive scenarios.
translated by 谷歌翻译
多个旅行推销员问题(MTSP)是众多现实世界应用的众所周知的NP硬性问题。特别是,这项工作涉及Minmax MTSP,其目的是最大程度地减少所有代理商之间的最大巡回演出长度。许多机器人部署需要经常重新计算潜在的大型MTSP实例,从而使计算时间和解决方案质量的自然权衡非常重要。但是,由于其计算复杂性,精确和启发式算法随着城市数量的增加而效率低下。在最新的深入学习学习(DRL)方面的鼓励下,这项工作将MTSP作为一项合作任务,并引入了Dan,Dan是一种分散的基于注意力的神经方法,旨在解决这一关键权衡。在丹中,代理商通过预测彼此的未来决策来学习完全分散的政策,以合作构建巡回演出。我们的模型依赖于变压器体系结构,并使用具有参数共享的多代理RL进行了训练,从而为代理和城市的数量提供了自然的可扩展性。我们对小型至大规模MTSP实例的实验结果($ 50至$ 1000 $的城市,$ 5 $至20美元的代理商)表明,Dan能够匹配或超越最先进的求解器,同时保持计划时间较低。特别是,在相同的计算时间预算的情况下,DAN在大规模实例(超过100个城市,超过5个代理商)上优于所有基于常规和DRL的基线,并展示了增强的代理协作。一段视频解释了我们的方法并介绍了我们的结果,请参见\ url {https://youtu.be/xi3clsdslvs}。
translated by 谷歌翻译
动态作业车间调度问题(DJSP)是一类是专门考虑固有的不确定性,如切换顺序要求和现实的智能制造的设置可能机器故障调度任务。因为传统方法不能动态生成环境的扰动面有效调度策略,我们制定DJSP马尔可夫决策过程(MDP)通过强化学习(RL)加以解决。为此,我们提出了一个灵活的混合架构,采用析取图的状态和一组通用的调度规则与之前最小的领域知识的行动空间。注意机制被用作状态的特征提取的图形表示学习(GRL)模块,并且采用双决斗深Q-网络与优先重放和嘈杂的网络(D3QPN)到每个状态映射到最适当的调度规则。此外,我们提出Gymjsp,基于众所周知的或图书馆公共标杆,提供了RL和DJSP研究社区标准化现成的现成工具。各种DJSP实例综合实验证实,我们提出的框架是优于基准算法可在所有情况下,较小的完工时间,并提供了在混合架构的各个组成部分的有效性实证理由。
translated by 谷歌翻译
回溯搜索算法通常用于解决约束满足问题(CSP)。回溯搜索的效率在很大程度上取决于可变排序启发式。目前,最常用的启发式是根据专家知识进行手工制作的。在本文中,我们提出了一种基于深度的加强学习方法,可以自动发现新的变量订购启发式,更好地适用于给定类CSP实例。我们显示,直接优化搜索成本很难用于自动启动,并建议优化在搜索树中到达叶节点的预期成本。为了捕获变量和约束之间的复杂关系,我们设计基于图形神经网络的表示方案,可以处理具有不同大小和约束的CSP实例。随机CSP实例上的实验结果表明,学习的政策在最小化搜索树大小的方面优于古典手工制作的启发式,并且可以有效地推广到比训练中使用的实例。
translated by 谷歌翻译
Influence Maximization (IM) is a classical combinatorial optimization problem, which can be widely used in mobile networks, social computing, and recommendation systems. It aims at selecting a small number of users such that maximizing the influence spread across the online social network. Because of its potential commercial and academic value, there are a lot of researchers focusing on studying the IM problem from different perspectives. The main challenge comes from the NP-hardness of the IM problem and \#P-hardness of estimating the influence spread, thus traditional algorithms for overcoming them can be categorized into two classes: heuristic algorithms and approximation algorithms. However, there is no theoretical guarantee for heuristic algorithms, and the theoretical design is close to the limit. Therefore, it is almost impossible to further optimize and improve their performance. With the rapid development of artificial intelligence, the technology based on Machine Learning (ML) has achieved remarkable achievements in many fields. In view of this, in recent years, a number of new methods have emerged to solve combinatorial optimization problems by using ML-based techniques. These methods have the advantages of fast solving speed and strong generalization ability to unknown graphs, which provide a brand-new direction for solving combinatorial optimization problems. Therefore, we abandon the traditional algorithms based on iterative search and review the recent development of ML-based methods, especially Deep Reinforcement Learning, to solve the IM problem and other variants in social networks. We focus on summarizing the relevant background knowledge, basic principles, common methods, and applied research. Finally, the challenges that need to be solved urgently in future IM research are pointed out.
translated by 谷歌翻译
机器学习(ML)方法已成为解决车辆路由问题的有用工具,可以与流行的启发式方法或独立模型结合使用。但是,当解决不同大小或不同分布的问题时,当前的方法的概括不佳。结果,车辆路由中的ML见证了一个扩展阶段,为特定问题实例创建了新方法,这些方法在较大的问题大小上变得不可行。本文旨在通过理解和改善当前现有模型,即Kool等人的注意模型来鼓励该领域的整合。我们确定了VRP概括的两个差异类别。第一个是基于问题本身固有的差异,第二个与限制模型概括能力的建筑弱点有关。我们的贡献变成了三倍:我们首先通过适应Kool等人来靶向模型差异。方法及其基于alpha-entmax激活的稀疏动态注意力的损耗函数。然后,我们通过使用混合实例训练方法来靶向固有的差异,该方法已被证明在某些情况下超过了单个实例培训。最后,我们介绍了推理水平数据增强的框架,该框架通过利用模型缺乏旋转和扩张变化的不变性来提高性能。
translated by 谷歌翻译
深度强化学习(DRL)赋予了各种人工智能领域,包括模式识别,机器人技术,推荐系统和游戏。同样,图神经网络(GNN)也证明了它们在图形结构数据的监督学习方面的出色表现。最近,GNN与DRL用于图形结构环境的融合引起了很多关注。本文对这些混合动力作品进行了全面评论。这些作品可以分为两类:(1)算法增强,其中DRL和GNN相互补充以获得更好的实用性; (2)特定于应用程序的增强,其中DRL和GNN相互支持。这种融合有效地解决了工程和生命科学方面的各种复杂问题。基于审查,我们进一步分析了融合这两个领域的适用性和好处,尤其是在提高通用性和降低计算复杂性方面。最后,集成DRL和GNN的关键挑战以及潜在的未来研究方向被突出显示,这将引起更广泛的机器学习社区的关注。
translated by 谷歌翻译
事件处理是动态和响应互联网(物联网)的基石。该领域的最近方法基于代表性状态转移(REST)原则,其允许将事件处理任务放置在遵循相同原理的任何设备上。但是,任务应在边缘设备之间正确分布,以确保公平资源利用率和保证无缝执行。本文调查了深入学习的使用,以公平分配任务。提出了一种基于关注的神经网络模型,在不同场景下产生有效的负载平衡解决方案。所提出的模型基于变压器和指针网络架构,并通过Advantage演员批评批评学习算法训练。该模型旨在缩放到事件处理任务的数量和边缘设备的数量,不需要重新调整甚至再刷新。广泛的实验结果表明,拟议的模型在许多关键绩效指标中优于传统的启发式。通用设计和所获得的结果表明,所提出的模型可能适用于几个其他负载平衡问题变化,这使得该提案是由于其可扩展性和效率而在现实世界场景中使用的有吸引力的选择。
translated by 谷歌翻译
未来的互联网涉及几种新兴技术,例如5G和5G网络,车辆网络,无人机(UAV)网络和物联网(IOT)。此外,未来的互联网变得异质并分散了许多相关网络实体。每个实体可能需要做出本地决定,以在动态和不确定的网络环境下改善网络性能。最近使用标准学习算法,例如单药强化学习(RL)或深入强化学习(DRL),以使每个网络实体作为代理人通过与未知环境进行互动来自适应地学习最佳决策策略。但是,这种算法未能对网络实体之间的合作或竞争进行建模,而只是将其他实体视为可能导致非平稳性问题的环境的一部分。多机构增强学习(MARL)允许每个网络实体不仅观察环境,还可以观察其他实体的政策来学习其最佳政策。结果,MAL可以显着提高网络实体的学习效率,并且最近已用于解决新兴网络中的各种问题。在本文中,我们因此回顾了MAL在新兴网络中的应用。特别是,我们提供了MARL的教程,以及对MARL在下一代互联网中的应用进行全面调查。特别是,我们首先介绍单代机Agent RL和MARL。然后,我们回顾了MAL在未来互联网中解决新兴问题的许多应用程序。这些问题包括网络访问,传输电源控制,计算卸载,内容缓存,数据包路由,无人机网络的轨迹设计以及网络安全问题。
translated by 谷歌翻译
我们提出了一种有效的神经邻域搜索(N2S),以解决取货和交付问题(PDPS)。具体而言,我们设计了强大的综合注意力,可以使香草自我注意力综合有关路线解决方案的各种特征。我们还利用了两个自定义的解码器,它们会自动学习执行拾取节点对的删除和重新插入以应对优先限制。此外,利用多样性增强方案以进一步改善性能。我们的N2是通用的,并且对两个规范PDP变体进行了广泛的实验表明,它可以在现有神经方法之间产生最新的结果。此外,它甚至超过了众所周知的LKH3求解器在更受限的PDP变体上。我们针对N2S的实施可在线获得。
translated by 谷歌翻译
这项工作通过调整适合常规TSP的最新方法,使用深入的加固学习(DRL)提出了使用优先限制(TSPPC)的解决方案。这些方法共有的是基于多头注意(MHA)层的图形模型的使用。解决拾取和交付问题(PDP)的一个想法是使用异质注意来嵌入每个节点可以扮演的不同可能的角色。在这项工作中,我们将这种异质注意的概念推广到TSPPC。此外,我们适应了最近的想法,以使注意力稀疏以获得更好的可扩展性。总体而言,我们通过对解决TSPPC的最新DRL方法的应用和评估为研究界做出了贡献。
translated by 谷歌翻译
草原修复是保护草原生态退化的关键手段。为了减轻广泛的人类劳动并提高了恢复效率,无人机的全自动能力很有希望,但仍在等待被利用。本文通过在计划草地修复时明确考虑了无人机和草地退化的现实限制来推动这项新兴技术。为此,在有限的无人机电池能量,草种子的重量,恢复区域的数量以及相应的尺寸下,在数学上以数学建模为数学建模。然后,我们分析了这些原始问题通过考虑这些限制,即最短的飞行路径和最佳区域分配出现了两个冲突目标。结果,恢复区域的最大化是轨迹设计问题和高度耦合区域分配问题的综合。从优化的角度来看,这需要解决旅行推销员问题(TSP)和多维背包问题(MKP)的两个NP硬问题。为了解决这个复杂的问题,我们提出了一种称为Chapbilm的合作优化算法,以通过利用它们之间的相互依赖性来交入解决这两个问题。多个模拟验证轨迹设计与区域分配之间的冲突。合作优化算法的有效性也得到了与传统优化方法的比较,这些方法不利用两个问题之间的相互依赖性。结果,提出的算法以近乎理想的方式成功地解决了多个仿真实例。
translated by 谷歌翻译