自从各种任务的自动化开始以来,自动驾驶车辆一直引起人们的兴趣。人类容易疲惫,在道路上的响应时间缓慢,最重要的是,每年约有135万道路交通事故死亡,这已经是一项危险的任务。预计自动驾驶可以减少世界上驾驶事故的数量,这就是为什么这个问题对研究人员感兴趣的原因。目前,自动驾驶汽车在使车辆自动驾驶时使用不同的算法来实现各种子问题。我们将重点关注增强学习算法,更具体地说是Q学习算法和增强拓扑的神经进化(NEAT),即进化算法和人工神经网络的组合,以训练模型代理,以学习如何在给定路径上驱动。本文将重点介绍上述两种算法之间的比较。
translated by 谷歌翻译
最近被证明在强化学习(RL)设置中显示出的神经形式非常竞争,并且能够减轻基于梯度的方法的一些缺点。本文将专注于使用简单的遗传算法(GA)来应用神经发展,以找到产生最佳表现代理的神经网络的权重。此外,我们提出了两种新颖的修改,以提高与初始实施相比的数据效率和收敛速度。在Openai健身房提供的汇聚环境中评估了修改,并证明明显优于基线方法。
translated by 谷歌翻译
十多年来,机器人技术和人造代理的使用已成为普遍的事物。测试新路径查找或搜索空间优化算法的性能也已成为挑战,因为它们需要模拟或环境来测试它们。具有人造代理的人工环境是测试这种算法的方法之一。游戏也已成为测试它们的环境。可以通过使用将根据环境中的算法来比较这些算法的性能提出。性能参数可以是,代理商能够在奖励行动和敌对行动之间区分多快。可以通过将代理放置在具有不同类型障碍的环境中,而代理的目标是达到最远的通过决定将避免所有障碍的行动做出决定。选择的环境是一种称为“脆弱鸟”的游戏。 E游戏是要使鸟飞过一组随机高度的管道。鸟必须在这些管道之间进行,并且不能击中顶部,底部或管道本身。在人造药物上强制执行的算法是增强拓扑的神经进化(整洁)和增强学习的算法。整洁的算法采用人工的初始群体,这些算法遵循遗传算法,请遵循“ n n”初始算法。一个目标功能,交叉,突变和增强拓扑结构。另一方面,提升方形学习记得状态,在该状态下采取的行动以及使用单个代理和深层学习网络采取的行动获得的奖励随着人造药物的初始种群的增加,整洁算法的性能不断提高。
translated by 谷歌翻译
在过去的十年中,深入的强化学习(DRL)算法已经越来越多地使用,以解决各种决策问题,例如自动驾驶和机器人技术。但是,这些算法在部署在安全至关重要的环境中时面临着巨大的挑战,因为它们经常表现出错误的行为,可能导致潜在的关键错误。评估DRL代理的安全性的一种方法是测试它们,以检测可能导致执行过程中严重失败的故障。这就提出了一个问题,即我们如何有效测试DRL政策以确保其正确性和遵守安全要求。测试DRL代理的大多数现有作品都使用扰动代理的对抗性攻击。但是,这种攻击通常会导致环境的不切实际状态。他们的主要目标是测试DRL代理的鲁棒性,而不是测试代理商在要求方面的合规性。由于DRL环境的巨大状态空间,测试执行的高成本以及DRL算法的黑盒性质,因此不可能对DRL代理进行详尽的测试。在本文中,我们提出了一种基于搜索的强化学习代理(Starla)的测试方法,以通过有效地在有限的测试预算中寻找无法执行的代理执行,以测试DRL代理的策略。我们使用机器学习模型和专用的遗传算法来缩小搜索错误的搜索。我们将Starla应用于深Q学习剂,该Qualla被广泛用作基准测试,并表明它通过检测到与代理商策略相关的更多故障来大大优于随机测试。我们还研究了如何使用我们的搜索结果提取表征DRL代理的错误事件的规则。这些规则可用于了解代理失败的条件,从而评估其部署风险。
translated by 谷歌翻译
同时发展机器人的形态(体)和控制器(大脑)可能导致后代遗传体和大脑之间的不匹配。为了缓解这个问题,相对较早地提出了通过所谓的生活框架的所谓的生命框架的学习期。但是,实证评估仍缺乏迄今为止。在本文中,我们研究了这种学习机制与不同视角的影响。使用广泛的模拟,我们认为,与纯粹的进化方法相比,学习可以大大提高任务性能并减少一定适合水平所需的几代人数。此外,虽然学习只直接影响控制器,但我们证明了进化的形态也将是不同的。这提供了定量演示,即大脑的变化可以诱导体内的变化。最后,我们研究了给定体学习的能力量化的形态智力的概念。我们观察到学习三角洲,继承与学习大脑之间的性能差异,在整个进化过程中都在增长。这表明演化正在生产具有越来越多的可塑性的机器人,即连续几代变得越来越好,更好的学习者,这反过来使它们更好,在给定的任务中更好地更好。总而言之,我们的结果表明,生活的三角形不仅是理论兴趣的概念,而且是一种具有实际好处的系统架构。
translated by 谷歌翻译
When simulating soft robots, both their morphology and their controllers play important roles in task performance. This paper introduces a new method to co-evolve these two components in the same process. We do that by using the hyperNEAT algorithm to generate two separate neural networks in one pass, one responsible for the design of the robot body structure and the other for the control of the robot. The key difference between our method and most existing approaches is that it does not treat the development of the morphology and the controller as separate processes. Similar to nature, our method derives both the "brain" and the "body" of an agent from a single genome and develops them together. While our approach is more realistic and doesn't require an arbitrary separation of processes during evolution, it also makes the problem more complex because the search space for this single genome becomes larger and any mutation to the genome affects "brain" and the "body" at the same time. Additionally, we present a new speciation function that takes into consideration both the genotypic distance, as is the standard for NEAT, and the similarity between robot bodies. By using this function, agents with very different bodies are more likely to be in different species, this allows robots with different morphologies to have more specialized controllers since they won't crossover with other robots that are too different from them. We evaluate the presented methods on four tasks and observe that even if the search space was larger, having a single genome makes the evolution process converge faster when compared to having separated genomes for body and control. The agents in our population also show morphologies with a high degree of regularity and controllers capable of coordinating the voxels to produce the necessary movements.
translated by 谷歌翻译
本文介绍了一种“混合自我注意整洁”方法,以改善高维输入中增强拓扑(整洁)算法的原始神经发展。虽然整洁的算法显示出在不同具有挑战性的任务中的显着结果,但由于输入表示是高维度,但它无法创建一个良好的调谐网络。我们的研究通过使用自我关注作为间接编码方法来解决此限制,以选择输入的最重要部分。此外,我们在混合方法的帮助下提高了整体性能,以发展最终网络权重。主要结论是混合自我关注整洁可以消除原始整洁的限制。结果表明,与进化算法相比,我们的模型可以在ATARI游戏中获得与原始像素输入的可比分数,其中参数数量较少。
translated by 谷歌翻译
基于搜索的程序内容生成(PCG)是一种众所周知的方法,用于游戏中的水平生成。它的主要优势是它是通用且能够满足功能约束的能力。但是,由于在线运行这些算法的大量计算成本,因此很少将基于搜索的PCG用于实时生成。在本文中,我们使用机器学习介绍了一种新型的迭代级生成器。我们训练模型以模仿进化过程,并使用模型生成水平。该训练有素的模型能够顺序修改嘈杂的水平,以创建更好的水平,而无需在推理过程中使用健身函数。我们在2D迷宫生成任务上评估了训练有素的模型。我们比较了该方法的几个不同版本:在进化结束时训练模型或每100代(辅助进化),并在进化过程中使用模型作为突变函数。使用辅助进化过程,最终训练的模型能够以99%的成功率产生迷宫,高度多样性为86%。这项工作为以进化过程为指导的一种新的学习水平生成器打开了大门,并可能会增加游戏行业中基于搜索的PCG的采用。
translated by 谷歌翻译
进化计算(EC)已被证明能够快速训练深人造神经网络(DNNS)来解决增强学习(RL)问题。虽然遗传算法(GA)非常适合利用既不具有欺骗性也不稀疏的奖励功能,但当奖励函数是这些功能时,它会挣扎。为此,在某些情况下,新颖的搜索(NS)已被证明能够超越梯度跟随优化器,而在其他情况下则表现不佳。我们提出了一种新算法:探索 - 探索$ \ gamma $ - 适应学习者($ e^2 \ gamma al $或eyal)。通过保留动态大小的寻求新颖的代理商的利基市场,该算法可以维持人口多样性,并在可能的情况下利用奖励信号并探索其他奖励信号。该算法将GA的剥削能力和NS的勘探能力结合在一起,同时保持其简单性和优雅性。我们的实验表明,在大多数情况下,Eyal在与GA相当的情况下都胜过NS - 在某些情况下,它可以均优于两者。 Eyal还允许用其他算法(例如演化策略和惊喜搜索)代替利用组件(GA)和探索组件(NS)(NS),从而为未来的研究打开了大门。
translated by 谷歌翻译
在这项工作中,我们认为寻找人工通用智能(AGI)应该从比人类水平的智能低得多的水平开始。自然界中智能行为的环境是由于有机体与周围环境相互作用的情况,这种环境可能会随着时间的流逝而改变,并对有机体施加压力,以便学习新的行为或环境模型。我们的假设是,学习是通过解释代理在环境中作用时的感觉反馈而发生的。为此,需要一个身体和反应性环境。我们评估了一种进化生物学启发的人工神经网络的方法,该神经网络从名为“人工通用智能的神经进化”(Nagi)的环境反应中学习,这是一个低水平AGI的框架。该方法允许使用自适应突触的随机启用尖峰神经网络的进化络合,该神经网络控制在可变环境中实例化的代理。这种配置使我们能够基准基准控制器的适应性和通用性。可变环境中所选的任务是食品觅食,逻辑门的仿真和卡特杆平衡。这三个任务通过相当小的网络拓扑成功解决,因此,它打开了实验更复杂的任务和方案的可能性,其中课程学习是有益的。
translated by 谷歌翻译
演员 - 评论家(AC)算法以求解钢筋学习问题而闻名,但它们也遭受了低采样效率。基于AC的策略优化过程是迭代的,并且需要经常访问代理环境系统来通过推出策略,收集奖励和状态(即样本)来评估和更新策略,并从中学习。它最终需要大量的样本来学习最佳政策。为了提高采样效率,我们提出了一种策略来优化培训数据集,该数据集含有从AC过程中收集的显着较少的样本。数据集优化由仅限最佳剧集操作,策略参数 - 健身模型和遗传算法模块。与控制自主动态系统的许多当代AC算法相比,由优化的训练数据集训练的最佳策略网络表现出优越的性能。标准基准测试的评估表明,该方法提高了采样效率,可确保更快地收敛到Optima,并且比其对应物更具数据效率。
translated by 谷歌翻译
本文介绍了更深层的扩展版本,这是一种基于搜索的仿真集成测试解决方案,该解决方案生成了用于测试基于神经网络的巷道式泳道系统的检测失败测试方案。在新提出的版本中,我们使用了一组新的生物启发的搜索算法,遗传算法(GA),$({\ mu}+{\ lambda})$和$({\ mu},{\ mu},{\ lambda}),{\ lambda}) $进化策略(ES)和粒子群优化(PSO),利用了针对用于对测试场景进行建模的演示模型量身定制的优质人口种子和特定于域的交叉和突变操作。为了证明更深层次的新测试生成器的功能,我们就SBST 2021的网络物理系统测试竞赛中的五个参与工具进行了经验评估和比较。我们的评估显示了新提出的测试更深层次的发电机不仅代表了先前版本的可观改进,而且还被证明是有效和有效地引发相当数量的不同故障的测试方案,用于测试ML驱动的车道保存系统。在有限的测试时间预算,高目标故障严重性和严格的速度限制限制下,它们可以在促进测试方案多样性的同时触发几次失败。
translated by 谷歌翻译
由于交通环境的复杂性和波动性,自主驾驶中的决策是一个显着难的问题。在这个项目中,我们使用深度Q-network,以及基于规则的限制来使车道变化的决定。可以通过将高级横向决策与基于低级规则的轨迹监视相结合来获得安全高效的车道改变行为。预计该代理商在培训中,在实际的UDAcity模拟器中进行了适当的车道更换操作,总共100次发作。结果表明,基于规则的DQN比DQN方法更好地执行。基于规则的DQN达到0.8的安全速率和47英里/小时的平均速度
translated by 谷歌翻译
本文探讨了强化学习(RL)模型用于自动赛车的使用。与安全车是头等大事的乘用车相反,赛车的目的是最大程度地减少单圈时间。我们将问题视为一项强化学习任务,其中包括由车辆遥测组成的多维输入和连续的动作空间。为了找出哪种RL方法更好地解决了问题,以及获得的模型是否推广到未知轨道上,我们将10种深层确定性策略梯度(DDPG)变体进行了两个实验:i)〜研究RL方法如何学习驱动驱动赛车和ii)研究学习方案如何影响模型的推广能力。我们的研究表明,接受RL训练的模型不仅能够比基线开源手工机器人更快地驾驶,而且还可以推广到未知轨道。
translated by 谷歌翻译
参数适应性,即根据面临的问题自动调整算法的超参数的能力,是应用于数值优化的进化计算的主要趋势之一。多年来,已经提出了一些手工制作的适应政策来解决这个问题,但到目前为止,在应用机器学习以学习此类政策时,只有很少的尝试。在这里,我们介绍了一个通用框架,用于基于最新的增强学习算法在连续域元启发术中进行参数适应。我们证明了该框架在两种算法上的适用性,即协方差矩阵适应性进化策略(CMA-ES)和差异演化(DE),我们分别学习,我们分别学习了对阶梯大小(CMA-ES),CMA-ES的适应性策略,以及比例因子和交叉率(DE)。我们在不同维度的一组46个基准函数上训练这些策略,在两个设置中具有各种策略的投入:每个功能的一个策略,以及所有功能的全局策略。将分别与累积的阶梯尺寸适应(CSA)策略和两个众所周知的自适应DE变体(IDE和JDE)进行了比较,我们的政策能够在大多数情况下产生竞争成果,尤其是在DE的情况下。
translated by 谷歌翻译
在人类中,感知意识促进了来自感官输入的快速识别和提取信息。这种意识在很大程度上取决于人类代理人如何与环境相互作用。在这项工作中,我们提出了主动神经生成编码,用于学习动作驱动的生成模型的计算框架,而不会在动态环境中反正出错误(Backprop)。具体而言,我们开发了一种智能代理,即使具有稀疏奖励,也可以从规划的认知理论中汲取灵感。我们展示了我们框架与深度Q学习竞争力的几个简单的控制问题。我们的代理的强劲表现提供了有希望的证据,即神经推断和学习的无背方法可以推动目标定向行为。
translated by 谷歌翻译
为了协助游戏开发人员制作游戏NPC,我们展示了EvolvingBehavior,这是一种新颖的工具,用于基因编程,以在不真实的引擎4中发展行为树4.在初步评估中,我们将演变的行为与我们的研究人员设计的手工制作的树木和随机的树木进行了比较 - 在3D生存游戏中种植的树木。我们发现,在这种情况下,EvolvingBehavior能够产生行为,以实现设计师的目标。最后,我们讨论了共同创造游戏AI设计工具的探索的含义和未来途径,以及行为树进化的挑战和困难。
translated by 谷歌翻译
深度加强学习(DEEPRL)方法已广泛用于机器人学,以了解环境,自主获取行为。深度互动强化学习(Deepirl)包括来自外部培训师或专家的互动反馈,提供建议,帮助学习者选择采取行动以加快学习过程。但是,目前的研究仅限于仅为特工现任提供可操作建议的互动。另外,在单个使用之后,代理丢弃该信息,该用途在为Revisit以相同状态引起重复过程。在本文中,我们提出了广泛的建议(BPA),这是一种广泛的持久的咨询方法,可以保留并重新使用加工信息。它不仅可以帮助培训师提供与类似状态相关的更一般性建议,而不是仅仅是当前状态,而且还允许代理加快学习过程。我们在两个连续机器人场景中测试提出的方法,即购物车极衡任务和模拟机器人导航任务。所得结果表明,使用BPA的代理的性能在于与深层方法相比保持培训师所需的相互作用的数量。
translated by 谷歌翻译
自动化驾驶系统(ADSS)近年来迅速进展。为确保这些系统的安全性和可靠性,在未来的群心部署之前正在进行广泛的测试。测试道路上的系统是最接近真实世界和理想的方法,但它非常昂贵。此外,使用此类现实世界测试覆盖稀有角案件是不可行的。因此,一种流行的替代方案是在一些设计精心设计的具有挑战性场景中评估广告的性能,A.k.a.基于场景的测试。高保真模拟器已广泛用于此设置中,以最大限度地提高测试的灵活性和便利性 - 如果发生的情况。虽然已经提出了许多作品,但为测试特定系统提供了各种框架/方法,但这些作品之间的比较和连接仍然缺失。为了弥合这一差距,在这项工作中,我们在高保真仿真中提供了基于场景的测试的通用制定,并对现有工作进行了文献综述。我们进一步比较了它们并呈现开放挑战以及潜在的未来研究方向。
translated by 谷歌翻译
最近,我们强调了一个基本问题,该问题被认为是混淆算法优化的,即\ textit {Confing}与目标函数的目标。即使前者的定义很好,后者也可能并不明显,例如,在学习一种策略来导航迷宫以找到目标(客观)时,有效的目标函数\ textit {评估}策略可能不是一个简单的功能到目标的距离。我们建议自动化可能发现良好的目标功能的手段 - 此处得到的建议。我们提出\ textbf {s} iolution \ textbf {a} nd \ textbf {f} itness \ textbf {e} volution(\ textbf {safe}),a \ textit {comensalistic} coovolutionary algorithm候选解决方案和一系列候选目标功能。作为此概念原理的证明,我们表明安全不仅成功地发展了机器人迷宫领域内的解决方案,而且还可以在进化过程中衡量解决方案质量所需的目标函数。
translated by 谷歌翻译