沟通对于代理人共享信息并做出良好决定的许多多代理强化学习(MARL)问题很重要。但是,当在存在噪音和潜在攻击者的现实应用程序中部署训练有素的交流代理商时,基于沟通的政策的安全就会成为一个严重的问题,这些问题被忽视。具体而言,如果通过恶意攻击者操纵沟通信息,依靠不信任的交流的代理可能会采取不安全的行动,从而导致灾难性后果。因此,至关重要的是要确保代理人不会被腐败的沟通误导,同时仍然从良性的交流中受益。在这项工作中,我们考虑了一个具有$ n $代理的环境,攻击者可以任意将通信从任何$ c <\ frac {n-1} {2} $代理商转换为受害者代理。对于这种强大的威胁模型,我们通过构建一个消息集结策略来提出可认证的辩护,该策略汇总了多个随机消融的消息集。理论分析表明,这种消息安装策略可以利用良性通信,同时确保对对抗性交流,无论攻击算法如何。在多种环境中的实验证明,我们的防御能够显着改善受过训练的政策对各种攻击的鲁棒性。
translated by 谷歌翻译
在许多增强学习(RL)应用中,观察空间由人类开发人员指定并受到物理实现的限制,因此可能会随时间的巨大变化(例如,观察特征的数量增加)。然而,当观察空间发生变化时,前一项策略可能由于输入特征不匹配而失败,并且另一个策略必须从头开始培训,这在计算和采样复杂性方面效率低。在理论上见解之后,我们提出了一种新颖的算法,该算法提取源任务中的潜在空间动态,并将动态模型传送到目标任务用作基于模型的常规程序。我们的算法适用于观察空间的彻底变化(例如,从向量的基于矢量的观察到图像的观察),没有任何任务映射或目标任务的任何先前知识。实证结果表明,我们的算法显着提高了目标任务中学习的效率和稳定性。
translated by 谷歌翻译
在国家观察中最强/最佳的对抗性扰动下评估增强学习(RL)代理的最坏情况性能(在某些限制内)对于理解RL代理商的鲁棒性至关重要。然而,在无论我们都能找到最佳攻击以及我们如何找到它,我们都可以找到最佳的对手是具有挑战性的。对普发拉利RL的现有工作要么使用基于启发式的方法,可以找不到最强大的对手,或者通过将代理人视为环境的一部分来说,直接培训基于RL的对手,这可以找到最佳的对手,但可能会变得棘手大状态空间。本文介绍了一种新的攻击方法,通过设计函数与名为“Director”的RL为基础的学习者的设计函数之间的合作找到最佳攻击。演员工艺在给定的政策扰动方向的状态扰动,主任学会提出最好的政策扰动方向。我们所提出的算法PA-AD,比具有大状态空间的环境中的基于RL的工作,理论上是最佳的,并且明显更有效。经验结果表明,我们建议的PA-AD普遍优惠各种Atari和Mujoco环境中最先进的攻击方法。通过将PA-AD应用于对抗性培训,我们在强烈的对手下实现了多个任务的最先进的经验稳健性。
translated by 谷歌翻译
交叉路口是自动驾驶任务最具挑战性的场景之一。由于复杂性和随机性,在相交处的基本应用(例如行为建模,运动预测,安全验证等)在很大程度上取决于数据驱动的技术。因此,交叉点中对流量参与者(TPS)的轨迹数据集的需求很大。目前,城市地区的大多数交叉路口都配备了交通信号灯。但是,尚无用于信号交叉点的大规模,高质量,公开可用的轨迹数据集。因此,在本文中,在中国天津选择了典型的两相信号交叉点。此外,管道旨在构建信号交叉数据集(SIND),其中包含7个小时的记录,其中包括13,000多种TPS,具有7种类型。然后,记录了信德的交通违规行为。此外,也将信德与其他类似作品进行比较。 SIND的特征可以概括如下:1)信德提供了更全面的信息,包括交通信号灯状态,运动参数,高清(HD)地图等。2)TPS的类别是多种多样和特征的,其中比例是脆弱的道路使用者(VRU)最高为62.6%3)显示了多次交通信号灯违反非电动车辆的行为。我们认为,Sind将是对现有数据集的有效补充,可以促进有关自动驾驶的相关研究。该数据集可通过以下方式在线获得:https://github.com/sotif-avlab/sind
translated by 谷歌翻译
数据增强大大增加了基于标记的数据获得的数据量,以节省数据收集和标签的费用和人工。我们提出了一种新的数据增强方法,称为九点MLS(ND-MLS)。基于图像Defor-Mation的概念提出了这种方法。图像根据控制点的控制点变形,该控制点由ND-ML计算出来。该方法可以在短时间内为一个存在的数据集生成2000多个图像。为了验证此数据增强方法,进行了广泛的测试,涵盖了计算机视觉的3个主要任务,即分类,检测和分割。结果表明,在分类中,每类使用10张图像进行训练,VGGNET可以通过ND-MLS在手写数字的MNIST数据集上获得92%的TOP-1 ACC。在Omniglot数据集中,随着字符类别的增加,几乎没有弹出的准确性会降低。但是,ND-MLS方法具有稳定的性能,并在100个不同的手写字符分类任务上在RES-NET中获得96.5 TOP-1 ACC; 2)在细分中,在仅十张原始图像的前提下,DeepLab分别在瓶子,马和草测试数据集中获得93.5%,85%和73.3%的M_IOU(10),而CAT测试数据集则获得86.7% M_IOU(10),带有侦听模型; 3)Yolo V4只有10个类别的原始图像,分别获得100%和97.2%的瓶子和马匹检测,而CAT数据集则使用Yolo V3获得93.6%。总而言之,ND-ML只能通过仅使用几个数据来在分类,对象检测和语义分割任务上表现良好。
translated by 谷歌翻译
我们提出了一种新颖的方法,可以可靠地估计相机的姿势,并在极端环境中获得的一系列图像,例如深海或外星地形。在这些挑战性条件下获得的数据被无纹理表面,图像退化以及重复性和高度模棱两可的结构所破坏。当天真地部署时,最先进的方法可能会在我们的经验分析确认的那些情况下失败。在本文中,我们试图在这些极端情况下使摄像机重新定位起作用。为此,我们提出:(i)一个分层定位系统,我们利用时间信息和(ii)一种新颖的环境感知图像增强方法来提高鲁棒性和准确性。我们广泛的实验结果表明,在两个极端环境下我们的方法有利于我们的方法:将自动的水下车辆定位,并将行星漫游者定位在火星样的沙漠中。此外,我们的方法仅使用20%的培训数据就可以在室内基准(7片数据集)上使用最先进的方法(7片数据集)实现可比性的性能。
translated by 谷歌翻译
3D多对象跟踪旨在唯一,始终如一地识别所有移动实体。尽管在此设置中提供了丰富的时空信息,但当前的3D跟踪方法主要依赖于抽象的信息和有限的历史记录,例如单帧对象边界框。在这项工作中,我们开发了对交通场景的整体表示,该场景利用了现场演员的空间和时间信息。具体而言,我们通过将跟踪的对象表示为时空点和边界框的序列来重新将跟踪作为时空问题,并在悠久的时间历史上进行重新制定。在每个时间戳上,我们通过对对象历史记录的完整顺序进行的细化来改善跟踪对象的位置和运动估计。通过共同考虑时间和空间,我们的代表自然地编码了基本的物理先验,例如对象持久性和整个时间的一致性。我们的时空跟踪框架在Waymo和Nuscenes基准测试中实现了最先进的性能。
translated by 谷歌翻译
预测人类运动对于辅助机器人和AR/VR应用至关重要,在这种机器人和AR/VR应用中,与人类的互动需要安全舒适。同时,准确的预测取决于理解场景上下文和人类意图。尽管许多作品研究场景 - 意识到人类的运动预测,但由于缺乏以自我为中心的观点,这些观点揭示了人类意图以及运动和场景的多样性有限,因此后者在很大程度上并没有得到充实的影响。为了减少差距,我们提出了一个大规模的人类运动数据集,该数据集可提供高质量的身体姿势序列,场景扫描以及以自我为中心的视图,目光注视,这是推断人类意图的代孕。通过使用惯性传感器进行运动捕获,我们的数据收集与特定场景无关,这进一步增强了从主题中观察到的运动动力学。我们对利用眼睛目光进行以自我为中心的人类运动预测的优势进行了广泛的研究,并进行了各种最新的架构。此外,为了实现目光的全部潜力,我们提出了一种新型的网络体系结构,该架构可以在目光和运动分支之间进行双向交流。我们的网络在拟议的数据集上实现了人类运动预测的最高性能,这要归功于眼睛凝视的意图信息以及动作调制的DeNocied Ceaze特征。代码和数据可以在https://github.com/y-zheng18/gimo上找到。
translated by 谷歌翻译
作为一种流行的几何表示,点云在3D视觉中引起了很多关注,导致自动驾驶和机器人中的许多应用。在点云上学习一个重要的尚未解决的问题是,如果使用不同的过程或使用不同的传感器捕获,则相同对象的点云可以具有显着的几何变化。这些不一致地诱导域间隙,使得在一个域上培训的神经网络可能无法概括他人。减少域间隙的典型技术是执行逆势训练,以便特征空间中的点云可以对齐。然而,对抗性训练易于落入退化的局部最小值,导致负适应性收益。在这里,我们提出了一种简单而有效的方法,可以通过采用学习几何感知含义的自我监督任务来提出对点云的无监督域适应的方法,这在一次拍摄中扮演两个关键角色。首先,通过对下游任务的隐式表示保留点云中的几何信息。更重要的是,可以在隐式空间中有效地学习域特定变体。我们还提出了一种自适应策略,以计算由于在实践中缺乏形状模型而计算任意点云的无符号距离场。当结合任务丢失时,所提出的优先表现出最先进的无监督域适应方法,依赖于对抗域对齐和更复杂的自我监督任务。我们的方法在PointDA-10和Graspnet数据集上进行评估。代码和培训的型号将公开可用。
translated by 谷歌翻译
我们提出了一个框架,以便不断学习以对客观的视觉学习和理解为中心的表示。现有的对象形式依赖于个性化场景中的对象的监督,或者执行无监督的解剖学,这几乎无法处理现实世界中的复杂场景。为了减轻注释负担并放宽对数据统计复杂性的限制,我们的方法利用相互作用,从而有效地在学习以特征对象的表示的同时有效地采样对象和相应的训练信号的不同变化。在整个学习过程中,对象以随机顺序逐一流动,具有未知的身份,并且与可以通过卷积高度合成每个对象的潜在权重的潜在代码相关联。此外,采用了学习对象的重新识别和遗忘预防,以使学习过程有效且坚固。我们对拟议框架的关键特征进行了广泛的研究,并分析了学习的表示的特征。此外,我们展示了所提出的框架在学习表示中可以提高下游任务中的标签效率的能力。我们的代码和培训的型号将公开可用。
translated by 谷歌翻译