Skill-based reinforcement learning (RL) has emerged as a promising strategy to leverage prior knowledge for accelerated robot learning. Skills are typically extracted from expert demonstrations and are embedded into a latent space from which they can be sampled as actions by a high-level RL agent. However, this skill space is expansive, and not all skills are relevant for a given robot state, making exploration difficult. Furthermore, the downstream RL agent is limited to learning structurally similar tasks to those used to construct the skill space. We firstly propose accelerating exploration in the skill space using state-conditioned generative models to directly bias the high-level agent towards only sampling skills relevant to a given state based on prior experience. Next, we propose a low-level residual policy for fine-grained skill adaptation enabling downstream RL agents to adapt to unseen task variations. Finally, we validate our approach across four challenging manipulation tasks that differ from those used to build the skill space, demonstrating our ability to learn across task variations while significantly accelerating exploration, outperforming prior works. Code and videos are available on our project website: https://krishanrana.github.io/reskill.
translated by 谷歌翻译
尖峰神经网络由于其在专门硬件上的高能源效率而在机器人技术中具有巨大的潜在效用,但是概念验证的实现通常尚未通过常规方法实现竞争性能或能力。在本文中,我们通过引入一种新型的模块化整体网络方法来应对可扩展性的关键实践挑战之一,在这种方法中,紧凑的,本地化的尖峰网络每个人都学习,并且仅负责仅在环境的局部地区识别位置。这种模块化方法创建了一个高度可扩展的系统。但是,它带来了高性能的成本,在部署时间缺乏全球正规化会导致过度活跃的神经元,这些神经元错误地对其博学地区以外的地方做出了错误的反应。我们的第二个贡献介绍了一种正则化方法,该方法在初始环境学习阶段检测并消除了这些有问题的多动神经元。我们在基准定位数据集Nordland和Oxford Robotcar上评估了这种新的可扩展模块化系统,并与标准技术Netvlad和SAD进行了比较,以及先前的尖峰神经网络系统。我们的系统在其小数据集上大大优于先前的SNN系统,但在27倍的基准数据集上保持了性能,在该数据集上,以前系统的操作在计算上是不可行的,并且与常规定位系统竞争性能。
translated by 谷歌翻译
Visual Place识别(VPR)是机器人平台从其车载摄像机中正确解释视觉刺激的能力,以确定其当前是否位于先前访问的位置,尽管有不同的视点,照明和外观变化。 JPEG是一种广泛使用的图像压缩标准,能够以图像清晰度为代价显着降低图像的大小。对于同时部署多个机器人平台的应用程序,必须在每个机器人之间远程传输收集的视觉数据。因此,可以采用JPEG压缩来大大减少通信渠道传输的数据量,因为可以证明使用有限的带宽为有限的带宽是一项具有挑战性的任务。然而,以前尚未研究JPEG压缩对当前VPR技术性能的影响。因此,本文对与VPR相关方案中的JPEG压缩进行了深入研究。我们在8个数据集上使用一系列已建立的VPR技术,并应用了各种压缩。我们表明,通过引入压缩,VPR性能大大降低,尤其是在较高的压缩频谱中。为了克服JPEG压缩对VPR性能的负面影响,我们提出了一个微调的CNN,该CNN针对JPEG压缩数据进行了优化,并表明其在极度压缩的JPEG图像中检测到的图像转换更加一致。
translated by 谷歌翻译
6-DOF的视觉定位系统利用植根于3D几何形状的原则方法来对图像进行准确的摄像头姿势估计图。当前的技术使用层次管道并学到了2D功能提取器来提高可扩展性并提高性能。但是,尽管典型召回@0.25m类型的指标获得了,但由于其“最差”性能领域,这些系统仍然对实际应用(如自动驾驶汽车)的实用性有限 - 在某种程度上提供不足的召回率的位置。在这里,我们研究了使用“位置特定配置”的实用性,其中将地图分割为多个位置,每个位置都有自己的配置,用于调节姿势估计步骤,在这种情况下,在多摄像机系统中选择摄像机。在福特AV基准数据集上,我们证明了与使用现成管道相比,我们证明了最大的最差案例定位性能 - 最小化数据集的百分比,该数据集的百分比降低了一定的误差耐受性,并提高了整体定位性能。我们提出的方法尤其适用于自动驾驶汽车部署的众群体模型,在该模型中,AV机队定期穿越已知的路线。
translated by 谷歌翻译
事件摄像机由于理想的特征,例如高动态范围,低延迟,几乎没有运动模糊和高能量效率而继续引起兴趣。事件摄像机研究的潜在应用之一是在机器人本地化的视觉场所识别中,必须将查询观测值与数据库中的相应参考位置匹配。在这封信中,我们探讨了一小部分像素(在数十个或数百个)中的事件流的独特性。我们证明,当使用在参考集中显示大变化的像素时,积累到事件框架的那些像素位置的事件数量的绝对差异就足以足以进行位置识别任务。使用如此稀疏(图像坐标),但是(对于每个像素位置的事件数量)有变化,可以使位置估计值的频繁和计算廉价更新。此外,当事件帧包含恒定事件的数量时,我们的方法充分利用了感官流的事件驱动性质,并显示出对速度变化的有希望的鲁棒性。我们在户外驾驶场景中评估了布里斯班 - 事件-VPR数据集的建议方法,以及新贡献的室内QCR-Event-VPR数据集,该数据集用安装在移动机器人平台上的Davis346相机捕获。我们的结果表明,与这些数据集上的几种基线方法相比,我们的方法可实现竞争性能,并且特别适合于计算和能源约束的平台,例如星际漫游者。
translated by 谷歌翻译
虽然深度加强学习(RL)代理商在获得机器人学的灵平行为方面表现出令人难以置信的潜力,但由于培训和执行环境之间的不匹配,它们倾向于在现实世界中部署时出现错误。相比之下,经典的机器人社区开发了一系列控制器,可以在真实的推导下,在现实世界中的大多数州都可以安全地操作。然而,这些控制器缺乏对分析建模和近似的局限性的复杂任务所需的灵活性。在本文中,我们提出了贝叶斯控制器融合(BCF),这是一种新颖的不确定性感知部署策略,这些策略结合了深度RL政策和传统手工控制器的优势。在本框架中,我们可以执行零拍摄的SIM-Teal Transfer,其中我们的不确定性的配方允许机器人通过利用手工制作的控制器来可靠地在分配状态下行动,同时获得所学习系统的灵敏度。我们在两个现实世界的连续控制任务上显示了有希望的结果,其中BCF优于独立的政策和控制器,超越了可以独立实现的。在HTTPS://bit.ly/bcf_deploy上提供演示我们系统的补充视频。
translated by 谷歌翻译
最近对视觉地位识别(VPR)问题的方法已经同时熔化多个互补VPR技术的地点识别估计。但是,选择在特定部署环境中使用的最佳技术集A-Priori是一个困难而未解决的挑战。此外,据我们所知,不存在任何方法,其可以响应于图像到图像变化来在逐帧基础上选择一组技术。在这项工作中,我们提出了一种无监督算法,该算法在逐帧基础上找到了在当前部署环境中使用的最强大的VPR技术。通过对当前查询图像与数据库图像集合之间的相似性分数的分析来确定技术的选择,并且不需要地面真实信息。我们在各种数据集和VPR技术上展示了我们的方法,并表明,与各种具有挑战性的竞争方法相比,所提出的动态多过程融合(DYN-MPF)具有优越的VPR性能,其中一些具有不公平的优势访问地面真理信息。
translated by 谷歌翻译
建筑物的表面裂缝,天然墙壁和地下矿井隧道可以表示严重的结构完整性问题,威胁到环境中的结构和人们的安全。及时检测和监测裂缝对于管理这些风险至关重要,特别是如果系统可以通过机器人提供高度自动化。使用深神经网络的视觉裂缝检测算法表现出墙壁或土木工程隧道等结构表面的承诺,但是工作的少量工作已经解决了高度非结构化的环境,例如岩石悬崖和裸露的采矿隧道。为了解决这一挑战,本文介绍了一个用于非结构化表面的新的3D点云的裂缝检测算法。该方法包括三个关键组件:一种自适应的下采样方法,其保持足够的裂缝点密度,将每个点作为裂缝或非裂缝分类的DNN,以及将裂缝点分成裂缝的后处理聚类方法。该方法在新的大型天然岩数据集上通过实验验证,包括跨越900米^ 2和412个单独裂缝的彩色激光雷达云。结果证明裂缝检出率为97%,最大宽度为3厘米以上的裂缝100%,显着优于现有技术。此外,对于交叉验证,PointCrack3D应用于在不同位置获取的完全新数据集,并且在培训中根本不使用,并显示为检测其100%的裂缝实例。我们还表征了检测性能,裂缝宽度和点数的点数之间的关系,为其提供了对实际部署和未来研究方向作出决策的基础。
translated by 谷歌翻译
我们认为,利用公共,跨平台,语言 - 不可止结的包管理器和jupyter紧密地耦合广泛使用的机器人操作系统,这是有益的,这是一种提供科学计算的基于网络的互动计算环境。我们为公务员提供新的ROS套餐,可以轻松地安装ROS沿着数据科学和机器学习套件。多个ROS版本(目前ROS1 Melodic和Neatic以及ROS2 Foxy和Galactic)可以同时在一台机器上运行,具有适用于Linux,Windows和OSX的预编译二进制文件,以及ARM架构(例如Raspberry PI和新的苹果硅)。要处理ROS生态系统的大尺寸,我们通过重写C ++的关键零件来显着提高公共求解器和构建系统的速度。我们进一步为ROS提供了一系列jupyterlab扩展,包括用于实时绘图,调试和机器人控制的插件,以及与ZETHU的紧密集成,RVIZ如可视化工具。罗布斯特克在一起结合了最好的数据科学和机器人世界,帮助研究人员和开发人员为学术和工业项目建立定制解决方案。
translated by 谷歌翻译
部署到开放世界中,对象探测器容易出现开放式错误,训练数据集中不存在的对象类的假阳性检测。我们提出了GMM-DET,一种用于从对象探测器中提取认知不确定性的实时方法,以识别和拒绝开放式错误。 GMM-DID列达探测器以产生与特定于类高斯混合模型建模的结构化的Logit空间。在测试时间时,通过所有高斯混合模型下的低对数概率识别开放式错误。我们测试了两个常见的探测器架构,更快的R-CNN和RETINANET,跨越了三种不同的数据集,跨越机器人和计算机视觉。我们的结果表明,GMM-DET始终如一地优于识别和拒绝开放式检测的现有不确定性技术,特别是在安全关键应用程序所需的低差错率操作点。 GMM-DET保持对象检测性能,并仅引入最小的计算开销。我们还介绍一种用于将现有对象检测数据集转换为特定的开放式数据集的方法,以评估对象检测中的开放式性能。
translated by 谷歌翻译