我们提出了一个基于视觉和惯性的地形分类网络(VINET),用于在不同的遍布表面上进行机器人导航。我们使用一种新型的基于导航的标签方案进行未知表面上的地形分类和概括。我们提出的感知方法和自适应控制框架可以根据地形导航属性做出预测,并在已知和未知表面上的地形分类和导航控制中提高性能。与以前的方法相比,我们的Vinet在已知地形的监督环境下的准确性可以达到98.37%,并在未知的地形上提高了8.51%的精度。我们在移动轨迹的机器人上部署vinet,以进行轨迹,并在不同的地形上导航,与基线控制器相比,在RMSE方面,我们证明了10.3%的改善。
translated by 谷歌翻译
我们提出了一种新颖的轨迹遍历性估计和计划在复杂室外环境中机器人导航的算法。我们将RGB摄像头,3D LIDAR和机器人的探针传感器中的多模式感觉输入结合在一起,以训练预测模型,以估算基于部分可靠的多模式传感器观测值的候选轨迹轨迹的成功概率。我们使用编码器网络对低维特征向量编码高维多模式的感觉输入,并将它们表示为连接的图形,以训练基于注意力的图形神经网络(GNN)模型,以预测轨迹成功概率。我们进一步分别分析图像和点云数据,以量化传感器的可靠性,以增强我们GNN中使用的特征图表示的权重。在运行时,我们的模型利用多传感器输入来预测本地规划师生成的轨迹的成功概率,以避免潜在的碰撞和故障。当一个或多个传感器模态在复杂的室外环境中不可靠或不可用时,我们的算法证明了可靠的预测。我们使用现实世界中户外环境中的点机器人评估算法的导航性能。
translated by 谷歌翻译
我们提出了一种新颖的户外导航算法,以生成稳定,有效的动作,以将机器人导航到目标。我们使用多阶段的训练管道,并表明我们的模型产生了政策,从而在复杂的地形上导致稳定且可靠的机器人导航。基于近端政策优化(PPO)算法,我们开发了一种新颖的方法来实现户外导航任务的多种功能,即:减轻机器人的漂移,使机器人在颠簸的地形上保持稳定,避免在山丘上攀登,并具有陡峭的山坡,并改变了山坡,并保持了陡峭的高度变化,并使机器人稳定在山坡上,并避免了攀岩地面上的攀登,并避免了机器人的攀岩地形,并避免了机器人的攀岩地形。避免碰撞。我们的培训过程通过引入更广泛的环境和机器人参数以及统一模拟器中LIDAR感知的丰富特征来减轻现实(SIM到现实)差距。我们使用Clearphith Husky和Jackal在模拟和现实世界中评估我们的方法。此外,我们将我们的方法与最先进的方法进行了比较,并表明在现实世界中,它在不平坦的地形上至少提高了30.7%通过防止机器人在高梯度的区域移动,机器人在每个运动步骤处的高程变化。
translated by 谷歌翻译
我们提出了一种算法,即傅立叶活动识别(FAR),以供无人机视频活动识别。我们的配方使用一种新颖的傅立叶对象分解方法将人类剂(通常很小)与背景区分开。我们的分离技术在频域中运行,以表征空间像素的时间变化的程度,并利用傅立叶变换的卷积 - 倍增性属性,以将此表示形式映射到从网络中获得的相应对象背景纠缠的特征。为了封装上下文信息和远程时空依赖性,我们提出了一种新颖的傅立叶注意算法,该算法通过对频域中的加权外产物进行建模来模仿自我注意的好处。我们的傅立叶注意力表述比自我注意力所使用的计算要少得多。我们已经在多个无人机数据集上评估了我们的方法,包括无人机人RGB,无人机人类夜,无人机动作和NEC无人机。我们证明,在前1位的准确性中,相对改善为8.02%-38.69%,并且在先前的工作中的相对提高了3倍。
translated by 谷歌翻译
我们提出了Terrapn,这是一种新颖的方法,它可以通过自我监督的学习直接从机器人 - 泰林相互作用中了解复杂室外地形的表面特性(牵引力,颠簸,可变形等),并将其用于自动驾驶机器人导航。我们的方法使用地形表面和机器人的速度的RGB图像作为输入,以及机器人作为自我选择的标签所经历的IMU振动和探测错误。我们的方法计算了一个表面成本图,该图将平滑,高吸收表面(低导航成本)与颠簸,滑水,可变形表面(高导航成本)区分开。我们通过检测表面之间的边界来计算从输入RGB图像的非均匀采样贴片来计算成本图,从而与均匀的采样和现有分割方法相比,导致推理时间较低(低47.27%)。我们提出了一种新颖的导航算法,该算法可以说明表面成本,计算机器人的基于成本的加速度限制以及动态可行的无碰撞轨迹。 Terrapn的表面成本预测可以在约25分钟内进行五个不同的表面进行训练,而先前基于学习的分割方法数小时。在导航方面,我们的方法在成功率(高达35.84%),轨迹的振动成本(降低21.52%)方面优于先前的工作,并在颠簸,可变形的表面上放慢机器人(最高46.76%)在不同的情况下较慢)。
translated by 谷歌翻译
我们提出了地形遍历映射(TTM),是一个非结构化环境中自主挖掘机的地形推动性估算和路径规划的实时映射方法。我们提出了一种高效的基于学习的几何方法,可以从RGB图像和3D PointClouds中提取地形特征,并将它们纳入全球地图以进行自主挖掘的规划和导航。我们的方法使用了挖掘机的物理特性,包括最大攀爬程度和其他机器规格,以确定可遍历的区域。我们的方法可以适应更改环境并实时更新地形信息。此外,我们准备了一个小说数据集,自主挖掘机地形(AET)数据集,由来自施工站点的RGB图像,根据导航性,七个类别。我们将我们的映射方法与自动挖掘机导航系统中的规划和控制模块集成在一起,这在基于现有规划计划的成功率方面优于前面的方法49.3%。通过我们的映射,挖掘机可以通过由深坑,陡峭的山丘,岩石桩和其他复杂地形特征的非结构化环境导航。
translated by 谷歌翻译
我们提出了GANAV,这是一种新颖的小组注意机制,可以从RGB图像中识别出越野地形和非结构化环境中的安全和可通道的区域。我们的方法根据其可通道的语义分割根据其可通道水平对地形进行了分类。我们新颖的小组注意力损失使任何骨干网络都能明确关注具有低空间分辨率的不同组的特征。与现有的SOTA方法相比,我们的设计可提供有效的推断,同时保持高度的准确性。我们对RUGD和Rellis-3D数据集的广泛评估表明,GANAV在RUGD上的改善对SOTA MIOU的改善增长了2.25-39.05%,Rellis-3d的RUGD提高了5.17-19.06%。我们与Ganav进行了深入的增强基于学习的导航算法的接口,并在现实世界中的非结构化地形中突出了其在导航方面的好处。我们将基于GANAV的导航算法与ClearPath Jackal和Husky Robots集成在一起,并观察到成功率增加了10%,在选择表面最佳的可通道性和4.6-13.9%的表面方面为2-47%在轨迹粗糙度中。此外,加纳夫将禁区的假阳性降低37.79%。代码,视频和完整的技术报告可在https://gamma.umd.edu/offroad/上找到。
translated by 谷歌翻译
Representing and synthesizing novel views in real-world dynamic scenes from casual monocular videos is a long-standing problem. Existing solutions typically approach dynamic scenes by applying geometry techniques or utilizing temporal information between several adjacent frames without considering the underlying background distribution in the entire scene or the transmittance over the ray dimension, limiting their performance on static and occlusion areas. Our approach $\textbf{D}$istribution-$\textbf{D}$riven neural radiance fields offers high-quality view synthesis and a 3D solution to $\textbf{D}$etach the background from the entire $\textbf{D}$ynamic scene, which is called $\text{D}^4$NeRF. Specifically, it employs a neural representation to capture the scene distribution in the static background and a 6D-input NeRF to represent dynamic objects, respectively. Each ray sample is given an additional occlusion weight to indicate the transmittance lying in the static and dynamic components. We evaluate $\text{D}^4$NeRF on public dynamic scenes and our urban driving scenes acquired from an autonomous-driving dataset. Extensive experiments demonstrate that our approach outperforms previous methods in rendering texture details and motion areas while also producing a clean static background. Our code will be released at https://github.com/Luciferbobo/D4NeRF.
translated by 谷歌翻译
The traditional statistical inference is static, in the sense that the estimate of the quantity of interest does not affect the future evolution of the quantity. In some sequential estimation problems however, the future values of the quantity to be estimated depend on the estimate of its current value. This type of estimation problems has been formulated as the dynamic inference problem. In this work, we formulate the Bayesian learning problem for dynamic inference, where the unknown quantity-generation model is assumed to be randomly drawn according to a random model parameter. We derive the optimal Bayesian learning rules, both offline and online, to minimize the inference loss. Moreover, learning for dynamic inference can serve as a meta problem, such that all familiar machine learning problems, including supervised learning, imitation learning and reinforcement learning, can be cast as its special cases or variants. Gaining a good understanding of this unifying meta problem thus sheds light on a broad spectrum of machine learning problems as well.
translated by 谷歌翻译
Machine learning-based segmentation in medical imaging is widely used in clinical applications from diagnostics to radiotherapy treatment planning. Segmented medical images with ground truth are useful for investigating the properties of different segmentation performance metrics to inform metric selection. Regular geometrical shapes are often used to synthesize segmentation errors and illustrate properties of performance metrics, but they lack the complexity of anatomical variations in real images. In this study, we present a tool to emulate segmentations by adjusting the reference (truth) masks of anatomical objects extracted from real medical images. Our tool is designed to modify the defined truth contours and emulate different types of segmentation errors with a set of user-configurable parameters. We defined the ground truth objects from 230 patient images in the Glioma Image Segmentation for Radiotherapy (GLIS-RT) database. For each object, we used our segmentation synthesis tool to synthesize 10 versions of segmentation (i.e., 10 simulated segmentors or algorithms), where each version has a pre-defined combination of segmentation errors. We then applied 20 performance metrics to evaluate all synthetic segmentations. We demonstrated the properties of these metrics, including their ability to capture specific types of segmentation errors. By analyzing the intrinsic properties of these metrics and categorizing the segmentation errors, we are working toward the goal of developing a decision-tree tool for assisting in the selection of segmentation performance metrics.
translated by 谷歌翻译