我们提出了GANAV,这是一种新颖的小组注意机制,可以从RGB图像中识别出越野地形和非结构化环境中的安全和可通道的区域。我们的方法根据其可通道的语义分割根据其可通道水平对地形进行了分类。我们新颖的小组注意力损失使任何骨干网络都能明确关注具有低空间分辨率的不同组的特征。与现有的SOTA方法相比,我们的设计可提供有效的推断,同时保持高度的准确性。我们对RUGD和Rellis-3D数据集的广泛评估表明,GANAV在RUGD上的改善对SOTA MIOU的改善增长了2.25-39.05%,Rellis-3d的RUGD提高了5.17-19.06%。我们与Ganav进行了深入的增强基于学习的导航算法的接口,并在现实世界中的非结构化地形中突出了其在导航方面的好处。我们将基于GANAV的导航算法与ClearPath Jackal和Husky Robots集成在一起,并观察到成功率增加了10%,在选择表面最佳的可通道性和4.6-13.9%的表面方面为2-47%在轨迹粗糙度中。此外,加纳夫将禁区的假阳性降低37.79%。代码,视频和完整的技术报告可在https://gamma.umd.edu/offroad/上找到。
translated by 谷歌翻译
我们提出了地形遍历映射(TTM),是一个非结构化环境中自主挖掘机的地形推动性估算和路径规划的实时映射方法。我们提出了一种高效的基于学习的几何方法,可以从RGB图像和3D PointClouds中提取地形特征,并将它们纳入全球地图以进行自主挖掘的规划和导航。我们的方法使用了挖掘机的物理特性,包括最大攀爬程度和其他机器规格,以确定可遍历的区域。我们的方法可以适应更改环境并实时更新地形信息。此外,我们准备了一个小说数据集,自主挖掘机地形(AET)数据集,由来自施工站点的RGB图像,根据导航性,七个类别。我们将我们的映射方法与自动挖掘机导航系统中的规划和控制模块集成在一起,这在基于现有规划计划的成功率方面优于前面的方法49.3%。通过我们的映射,挖掘机可以通过由深坑,陡峭的山丘,岩石桩和其他复杂地形特征的非结构化环境导航。
translated by 谷歌翻译
我们提出了Terrapn,这是一种新颖的方法,它可以通过自我监督的学习直接从机器人 - 泰林相互作用中了解复杂室外地形的表面特性(牵引力,颠簸,可变形等),并将其用于自动驾驶机器人导航。我们的方法使用地形表面和机器人的速度的RGB图像作为输入,以及机器人作为自我选择的标签所经历的IMU振动和探测错误。我们的方法计算了一个表面成本图,该图将平滑,高吸收表面(低导航成本)与颠簸,滑水,可变形表面(高导航成本)区分开。我们通过检测表面之间的边界来计算从输入RGB图像的非均匀采样贴片来计算成本图,从而与均匀的采样和现有分割方法相比,导致推理时间较低(低47.27%)。我们提出了一种新颖的导航算法,该算法可以说明表面成本,计算机器人的基于成本的加速度限制以及动态可行的无碰撞轨迹。 Terrapn的表面成本预测可以在约25分钟内进行五个不同的表面进行训练,而先前基于学习的分割方法数小时。在导航方面,我们的方法在成功率(高达35.84%),轨迹的振动成本(降低21.52%)方面优于先前的工作,并在颠簸,可变形的表面上放慢机器人(最高46.76%)在不同的情况下较慢)。
translated by 谷歌翻译
对于在城市环境中导航的自主机器人,对于机器人而言,要保持在指定的旅行路径(即小径),并避免使用诸如草和花园床之类的区域,以确保安全和社会符合性考虑因素。本文为未知的城市环境提供了一种自主导航方法,该方法结合了语义分割和激光雷达数据的使用。所提出的方法使用分段的图像掩码创建环境的3D障碍物图,从中计算了人行道的边界。与现有方法相比,我们的方法不需要预先建造的地图,并提供了对安全区域的3D理解,从而使机器人能够计划通过人行道的任何路径。将我们的方法与仅使用LiDAR或仅使用语义分割的两种替代方案进行比较的实验表明,总体而言,我们所提出的方法在户外的成功率大于91%的成功率,并且在室内大于66%。我们的方法使机器人始终保持在安全的旅行道路上,并减少了碰撞数量。
translated by 谷歌翻译
视频分析的图像分割在不同的研究领域起着重要作用,例如智能城市,医疗保健,计算机视觉和地球科学以及遥感应用。在这方面,最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地,目前正在研究Panoptic细分,以帮助获得更多对视频监控,人群计数,自主驾驶,医学图像分析的图像场景的更细致的知识,以及一般对场景更深入的了解。为此,我们介绍了本文的首次全面审查现有的Panoptic分段方法,以获得作者的知识。因此,基于所采用的算法,应用场景和主要目标的性质,执行现有的Panoptic技术的明确定义分类。此外,讨论了使用伪标签注释新数据集的Panoptic分割。继续前进,进行消融研究,以了解不同观点的Panoptic方法。此外,讨论了适合于Panoptic分割的评估度量,并提供了现有解决方案性能的比较,以告知最先进的并识别其局限性和优势。最后,目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势,可以成为即将到来的研究研究的起点。提供代码的文件可用于:https://github.com/elharroussomar/awesome-panoptic-egation
translated by 谷歌翻译
Semantic segmentation works on the computer vision algorithm for assigning each pixel of an image into a class. The task of semantic segmentation should be performed with both accuracy and efficiency. Most of the existing deep FCNs yield to heavy computations and these networks are very power hungry, unsuitable for real-time applications on portable devices. This project analyzes current semantic segmentation models to explore the feasibility of applying these models for emergency response during catastrophic events. We compare the performance of real-time semantic segmentation models with non-real-time counterparts constrained by aerial images under oppositional settings. Furthermore, we train several models on the Flood-Net dataset, containing UAV images captured after Hurricane Harvey, and benchmark their execution on special classes such as flooded buildings vs. non-flooded buildings or flooded roads vs. non-flooded roads. In this project, we developed a real-time UNet based model and deployed that network on Jetson AGX Xavier module.
translated by 谷歌翻译
我们提出了一个基于视觉和惯性的地形分类网络(VINET),用于在不同的遍布表面上进行机器人导航。我们使用一种新型的基于导航的标签方案进行未知表面上的地形分类和概括。我们提出的感知方法和自适应控制框架可以根据地形导航属性做出预测,并在已知和未知表面上的地形分类和导航控制中提高性能。与以前的方法相比,我们的Vinet在已知地形的监督环境下的准确性可以达到98.37%,并在未知的地形上提高了8.51%的精度。我们在移动轨迹的机器人上部署vinet,以进行轨迹,并在不同的地形上导航,与基线控制器相比,在RMSE方面,我们证明了10.3%的改善。
translated by 谷歌翻译
在本文中,我们介绍了全景语义细分,该分段以整体方式提供了对周围环境的全景和密集的像素的理解。由于两个关键的挑战,全景分割尚未探索:(1)全景上的图像扭曲和对象变形; (2)缺乏培训全景分段的注释。为了解决这些问题,我们提出了一个用于全景语义细分(Trans4Pass)体系结构的变压器。首先,为了增强失真意识,Trans4Pass配备了可变形的贴片嵌入(DPE)和可变形的MLP(DMLP)模块,能够在适应之前(适应之前或之后)和任何地方(浅层或深度级别的(浅层或深度))和图像变形(通过任何涉及(浅层或深层))和图像变形(通过任何地方)和图像变形设计。我们进一步介绍了升级后的Trans4Pass+模型,其中包含具有平行令牌混合的DMLPV2,以提高建模歧视性线索的灵活性和概括性。其次,我们提出了一种无监督域适应性的相互典型适应(MPA)策略。第三,除了针孔到型 - 帕诺amic(PIN2PAN)适应外,我们还创建了一个新的数据集(Synpass),其中具有9,080个全景图像,以探索360 {\ deg} Imagery中的合成对真实(Syn2real)适应方案。进行了广泛的实验,这些实验涵盖室内和室外场景,并且使用PIN2PAN和SYN2REAL方案进行了研究。 Trans4Pass+在四个域自适应的全景语义分割基准上实现最先进的性能。代码可从https://github.com/jamycheung/trans4pass获得。
translated by 谷歌翻译
本文介绍了一种估计植物部件的覆盖路径的可推动性并通过它们用于在富含植物环境中运行的移动机器人的植物部件的迁移性。传统的移动机器人依赖于场景识别方法,其仅考虑环境的几何信息。因此,这些方法不能在柔性植物覆盖时识别出可遍历的路径。在本文中,我们提出了一种基于图像的场景识别的新框架,以实现这种富有的植物环境中的导航。我们的识别模型利用用于通用对象分类的语义分割分支和用于估计像素 - 方向遍历的遍历性估计分支。使用无监督域适配方法训练语义分割分支,并且遍历估计分支的训练,其中在数据获取阶段期间从机器人的遍历经验中产生的标签图像训练,被卷曲的拖拉性掩码。因此,整个模型的培训程序免于手动注释。在我们的实验中,我们表明,所提出的识别框架能够更准确地将可遍历的植物与具有遍历植物和不可遍历的工厂类的传统语义分段进行区分,以及现有的基于图像的可移动性估计方法。我们还进行了一个真实的实验,并确认了具有所提出的识别方法的机器人在富有植物的环境中成功导航。
translated by 谷歌翻译
语义分割是自主车辆了解周围场景的关键技术。当代模型的吸引力表现通常以牺牲重计算和冗长的推理时间为代价,这对于自行车来说是无法忍受的。在低分辨率图像上使用轻量级架构(编码器 - 解码器或双路)或推理,最近的方法实现了非常快的场景解析,即使在单个1080TI GPU上以100多件FPS运行。然而,这些实时方法与基于扩张骨架的模型之间的性能仍有显着差距。为了解决这个问题,我们提出了一家专门为实时语义细分设计的高效底座。所提出的深层双分辨率网络(DDRNET)由两个深部分支组成,之间进行多个双边融合。此外,我们设计了一个名为Deep聚合金字塔池(DAPPM)的新上下文信息提取器,以基于低分辨率特征映射放大有效的接收字段和熔丝多尺度上下文。我们的方法在城市景观和Camvid数据集上的准确性和速度之间实现了新的最先进的权衡。特别是,在单一的2080Ti GPU上,DDRNET-23-Slim在Camvid测试组上的Citycapes试验组102 FPS上的102 FPS,74.7%Miou。通过广泛使用的测试增强,我们的方法优于最先进的模型,需要计算得多。 CODES和培训的型号在线提供。
translated by 谷歌翻译
跨不同层的特征的聚合信息是密集预测模型的基本操作。尽管表现力有限,但功能级联占主导地位聚合运营的选择。在本文中,我们引入了细分特征聚合(AFA),以融合不同的网络层,具有更具表现力的非线性操作。 AFA利用空间和渠道注意,以计算层激活的加权平均值。灵感来自神经体积渲染,我们将AFA扩展到规模空间渲染(SSR),以执行多尺度预测的后期融合。 AFA适用于各种现有网络设计。我们的实验表明了对挑战性的语义细分基准,包括城市景观,BDD100K和Mapillary Vistas的一致而显着的改进,可忽略不计的计算和参数开销。特别是,AFA改善了深层聚集(DLA)模型在城市景观上的近6%Miou的性能。我们的实验分析表明,AFA学会逐步改进分割地图并改善边界细节,导致新的最先进结果对BSDS500和NYUDV2上的边界检测基准。在http://vis.xyz/pub/dla-afa上提供代码和视频资源。
translated by 谷歌翻译
FreeSpace检测是自动驾驶技术的重要组成部分,并且在轨迹计划中起着重要作用。在过去的十年中,已证明基于深度学习的自由空间检测方法可行。但是,这些努力集中在城市道路环境上,由于缺乏越野基准,很少有针对越野自由空间检测专门设计的深度学习方法。在本文中,我们介绍了ORFD数据集,据我们所知,该数据集是第一个越野自由空间检测数据集。数据集收集在不同的场景(林地,农田,草地和乡村),不同的天气条件(阳光,多雨,雾气和雪地)以及不同的光线条件(明亮的光线,日光,暮光,黑暗)中,完全包含12,198 LIDAR点云和RGB图像对与可穿越的区域,不可传输区域和无法达到的区域进行了详细注释。我们提出了一个名为Off-NET的新型网络,该网络将变压器体系结构统一以汇总本地和全球信息,以满足大型接收领域的自由空间检测任务的要求。我们还向动态融合激光雷达和RGB图像信息提出了交叉注意,以进行准确的越野自由空间检测。数据集和代码可公开可用athttps://github.com/chaytonmin/off-net。
translated by 谷歌翻译
交通场景边缘壳体的语义分割的鲁棒性是智能运输安全的重要因素。然而,交通事故的大多数关键场景都是非常动态和以前看不见的,这严重损害了语义分割方法的性能。另外,在高速驾驶期间传统相机的延迟将进一步降低时间尺寸中的上下文信息。因此,我们建议从基于事件的数据提取动态上下文,以更高的时间分辨率来增强静态RGB图像,即使对于来自运动模糊,碰撞,变形,翻转等的流量事故而言,此外,为评估分割交通事故中的性能,我们提供了一个像素 - 明智的注释事故数据集,即Dada-Seg,其中包含来自交通事故的各种临界情景。我们的实验表明,基于事件的数据可以通过在事故中保留快速移动的前景(碰撞物体)的微粒运动来提供互补信息以在不利条件下稳定语义分割。我们的方法在拟议的事故数据集中实现了+ 8.2%的性能增益,超过了20多种最先进的语义细分方法。已经证明该提案对于在多个源数据库中学到的模型,包括CityScapes,Kitti-360,BDD和Apolloscape的模型始终如一。
translated by 谷歌翻译
大型预训练的变压器是现代语义分割基准的顶部,但具有高计算成本和冗长的培训。为了提高这种约束,我们从综合知识蒸馏的角度来研究有效的语义分割,并考虑弥合多源知识提取和特定于变压器特定的斑块嵌入之间的差距。我们提出了基于变压器的知识蒸馏(TransKD)框架,该框架通过蒸馏出大型教师变压器的特征地图和补丁嵌入来学习紧凑的学生变形金刚,绕过长期的预训练过程并将FLOPS降低> 85.0%。具体而言,我们提出了两个基本和两个优化模块:(1)交叉选择性融合(CSF)可以通过通道注意和层次变压器内的特征图蒸馏之间的知识转移; (2)嵌入对齐(PEA)在斑块过程中执行尺寸转换,以促进贴片嵌入蒸馏; (3)全局本地上下文混合器(GL-MIXER)提取了代表性嵌入的全局和局部信息; (4)嵌入助手(EA)是一种嵌入方法,可以无缝地桥接老师和学生模型,并具有老师的渠道数量。关于CityScapes,ACDC和NYUV2数据集的实验表明,TransKD的表现优于最先进的蒸馏框架,并竞争了耗时的预训练方法。代码可在https://github.com/ruipingl/transkd上找到。
translated by 谷歌翻译
我们提出了一种新颖的轨迹遍历性估计和计划在复杂室外环境中机器人导航的算法。我们将RGB摄像头,3D LIDAR和机器人的探针传感器中的多模式感觉输入结合在一起,以训练预测模型,以估算基于部分可靠的多模式传感器观测值的候选轨迹轨迹的成功概率。我们使用编码器网络对低维特征向量编码高维多模式的感觉输入,并将它们表示为连接的图形,以训练基于注意力的图形神经网络(GNN)模型,以预测轨迹成功概率。我们进一步分别分析图像和点云数据,以量化传感器的可靠性,以增强我们GNN中使用的特征图表示的权重。在运行时,我们的模型利用多传感器输入来预测本地规划师生成的轨迹的成功概率,以避免潜在的碰撞和故障。当一个或多个传感器模态在复杂的室外环境中不可靠或不可用时,我们的算法证明了可靠的预测。我们使用现实世界中户外环境中的点机器人评估算法的导航性能。
translated by 谷歌翻译
Vision transformers (ViTs) encoding an image as a sequence of patches bring new paradigms for semantic segmentation.We present an efficient framework of representation separation in local-patch level and global-region level for semantic segmentation with ViTs. It is targeted for the peculiar over-smoothness of ViTs in semantic segmentation, and therefore differs from current popular paradigms of context modeling and most existing related methods reinforcing the advantage of attention. We first deliver the decoupled two-pathway network in which another pathway enhances and passes down local-patch discrepancy complementary to global representations of transformers. We then propose the spatially adaptive separation module to obtain more separate deep representations and the discriminative cross-attention which yields more discriminative region representations through novel auxiliary supervisions. The proposed methods achieve some impressive results: 1) incorporated with large-scale plain ViTs, our methods achieve new state-of-the-art performances on five widely used benchmarks; 2) using masked pre-trained plain ViTs, we achieve 68.9% mIoU on Pascal Context, setting a new record; 3) pyramid ViTs integrated with the decoupled two-pathway network even surpass the well-designed high-resolution ViTs on Cityscapes; 4) the improved representations by our framework have favorable transferability in images with natural corruptions. The codes will be released publicly.
translated by 谷歌翻译
估计越野环境中的地形横穿性需要关于机器人和这些地形之间复杂相互作用动态的推理。但是,建立准确的物理模型,或创建有益的标签来以有监督的方式学习模型是有挑战性的。我们提出了一种方法,该方法通过将外部感受性的环境信息与本体感受性的地形相互作用反馈相结合,以自我监督的方式将遍历性成本映像结合在一起。此外,我们提出了一种将机器人速度纳入Costmap预测管道中的新型方法。我们在具有挑战性的越野地形上,在多个大型,自动的全地形车辆(ATV)上验证了我们的方法,并在单独的大型地面机器人上易于集成。我们的短尺寸导航结果表明,使用我们学到的Costmaps可以使整体航行更顺畅,并为机器人提供了对机器人与不同地形类型(例如草和砾石)之间相互作用的更细粒度的了解。我们的大规模导航试验表明,与基于占用率的导航基线相比,我们可以将干预措施的数量减少多达57%,这是在挑战400 m至3150 m不等的越野课程中。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.
translated by 谷歌翻译
在本文中,我们专注于探索有效的方法,以更快,准确和域的不可知性语义分割。受到相邻视频帧之间运动对齐的光流的启发,我们提出了一个流对齐模块(FAM),以了解相邻级别的特征映射之间的\ textit {语义流},并将高级特征广播到高分辨率特征有效地,有效地有效。 。此外,将我们的FAM与共同特征的金字塔结构集成在一起,甚至在轻量重量骨干网络(例如Resnet-18和DFNET)上也表现出优于其他实时方法的性能。然后,为了进一步加快推理过程,我们还提出了一个新型的封闭式双流对齐模块,以直接对齐高分辨率特征图和低分辨率特征图,在该图中我们将改进版本网络称为SFNET-LITE。广泛的实验是在几个具有挑战性的数据集上进行的,结果显示了SFNET和SFNET-LITE的有效性。特别是,建议的SFNET-LITE系列在使用RESNET-18主链和78.8 MIOU以120 fps运行的情况下,使用RTX-3090上的STDC主链在120 fps运行时,在60 fps运行时达到80.1 miou。此外,我们将四个具有挑战性的驾驶数据集(即CityScapes,Mapillary,IDD和BDD)统一到一个大数据集中,我们将其命名为Unified Drive细分(UDS)数据集。它包含不同的域和样式信息。我们基准了UDS上的几项代表性作品。 SFNET和SFNET-LITE仍然可以在UDS上取得最佳的速度和准确性权衡,这在如此新的挑战性环境中是强大的基准。所有代码和模型均可在https://github.com/lxtgh/sfsegnets上公开获得。
translated by 谷歌翻译