在合成代理与动态场景交互的先决条件中,识别独立移动对象的能力是特别重要的。然而,从应用角度来看,标准相机可能在积极的运动和挑战性的照明条件下显着恶化。相比之下,基于事件的相机作为一类新型的生物启发传感器,提供了应对这些挑战的优势。其快速响应和异步性质使其能够以完全相同的场景动态速率捕获视觉刺激。在本文中,我们呈现了一种级联的两级多模型拟合方法,用于用单眼事件相机识别独立移动的物体(即运动分段问题)。第一级利用了对事件特征的跟踪,并在渐进式多模型拟合方案下解决了特征聚类问题。用生成的运动模型实例初始化,第二级进一步通过时空图形切割方法解决了事件聚类问题。这种组合导致有效和准确的事件明智运动分段,不能单独使用任何一个。实验证明了我们在具有不同运动模式的现实场景中的方法的有效性和多功能性以及未知数量的独立移动物体。
translated by 谷歌翻译
结合同时定位和映射(SLAM)估计和动态场景建模可以高效地在动态环境中获得机器人自主权。机器人路径规划和障碍避免任务依赖于场景中动态对象运动的准确估计。本文介绍了VDO-SLAM,这是一种强大的视觉动态对象感知SLAM系统,用于利用语义信息,使得能够在场景中进行准确的运动估计和跟踪动态刚性物体,而无需任何先前的物体形状或几何模型的知识。所提出的方法识别和跟踪环境中的动态对象和静态结构,并将这些信息集成到统一的SLAM框架中。这导致机器人轨迹的高度准确估计和对象的全部SE(3)运动以及环境的时空地图。该系统能够从对象的SE(3)运动中提取线性速度估计,为复杂的动态环境中的导航提供重要功能。我们展示了所提出的系统对许多真实室内和室外数据集的性能,结果表明了对最先进的算法的一致和实质性的改进。可以使用源代码的开源版本。
translated by 谷歌翻译
本文提出了一个语义平面SLAM系统,该系统使用实例平面分割网络中的提示来改善姿势估计和映射。尽管主流方法使用RGB-D传感器,但使用具有这样一个系统的单眼相机仍然面临着诸如强大的数据关联和精确的几何模型拟合等挑战。在大多数现有工作中,几何模型估计问题(例如同型估计和零件平面重建(PPR))通常通过标准(贪婪)RANSAC分别和顺序解决。但是,在没有有关场景的信息(即比例尺)的情况下,很难设置inlier-of-lefier-lefier threshold。在这项工作中,我们重新审视了这些问题,并认为可以通过最小化利用空间连贯性的能量函数来解决两个上述几何模型(同型/3D平面),即通过绘图剪切优化,这也可以解决实际问题,从而解决了实际问题。训练有素的CNN的输出不准确。此外,我们根据我们的实验提出了一种自适应参数设置策略,并报告对各种开源数据集进行全面评估。
translated by 谷歌翻译
在自动驾驶汽车和移动机器人上使用的多光束liDAR传感器可获得3D范围扫描的序列(“帧”)。由于有限的角度扫描分辨率和阻塞,每个框架都稀疏地覆盖了场景。稀疏性限制了语义分割或表面重建等下游过程的性能。幸运的是,当传感器移动时,帧将从一系列不同的观点捕获。这提供了互补的信息,当积累在公共场景坐标框架中时,会产生更密集的采样和对基础3D场景的更完整覆盖。但是,扫描场景通常包含移动对象。这些对象上的点不能仅通过撤消扫描仪的自我运动来正确对齐。在本文中,我们将多帧点云积累作为3D扫描序列的中级表示,并开发了一种利用室外街道场景的感应偏见的方法,包括其几何布局和对象级刚性。与最新的场景流估计器相比,我们提出的方法旨在使所有3D点在共同的参考框架中对齐,以正确地积累各个对象上的点。我们的方法大大减少了几个基准数据集上的对齐错误。此外,累积的点云使诸如表面重建之类的高级任务受益。
translated by 谷歌翻译
与其他标准摄像机相反,事件摄像机以完全不同的方式来解释世界。作为异步事件的集合。尽管事件摄像头的独特数据输出,但许多事件功能检测和跟踪算法通过绕开基于框架的数据表示表现出了重大进展。本文质疑这样做的需求,并提出了一种新颖的事件数据友好方法,该方法可以实现同时的特征检测和跟踪,称为基于事件聚类的检测和跟踪(ECDT)。我们的方法采用一种新颖的聚类方法,称为基于K-NN分类器的空间聚类和噪声应用程序(KCSCAN)的应用,用于聚类相邻的极性事件以检索事件轨迹。借助头部和尾部描述符匹配过程,事件群集,在不同的极性中重新出现,不断跟踪,从而拉长了功能轨道。由于我们在时空空间中的聚类方法,我们的方法可以自动求解功能检测和特征跟踪。此外,ECDT可以使用可调的时间窗口以任何频率提取功能轨道,这不会破坏原始事件数据的高时间分辨率。与最先进的方法相比,我们的方法可以达到30%的特征跟踪年龄,同时也具有与其大约等于其的低误差。
translated by 谷歌翻译
事件摄像机是运动激活的传感器,可捕获像素级照明的变化,而不是具有固定帧速率的强度图像。与标准摄像机相比,它可以在高速运动和高动态范围场景中提供可靠的视觉感知。但是,当相机和场景之间的相对运动受到限制时,例如在静态状态下,事件摄像机仅输出一点信息甚至噪音。尽管标准相机可以在大多数情况下,尤其是在良好的照明条件下提供丰富的感知信息。这两个相机完全是互补的。在本文中,我们提出了一种具有鲁棒性,高智能和实时优化的基于事件的视觉惯性镜(VIO)方法,具有事件角度,基于线的事件功能和基于点的图像功能。提出的方法旨在利用人为场景中的自然场景和基于线路的功能中的基于点的功能,以通过设计良好设计的功能管理提供更多其他结构或约束信息。公共基准数据集中的实验表明,与基于图像或基于事件的VIO相比,我们的方法可以实现卓越的性能。最后,我们使用我们的方法演示了机上闭环自动驾驶四极管飞行和大规模室外实验。评估的视频在我们的项目网站上介绍:https://b23.tv/oe3qm6j
translated by 谷歌翻译
传统摄像机测量图像强度。相比之下,事件相机以异步测量每像素的时间强度变化。恢复事件的强度是一个流行的研究主题,因为重建的图像继承了高动态范围(HDR)和事件的高速属性;因此,它们可以在许多机器人视觉应用中使用并生成慢动作HDR视频。然而,最先进的方法通过训练映射到图像经常性神经网络(RNN)来解决这个问题,这缺乏可解释性并且难以调整。在这项工作中,我们首次展示运动和强度估计的联合问题导致我们以模拟基于事件的图像重建作为可以解决的线性逆问题,而无需训练图像重建RNN。相反,基于古典和学习的图像前导者可以用于解决问题并从重建的图像中删除伪影。实验表明,尽管仅使用来自短时间间隔(即,没有复发连接),但是,尽管只使用来自短时间间隔的数据,所提出的方法会产生视觉质量的图像。我们的方法还可用于提高首先估计图像Laplacian的方法重建的图像的质量;在这里,我们的方法可以被解释为由图像前提引导的泊松重建。
translated by 谷歌翻译
事件摄像机是由生物启发的传感器,比传统摄像机具有优势。它们不同步,用微秒的分辨率对场景进行采样,并产生亮度变化。这种非常规的输出引发了新型的计算机视觉方法,以释放相机的潜力。我们解决了SLAM的基于事件的立体3D重建问题。大多数基于事件的立体声方法都试图利用相机跨相机的高时间分辨率和事件同时性,以建立匹配和估计深度。相比之下,我们研究了如何通过融合有效的单眼方法来融合差异空间图像(DSIS)来估计深度。我们开发融合理论,并将其应用于设计产生最先进结果的多相机3D重建算法,正如我们通过与四种基线方法进行比较并在各种可用数据集上进行测试的确认。
translated by 谷歌翻译
事件摄像机捕获观察到的场景中的照明的变化,而不是累积光以创建图像。因此,它们允许在高速运动和复杂的照明条件下的应用,其中传统的框架传感器显示它们的模糊和过度或未出现的像素的限制。由于这些独特的属性,它们表示现在是与其相关的应用的高度有吸引力的传感器。在这些神经形式相机的普及升高之后,已经研究了基于事件的光流(EBOF)。然而,最近的高清神经晶体传感器的到来挑战现有方法,因为事件像素阵列的分辨率增加和更高的吞吐量。作为这些点的答案,我们提出了一种用于实时计算光流的优化框架,以及低分辨率的事件摄像机。我们以“逆指数距离表面”的形式为稀疏事件流制定了一种新的密集表示。它用作临时框架,专为使用证明,最先进的基于框架的光流量计算方法而设计。我们评估我们在低分辨率和高分辨率驾驶序列上的方法,并表明它通常比当前现有技术更好地实现更好的结果,同时也达到更高的帧速率,250Hz在346 x 260像素和77Hz在1280 x 720像素。
translated by 谷歌翻译
事件摄像机是受生物启发的传感器,在具有挑战性的照明条件下表现良好,并且具有高时间分辨率。但是,他们的概念与传统的基于框架的相机根本不同。事件摄像机的像素独立和不同步。他们测量对数亮度的变化,并以高度离散的时间stamp事件形式返回它们,表明自上次事件以来一定数量的相对变化。需要新的模型和算法来处理这种测量。目前的工作着眼于事件摄像机的几个运动估计问题。事件的流以时空量的一般均应翘曲为模型,并且该目标被提出为扭曲事件图像中对比度的最大化。我们的核心贡献包括针对这些通常非凸的问题得出全球最佳解决方案,从而消除了对困扰现有方法的良好初始猜测的依赖。我们的方法依赖于分支和结合的优化,并采用了针对六个不同的对比度估计函数得出的新颖和高效的递归上限和下限。通过成功应用于三个不同的事件摄像机运动估计问题,我们的方法的实际有效性证明了这一点。
translated by 谷歌翻译
The quantitative evaluation of optical flow algorithms by Barron et al. (1994) led to significant advances in performance. The challenges for optical flow algorithms today go beyond the datasets and evaluation methods proposed in that paper. Instead, they center on problems associated with complex natural scenes, including nonrigid motion, real sensor noise, and motion discontinuities. We propose a new set of benchmarks and evaluation methods for the next generation of optical flow algorithms. To that end, we contribute four types of data to test different aspects of optical flow algorithms: (1) sequences with nonrigid motion where the ground-truth flow is determined by A preliminary version of this paper appeared in the IEEE International Conference on Computer Vision (Baker et al. 2007).
translated by 谷歌翻译
This paper proposes a novel model and dataset for 3D scene flow estimation with an application to autonomous driving. Taking advantage of the fact that outdoor scenes often decompose into a small number of independently moving objects, we represent each element in the scene by its rigid motion parameters and each superpixel by a 3D plane as well as an index to the corresponding object. This minimal representation increases robustness and leads to a discrete-continuous CRF where the data term decomposes into pairwise potentials between superpixels and objects. Moreover, our model intrinsically segments the scene into its constituting dynamic components. We demonstrate the performance of our model on existing benchmarks as well as a novel realistic dataset with scene flow ground truth. We obtain this dataset by annotating 400 dynamic scenes from the KITTI raw data collection using detailed 3D CAD models for all vehicles in motion. Our experiments also reveal novel challenges which cannot be handled by existing methods.
translated by 谷歌翻译
移动物体检测在计算机视觉中很重要。基于事件的相机是通过模仿人眼的工作来工作的生物启发相机。这些摄像机与传统的基于帧的相机具有多种优点,例如在高运动期间的降低的延迟,HDR,降低运动模糊等,尽管存在这些优点,但基于事件的相机是噪声敏感的并且具有低分辨率。此外,由于基于事件的传感器缺乏纹理和颜色,因此难以困难地难以移动对象检测的任务。在本文中,我们调查K-Means聚类技术在基于事件数据中检测移动对象的应用。
translated by 谷歌翻译
Although synthetic aperture imaging (SAI) can achieve the seeing-through effect by blurring out off-focus foreground occlusions while recovering in-focus occluded scenes from multi-view images, its performance is often deteriorated by dense occlusions and extreme lighting conditions. To address the problem, this paper presents an Event-based SAI (E-SAI) method by relying on the asynchronous events with extremely low latency and high dynamic range acquired by an event camera. Specifically, the collected events are first refocused by a Refocus-Net module to align in-focus events while scattering out off-focus ones. Following that, a hybrid network composed of spiking neural networks (SNNs) and convolutional neural networks (CNNs) is proposed to encode the spatio-temporal information from the refocused events and reconstruct a visual image of the occluded targets. Extensive experiments demonstrate that our proposed E-SAI method can achieve remarkable performance in dealing with very dense occlusions and extreme lighting conditions and produce high-quality images from pure events. Codes and datasets are available at https://dvs-whu.cn/projects/esai/.
translated by 谷歌翻译
上下文最大化(CMAX)是一个框架,可在几个基于事件的计算机视觉任务(例如自我移动或光流估计)上提供最新结果。但是,它可能会遇到一个称为事件崩溃的问题,这是一种不希望的解决方案,其中事件被扭曲成太少的像素。由于先前的工作在很大程度上忽略了这个问题或提议的解决方法,因此必须详细分析这种现象。我们的工作证明了事件以最简单的形式崩溃,并通过使用基于差异几何和物理学的时空变形的第一原理提出了崩溃指标。我们通过实验表明,公开可用的数据集表明,拟议的指标减轻了事件崩溃,并且不会损害良好的扭曲。据我们所知,与其他方法相比,基于提议的指标的正规化器是唯一有效的解决方案,可以防止在考虑的实验环境中发生事件崩溃。我们希望这项工作激发了进一步的研究,以应对更复杂的翘曲模型。
translated by 谷歌翻译
事件摄像机对场景动态做出响应,并提供了估计运动的优势。遵循最近基于图像的深度学习成就,事件摄像机的光流估计方法急于将基于图像的方法与事件数据相结合。但是,由于它们具有截然不同的属性,因此需要几个改编(数据转换,损失功能等)。我们开发了一种原则性的方法来扩展对比度最大化框架以估算仅事件的光流。我们研究关键要素:如何设计目标函数以防止过度拟合,如何扭曲事件以更好地处理遮挡,以及如何改善与多规模原始事件的收敛性。有了这些关键要素,我们的方法在MVSEC基准的无监督方法中排名第一,并且在DSEC基准上具有竞争力。此外,我们的方法使我们能够在这些基准测试中揭露地面真相流的问题,并在将其转移到无监督的学习环境中时会产生出色的结果。我们的代码可在https://github.com/tub-rip/event_based_optility_flow上找到
translated by 谷歌翻译
事件摄像机是生物启发传感器,可通过标准摄像机提供显着优势,例如低延迟,高延迟,高度的时间分辨率和高动态范围。我们提出了一种使用事件摄像机的新型结构化光系统来解决准确和高速深度感测的问题。我们的设置包括一个事件摄像机和一个激光点投影仪,在16毫秒期间,在光栅扫描模式中均匀地照亮场景。以前的方法匹配相互独立的事件,因此它们在信号延迟和抖动的存在下以高扫描速度提供噪声深度估计。相比之下,我们优化了旨在利用事件相关性的能量函数,称为时空稠度。所得到的方法对事件抖动鲁棒,因此以更高的扫描速度执行更好。实验表明,我们的方法可以根据事件摄像机处理高速运动和优于最先进的3D重建方法,对于相同的采集时间,平均地将RMSE降低了83%。
translated by 谷歌翻译
神经形态的愿景是一种生物启发技术,它已经引发了计算机视觉界的范式转变,并作为众多应用的关键推动器。该技术提供了显着的优势,包括降低功耗,降低处理需求和通信加速。然而,神经形态摄像机患有大量的测量噪声。这种噪声恶化了基于神经形态事件的感知和导航算法的性能。在本文中,我们提出了一种新的噪声过滤算法来消除不代表观察场景中的实际记录强度变化的事件。我们采用图形神经网络(GNN) - 驱动的变压器算法,称为GNN变换器,将原始流中的每个活动事件像素分类为实木强度变化或噪声。在GNN中,传递一个名为EventConv的消息传递框架,以反映事件之间的时空相关性,同时保留它们的异步性质。我们还介绍了在各种照明条件下生成事件流的近似地面真理标签(KogT1)方法。 Kogtl用于生成标记的数据集,从记录在充满挑战的照明条件下进行的实验。这些数据集用于培训和广泛测试我们所提出的算法。在取消检测的数据集上测试时,所提出的算法在过滤精度方面优于现有方法12%。还对公共数据集进行了额外的测试,以展示在存在照明变化和不同运动动态的情况下所提出的算法的泛化能力。与现有解决方案相比,定性结果验证了所提出的算法的卓越能力,以消除噪音,同时保留有意义的场景事件。
translated by 谷歌翻译
事件摄像头是一种新兴的生物启发的视觉传感器,每像素亮度不同步地变化。它具有高动态范围,高速响应和低功率预算的明显优势,使其能够在不受控制的环境中最好地捕获本地动作。这激发了我们释放事件摄像机进行人姿势估计的潜力,因为很少探索人类姿势估计。但是,由于新型范式从传统的基于框架的摄像机转变,时间间隔中的事件信号包含非常有限的信息,因为事件摄像机只能捕获移动的身体部位并忽略那些静态的身体部位,从而导致某些部位不完整甚至在时间间隔中消失。本文提出了一种新型的密集连接的复发架构,以解决不完整信息的问题。通过这种经常性的体系结构,我们可以明确地对跨时间步骤的顺序几何一致性进行明确模拟,从而从以前的帧中积累信息以恢复整个人体,从而从事件数据中获得稳定且准确的人类姿势估计。此外,为了更好地评估我们的模型,我们收集了一个基于人类姿势注释的大型多模式事件数据集,该数据集是迄今为止我们所知的最具挑战性的数据集。两个公共数据集和我们自己的数据集的实验结果证明了我们方法的有效性和强度。代码可以在线提供,以促进未来的研究。
translated by 谷歌翻译
现有的基于深度学习的无监督视频对象分割方法仍依靠地面真实的细分面具来训练。在这种情况下令人未知的意味着在推理期间没有使用注释帧。由于获得真实图像场景的地面真实的细分掩码是一种艰苦的任务,我们想到了一个简单的框架,即占主导地位的移动对象分割,既不需要注释数据训练,也不依赖于显着的电视或预先训练的光流程图。灵感来自分层图像表示,我们根据仿射参数运动引入对像素区域进行分组的技术。这使我们的网络能够仅使用RGB图像对为培训和推理的输入来学习主要前景对象的分割。我们使用新的MOVERCARS DataSet为这项新颖任务建立了基线,并对最近的方法表现出竞争性能,这些方法需要培训带有注释面具的最新方法。
translated by 谷歌翻译