Visual object tracking under challenging conditions of motion and light can be hindered by the capabilities of conventional cameras, prone to producing images with motion blur. Event cameras are novel sensors suited to robustly perform vision tasks under these conditions. However, due to the nature of their output, applying them to object detection and tracking is non-trivial. In this work, we propose a framework to take advantage of both event cameras and off-the-shelf deep learning for object tracking. We show that reconstructing event data into intensity frames improves the tracking performance in conditions under which conventional cameras fail to provide acceptable results.
translated by 谷歌翻译
Event-based vision has been rapidly growing in recent years justified by the unique characteristics it presents such as its high temporal resolutions (~1us), high dynamic range (>120dB), and output latency of only a few microseconds. This work further explores a hybrid, multi-modal, approach for object detection and tracking that leverages state-of-the-art frame-based detectors complemented by hand-crafted event-based methods to improve the overall tracking performance with minimal computational overhead. The methods presented include event-based bounding box (BB) refinement that improves the precision of the resulting BBs, as well as a continuous event-based object detection method, to recover missed detections and generate inter-frame detections that enable a high-temporal-resolution tracking output. The advantages of these methods are quantitatively verified by an ablation study using the higher order tracking accuracy (HOTA) metric. Results show significant performance gains resembled by an improvement in the HOTA from 56.6%, using only frames, to 64.1% and 64.9%, for the event and edge-based mask configurations combined with the two methods proposed, at the baseline framerate of 24Hz. Likewise, incorporating these methods with the same configurations has improved HOTA from 52.5% to 63.1%, and from 51.3% to 60.2% at the high-temporal-resolution tracking rate of 384Hz. Finally, a validation experiment is conducted to analyze the real-world single-object tracking performance using high-speed LiDAR. Empirical evidence shows that our approaches provide significant advantages compared to using frame-based object detectors at the baseline framerate of 24Hz and higher tracking rates of up to 500Hz.
translated by 谷歌翻译
近年来,事件摄像机(DVS - 动态视觉传感器)已在视觉系统中用作传统摄像机的替代或补充。它们的特征是高动态范围,高时间分辨率,低潜伏期和在有限的照明条件下可靠的性能 - 在高级驾驶员辅助系统(ADAS)和自动驾驶汽车的背景下,参数尤为重要。在这项工作中,我们测试这些相当新颖的传感器是否可以应用于流行的交通标志检测任务。为此,我们分析事件数据的不同表示:事件框架,事件频率和指数衰减的时间表面,并使用称为FireNet的深神经网络应用视频框架重建。我们将深度卷积神经网络Yolov4用作检测器。对于特定表示,我们获得了86.9-88.9%map@0.5的检测准确性。使用融合所考虑的表示形式的使用使我们能够获得更高准确性的检测器89.9%map@0.5。相比之下,用Firenet重建的框架的检测器的特征是52.67%map@0.5。获得的结果说明了汽车应用中事件摄像机的潜力,无论是独立传感器还是与典型的基于框架的摄像机密切合作。
translated by 谷歌翻译
这项工作介绍了使用常规摄像头和事件摄像机的多动画视觉数据获取的共同捕获系统。事件摄像机比基于框架的相机具有多个优势,例如高时间分辨率和时间冗余抑制,这使我们能够有效捕获鱼类的快速和不稳定的运动。此外,我们提出了一种基于事件的多动物跟踪算法,该算法证明了该方法的可行性,并为进一步探索事件摄像机和传统摄像机的多动物跟踪的优势提供了基础。
translated by 谷歌翻译
事件摄像机可产生大型动态范围事件流,并具有很高的时间分辨率,可丢弃冗余视觉信息,从而为对象检测任务带来新的可能性。但是,将事件摄像机应用于使用深度学习方法对象检测任务的现有方法仍然存在许多问题。首先,由于全局同步时间窗口和时间分辨率,现有方法无法考虑具有不同速度的对象。其次,大多数现有方法都依赖于大型参数神经网络,这意味着较大的计算负担和低推理速度,因此与事件流的高时间分辨率相反。在我们的工作中,我们设计了一种使用简单但有效的数据增强方法的高速轻质检测器,称为敏捷事件检测器(AED)。此外,我们提出了一个称为“时间主动焦点(TAF)”的事件流表示张量,该量子充分利用了事件流数据的异步生成,并且对移动对象的运动非常强大。它也可以在不耗时的情况下构造。我们进一步提出了一个称为分叉折叠模块(BFM)的模块,以在AED检测器的输入层的TAF张量中提取丰富的时间信息。我们对两个典型的实体事件摄像机对象检测数据集进行了实验:完整的预言GEN1汽车检测数据集和预言1 Megapixel Automotive检测数据集,带有部分注释。实验表明,我们的方法在准确性,速度和参数数量方面具有竞争力。同样,通过基于光流密度度量的对象将对象分类为多个运动级别,我们说明了相对于摄像机具有不同速度的对象的方法的鲁棒性。
translated by 谷歌翻译
随着已安装的摄像机的数量,需要处理和分析这些摄像机捕获的所有图像所需的计算资源。视频分析使新用例(例如智能城市)或自动驾驶等开放。与此同时,它敦促服务提供商安装额外的计算资源以应对需求,而严格的延迟要求推动到网络末尾的计算,形成了地理分布式和异构的计算位置集,共享和资源受限。这种景观(共享和分布式位置)迫使我们设计可以在所有可用位置之间优化和分发工作的新技术,并且理想情况下,使得计算要求在安装的相机的数量方面增长。在本文中,我们展示了FOMO(专注于移动物体)。该方法通过预处理场景,过滤空区输出并将来自多个摄像机的感兴趣区域组成为用于预先训练的对象检测模型的输入的单个图像来有效地优化多摄像机部署。结果表明,整体系统性能可以提高8倍,而精度可提高40%作为方法的副产物,所有这些都是使用储物预训练模型,没有额外的训练或微调。
translated by 谷歌翻译
事件摄像机捕获观察到的场景中的照明的变化,而不是累积光以创建图像。因此,它们允许在高速运动和复杂的照明条件下的应用,其中传统的框架传感器显示它们的模糊和过度或未出现的像素的限制。由于这些独特的属性,它们表示现在是与其相关的应用的高度有吸引力的传感器。在这些神经形式相机的普及升高之后,已经研究了基于事件的光流(EBOF)。然而,最近的高清神经晶体传感器的到来挑战现有方法,因为事件像素阵列的分辨率增加和更高的吞吐量。作为这些点的答案,我们提出了一种用于实时计算光流的优化框架,以及低分辨率的事件摄像机。我们以“逆指数距离表面”的形式为稀疏事件流制定了一种新的密集表示。它用作临时框架,专为使用证明,最先进的基于框架的光流量计算方法而设计。我们评估我们在低分辨率和高分辨率驾驶序列上的方法,并表明它通常比当前现有技术更好地实现更好的结果,同时也达到更高的帧速率,250Hz在346 x 260像素和77Hz在1280 x 720像素。
translated by 谷歌翻译
Compared to regular cameras, Dynamic Vision Sensors or Event Cameras can output compact visual data based on a change in the intensity in each pixel location asynchronously. In this paper, we study the application of current image-based SLAM techniques to these novel sensors. To this end, the information in adaptively selected event windows is processed to form motion-compensated images. These images are then used to reconstruct the scene and estimate the 6-DOF pose of the camera. We also propose an inertial version of the event-only pipeline to assess its capabilities. We compare the results of different configurations of the proposed algorithm against the ground truth for sequences of two publicly available event datasets. We also compare the results of the proposed event-inertial pipeline with the state-of-the-art and show it can produce comparable or more accurate results provided the map estimate is reliable.
translated by 谷歌翻译
由于它们对运动模糊和在弱光和高动态范围条件下的高度鲁棒性的韧性,事件摄像机有望成为对未来火星直升机任务的基于视觉探索的传感器。但是,现有的基于事件的视觉惯性进程(VIO)算法要么患有高跟踪误差,要么是脆弱的,因为它们无法应对由于无法预料的跟踪损失或其他效果而导致的显着深度不确定性。在这项工作中,我们介绍了EKLT-VIO,该工作通过将基于事件的最新前端与基于过滤器的后端相结合来解决这两种限制。这使得不确定性的准确和强大,超过了基于事件和基于框架的VIO算法在挑战性基准上的算法32%。此外,我们在悬停的条件(胜过现有事件的方法)以及新近收集的类似火星和高动态范围的新序列中表现出准确的性能,而现有的基于框架的方法失败了。在此过程中,我们表明基于事件的VIO是基于视觉的火星探索的前进道路。
translated by 谷歌翻译
基于快速的神经形态的视觉传感器(动态视觉传感器,DVS)可以与基于较慢的帧的传感器组合,以实现比使用例如固定运动近似的传统方法更高质量的帧间内插。光流。在这项工作中,我们展示了一个新的高级事件模拟器,可以产生由相机钻机录制的现实场景,该仪器具有位于固定偏移的任意数量的传感器。它包括具有现实图像质量降低效果的新型可配置帧的图像传感器模型,以及具有更精确的特性的扩展DVS模型。我们使用我们的模拟器培训一个新的重建模型,专为高FPS视频的端到端重建而设计。与以前发表的方法不同,我们的方法不需要帧和DVS相机具有相同的光学,位置或相机分辨率。它还不限于物体与传感器的固定距离。我们表明我们的模拟器生成的数据可用于训练我们的新模型,导致在与最先进的公共数据集上的公共数据集中的重建图像。我们还向传感器展示了真实传感器记录的数据。
translated by 谷歌翻译
从理想图像中估算神经辐射场(NERF)已在计算机视觉社区中进行了广泛的研究。大多数方法都采用最佳照明和缓慢的相机运动。这些假设通常在机器人应用中违反,其中图像包含运动模糊,场景可能没有合适的照明。这可能会给下游任务(例如导航,检查或可视化场景)带来重大问题。为了减轻我们提出的E-NERF的这些问题,这是第一种方法,该方法以快速移动的事件摄像机的形式估算了以NERF的形式进行体积的场景表示形式。我们的方法可以在非常快速的运动和高动态范围条件下恢复NERF,而基于框架的方法失败。我们证明,仅提供事件流作为输入,可以渲染高质量的帧。此外,通过结合事件和框架,我们可以在严重的运动模糊下估计比最先进的方法更高的质量。我们还表明,将事件和帧组合可以克服在只有很少的输入视图的情况下,无需额外正则化的方案中的NERF估计案例。
translated by 谷歌翻译
Accurate representation and localization of relevant objects is important for robots to perform tasks. Building a generic representation that can be used across different environments and tasks is not easy, as the relevant objects vary depending on the environment and the task. Furthermore, another challenge arises in agro-food environments due to their complexity, and high levels of clutter and occlusions. In this paper, we present a method to build generic representations in highly occluded agro-food environments using multi-view perception and 3D multi-object tracking. Our representation is built upon a detection algorithm that generates a partial point cloud for each detected object. The detected objects are then passed to a 3D multi-object tracking algorithm that creates and updates the representation over time. The whole process is performed at a rate of 10 Hz. We evaluated the accuracy of the representation on a real-world agro-food environment, where it was able to successfully represent and locate tomatoes in tomato plants despite a high level of occlusion. We were able to estimate the total count of tomatoes with a maximum error of 5.08% and to track tomatoes with a tracking accuracy up to 71.47%. Additionally, we showed that an evaluation using tracking metrics gives more insight in the errors in localizing and representing the fruits.
translated by 谷歌翻译
活动相机是一种与传统摄像机不同的新型传感器。每个像素通过事件异步触发。触发事件是在像素上照射的亮度的变化。如果亮度的增量或衰减高于某个阈值,则输出事件。与传统相机相比,活动相机具有高动态范围和运动模糊的优点。将事件累积到帧和使用传统的SLAM算法是一种基于事件的SLAM的直接和有效的方法。不同的事件累加器设置,例如事件流的切片方法,没有动作的处理方法,使用极性,衰减功能和事件贡献,可能导致相当不同的累积结果。我们对如何累积事件帧进行研究以实现更好的基于事件的SLAM性能。对于实验验证,累积的事件帧被馈送到传统的SLAM系统以构建基于事件的SLAM系统。我们的设置事件累加器的策略已在公共数据集上进行评估。实验结果表明,与基于最先进的事件帧的SLAM算法相比,我们的方法可以在大多数序列中实现更好的性能。此外,所提出的方法已经在四轮车UAV上进行了测试,以显示实际方案中的应用程序。代码和结果是开放的,以使事件摄像机的研究界受益
translated by 谷歌翻译
事件摄像机由于理想的特征,例如高动态范围,低延迟,几乎没有运动模糊和高能量效率而继续引起兴趣。事件摄像机研究的潜在应用之一是在机器人本地化的视觉场所识别中,必须将查询观测值与数据库中的相应参考位置匹配。在这封信中,我们探讨了一小部分像素(在数十个或数百个)中的事件流的独特性。我们证明,当使用在参考集中显示大变化的像素时,积累到事件框架的那些像素位置的事件数量的绝对差异就足以足以进行位置识别任务。使用如此稀疏(图像坐标),但是(对于每个像素位置的事件数量)有变化,可以使位置估计值的频繁和计算廉价更新。此外,当事件帧包含恒定事件的数量时,我们的方法充分利用了感官流的事件驱动性质,并显示出对速度变化的有希望的鲁棒性。我们在户外驾驶场景中评估了布里斯班 - 事件-VPR数据集的建议方法,以及新贡献的室内QCR-Event-VPR数据集,该数据集用安装在移动机器人平台上的Davis346相机捕获。我们的结果表明,与这些数据集上的几种基线方法相比,我们的方法可实现竞争性能,并且特别适合于计算和能源约束的平台,例如星际漫游者。
translated by 谷歌翻译
我们使用隐式表达式从事件数据提出了一部新颖的运动跟踪框架。我们的框架使用预先训练的事件生成MLP命名为隐式事件生成器(IEG),并且通过基于从当前状态估计的所观察到的事件和生成的事件之间的差异来更新其状态(位置和速度)来进行运动跟踪。差异由IEG隐式计算。与传统的显式方法不同,需要密集的计算来评估差异,我们的隐式方法直接从稀疏事件数据实现有效状态更新。我们的稀疏算法特别适用于计算资源和电池寿命有限的移动机器人应用。为了验证我们对现实数据的方法的有效性,我们将其应用于AR标记跟踪应用程序。我们已经证实,我们的框架在噪音和背景混乱存在下的现实环境中运作良好。
translated by 谷歌翻译
对人类对象相互作用的理解在第一人称愿景(FPV)中至关重要。遵循相机佩戴者操纵的对象的视觉跟踪算法可以提供有效的信息,以有效地建模此类相互作用。在过去的几年中,计算机视觉社区已大大提高了各种目标对象和场景的跟踪算法的性能。尽管以前有几次尝试在FPV域中利用跟踪器,但仍缺少对最先进跟踪器的性能的有条理分析。这项研究差距提出了一个问题,即应使用当前的解决方案``现成''还是应进行更多特定领域的研究。本文旨在为此类问题提供答案。我们介绍了FPV中单个对象跟踪的首次系统研究。我们的研究广泛分析了42个算法的性能,包括通用对象跟踪器和基线FPV特定跟踪器。分析是通过关注FPV设置的不同方面,引入新的绩效指标以及与FPV特定任务有关的。这项研究是通过引入Trek-150(由150个密集注释的视频序列组成的新型基准数据集)来实现的。我们的结果表明,FPV中的对象跟踪对当前的视觉跟踪器构成了新的挑战。我们强调了导致这种行为的因素,并指出了可能的研究方向。尽管遇到了困难,但我们证明了跟踪器为需要短期对象跟踪的FPV下游任务带来好处。我们预计,随着新的和FPV特定的方法学会得到研究,通用对象跟踪将在FPV中受欢迎。
translated by 谷歌翻译
气孔(螳螂虾)视觉系统最近提供了一种用于设计范式转换极化和多光谱成像传感器的蓝图,使解决方案能够挑战医疗和遥感问题。然而,这些生物透视传感器缺乏气孔视觉系统的高动态范围(HDR)和异步偏振视觉功能,将时间分辨率限制为\〜12 ms和动态范围到\〜72 dB。在这里,我们提出了一种新的Stomatopod-Inspireation相机,其模仿持续和瞬态的生物视觉途径,以节省超出最大奈奎斯特帧速率的功率和样本数据。该生物启发传感器同时捕获同步强度帧和异步偏振亮度改变信息与百万倍的照明范围内的子毫秒延迟。我们的PDAVIS摄像机由346x260像素组成,组织在2×2宏像素中,该型滤光器有4个线性偏振滤波器偏移45度。使用基于低成本和延迟事件的算法和更准确但深度神经网络的更准确而是重建极化信息。我们的传感器用于图像在快速循环载荷下观察牛筋膜中单胶原纤维的单胶原纤维的动态性能
translated by 谷歌翻译
现代目光跟踪系统中的相机具有基本的带宽和功率限制,实际上将数据采集速度限制为300 Hz。这会阻碍使用移动眼镜手术器的使用,例如低潜伏期预测性渲染,或者在野外使用头部安装的设备来快速而微妙的眼动运动,例如微扫视。在这里,我们提出了一个基于混合框架的近眼凝视跟踪系统,可提供超过10,000 Hz的更新速率,其准确性与在相同条件下评估时相匹配的高端台式机商业跟踪器。我们的系统建立在新兴事件摄像机的基础上,该摄像头同时获得定期采样框架和自适应采样事件。我们开发了一种在线2D学生拟合方法,该方法每一个或几个事件都会更新参数模型。此外,我们提出了一个多项式回归器,用于实时估算参数学生模型的凝视点。使用第一个基于事件的凝视数据集,可在https://github.com/aangelopoulos/event_based_gaze_tracking上获得,我们证明我们的系统可实现0.45度 - 1.75度的准确度,用于从45度到98度的视野。借助这项技术,我们希望能够为虚拟和增强现实提供新一代的超低延迟凝视呈现和展示技术。
translated by 谷歌翻译
事件摄像机是由生物启发的传感器,比传统摄像机具有优势。它们不同步,用微秒的分辨率对场景进行采样,并产生亮度变化。这种非常规的输出引发了新型的计算机视觉方法,以释放相机的潜力。我们解决了SLAM的基于事件的立体3D重建问题。大多数基于事件的立体声方法都试图利用相机跨相机的高时间分辨率和事件同时性,以建立匹配和估计深度。相比之下,我们研究了如何通过融合有效的单眼方法来融合差异空间图像(DSIS)来估计深度。我们开发融合理论,并将其应用于设计产生最先进结果的多相机3D重建算法,正如我们通过与四种基线方法进行比较并在各种可用数据集上进行测试的确认。
translated by 谷歌翻译
我们提出了一种基于事件的降雪算法,称为EBSNOR。我们开发了一种技术,可以使用基于事件的相机数据来测量像素上雪花的停留时间,该数据用于进行Neyman-Pearson假设测试,以将事件流分为雪花和背景事件。在一个名为udayton22ebsnow的新数据集上验证了拟议的EBSNOR的有效性,该数据集由前面事件的摄像机组成,该相机在汽车中驾驶雪中,并在周围车辆周围手动注释的边界盒。在定性上,Ebsnor正确地标识了与雪花相对应的事件;并且在定量上,EBSNOR预处理的事件数据改善了基于事件的CAR检测算法的性能。
translated by 谷歌翻译