主动感知和凹觉视觉是人类视觉系统的基础。虽然动脉凹视觉减少了在注视期间要处理的信息的量,但主动感知会将凝视方向转变为视野中最有前途的部分。我们提出了一种方法,以模仿人类和机器人使用中央摄像机探索场景,并以最少的凝视转移来识别周围环境中存在的物体。我们的方法基于三种关键方法。首先,我们采用现成的深度对象检测器,并在大量的常规图像数据集上进行了预训练,并将分类输出校准为foveateat图像的情况。其次,考虑了几种数据融合技术,对对象分类和相应的不确定性编码对象分类和相应的不确定性进行了依次更新。第三,下一个最好的目光固定点是基于信息理论指标确定的,旨在最大程度地减少语义图的总预期不确定性。与随机选择的下一个凝视转移相比,提出的方法可以使检测的F1分数增加2-3个百分点,以相同数量的凝视偏移,并减少三分之一,而三分之一则是所需的凝视转移数量以达到相似的性能。
translated by 谷歌翻译
在安全至关重要的应用中,深度神经网络的使用越来越多,就需要训练有素的模型。当前大多数校准技术解决了分类问题,同时着重于改善对内域预测的校准。在许多决策系统中占据相似的空间和重要性的视觉对象探测器的校准几乎没有关注。在本文中,我们研究了当前对象检测模型的校准,尤其是在域移位下。为此,我们首先引入了插件的火车时间校准损失以进行对象检测。它可以用作辅助损失函数,以改善检测器的校准。其次,我们设计了一种新的不确定性量化机制来进行对象检测,该机制可以隐式校准常用的基于自我训练的域自适应检测器。我们在研究中包括单阶段和两阶段对象探测器。我们证明,我们的损失改善了具有明显边缘的内域和室外检测的校准。最后,我们展示了我们技术在校准不同域移动方案中的域自适应对象探测器方面的实用性。
translated by 谷歌翻译
探讨了将数据驱动对象检测器的不确定性结合到对象跟踪算法中的不确定性的方法。对象跟踪方法依赖于测量误差模型,通常以测量噪声,假阳性率和错过检测速率的形式。通常,这些数量通常可以取决于物体或测量位置。然而,对于从神经网络处理的摄像机输入产生的检测,这些测量误差统计不足以表示主要错误源,即运行时传感器输入与检测器训练的训练数据之间的不相似性。为此,我们调查将数据不确定性纳入物体跟踪方法,例如提高跟踪物体的能力,特别是那些超出的能力。培训数据。所提出的方法在对象跟踪基准上验证以及具有真正自治飞机的实验。
translated by 谷歌翻译
Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.
translated by 谷歌翻译
对人类对象相互作用的理解在第一人称愿景(FPV)中至关重要。遵循相机佩戴者操纵的对象的视觉跟踪算法可以提供有效的信息,以有效地建模此类相互作用。在过去的几年中,计算机视觉社区已大大提高了各种目标对象和场景的跟踪算法的性能。尽管以前有几次尝试在FPV域中利用跟踪器,但仍缺少对最先进跟踪器的性能的有条理分析。这项研究差距提出了一个问题,即应使用当前的解决方案``现成''还是应进行更多特定领域的研究。本文旨在为此类问题提供答案。我们介绍了FPV中单个对象跟踪的首次系统研究。我们的研究广泛分析了42个算法的性能,包括通用对象跟踪器和基线FPV特定跟踪器。分析是通过关注FPV设置的不同方面,引入新的绩效指标以及与FPV特定任务有关的。这项研究是通过引入Trek-150(由150个密集注释的视频序列组成的新型基准数据集)来实现的。我们的结果表明,FPV中的对象跟踪对当前的视觉跟踪器构成了新的挑战。我们强调了导致这种行为的因素,并指出了可能的研究方向。尽管遇到了困难,但我们证明了跟踪器为需要短期对象跟踪的FPV下游任务带来好处。我们预计,随着新的和FPV特定的方法学会得到研究,通用对象跟踪将在FPV中受欢迎。
translated by 谷歌翻译
无数应用程序取决于具有现代物体探测器的可靠置信度估计的准确预测。然而,众所周知,包括对象探测器的神经网络产生错误的置换置信度估计。最近的工作甚至表明,探测器的置信度预测是关于对象大小和位置的偏置,但仍然尚不清楚该偏差如何涉及受影响的对象检测器的性能。我们正式证明,条件置信度偏差损害了对象探测器的预期性能,并经验验证这些发现。具体而言,我们演示了如何修改直方图融合校准,不仅避免性能障碍,而且还通过条件置信度校准提高性能。我们进一步发现,在探测器的训练数据上产生的检测中也存在置信度偏差,我们利用在不使用其他数据的情况下执行我们的去偏置。此外,测试时间增强放大了这种偏差,从我们的校准方法产生了更大的性能。最后,我们在不同的对象检测架构上验证了我们的调查结果,并在没有额外数据或培训的情况下显示最多0.6张地图和0.8 MAP50的改进。
translated by 谷歌翻译
由于许多安全性系统(例如手术机器人和自动驾驶汽车)在不稳定的环境中运行,具有传感器噪声和不完整的数据,因此希望对象探测器将本地化不确定性考虑在内。但是,基于锚的对象检测的现有不确定性估计方法存在几个局限性。 1)它们对具有不同特征和尺度的异质对象性质的不确定性进行建模,例如位置(中心点)和尺度(宽度,高度),这可能很难估算。 2)它们将框偏移型为高斯分布,这与遵循Dirac Delta分布的地面真相边界框不兼容。 3)由于基于锚的方法对锚定超参数敏感,因此它们的定位不确定性也可能对选择超参数的选择高度敏感。为了应对这些局限性,我们提出了一种称为UAD的新定位不确定性估计方法,用于无锚对象检测。我们的方法捕获了均匀的四个方向(左,右,顶部,底部)的四个方向的不确定性,因此它可以判断哪个方向不确定,并在[0,1]中提供不确定性的定量值。为了实现这种不确定性估计,我们设计了一种新的不确定性损失,负功率对数可能性损失,以通过加权其IOU加权可能性损失来衡量本地化不确定性,从而减轻了模型错误指定问题。此外,我们提出了反映分类评分的估计不确定性的不确定性感知局灶性损失。可可数据集的实验结果表明,我们的方法在不牺牲计算效率的情况下显着提高了最高1.8点的FCO。
translated by 谷歌翻译
自主驾驶应用中的对象检测意味着语义对象的检测和跟踪通常是城市驾驶环境的原产,作为行人和车辆。最先进的基于深度学习的物体检测中的主要挑战之一是假阳性,其出现过于自信得分。由于安全问题,这在自动驾驶和其他关键机器人感知域中是非常不可取的。本文提出了一种通过将新的概率层引入测试中的深度对象检测网络来缓解过度自信预测问题的方法。建议的方法避免了传统的乙状结肠或Softmax预测层,其通常产生过度自信预测。证明所提出的技术在不降低真实阳性上的性能的情况下降低了误报的过度频率。通过yolov4和第二(基于LiDar的探测器)对2D-Kitti异点检测验证了该方法。该方法使得能够实现可解释的概率预测,而无需重新培训网络,因此非常实用。
translated by 谷歌翻译
在协作人类机器人语义传感问题中,例如为了进行科学探索,机器人可能会通过人类伴侣提供过度质疑的信息,从而导致次优的状态估计和团队绩效差。当人类不能被视为牙齿时,机器人需要更新状态信念,以正确解释人类语义观察与导致这些观察的现实世界状态之间可能存在的差异。这项工作为在一般环境中针对语义可能性的概率语义数据关联(PSDA)概率进行了严格的在线计算制定了策略,这与以前的工作不同,这些工作开发了针对特定设置的天真或启发式近似。新的PSDA方法纳入了混合贝叶斯数据融合方案中,该方案将高斯混合先验用于对象状态和SoftMax函数用于语义人类传感器观察可能性,并在Monte Carlo模拟中证明了合作的多对象搜索任务的范围人类感测特征(例如错误的检测率)。结果表明,每当语义人类传感器数据包含重要的目标参考歧义性,用于自主对象搜索和本地化时,PSDA会导致在广泛条件下对观察关联概率的强大估计。
translated by 谷歌翻译
在本文中,我们通过将无线电信息结合到最先进的检测方法中提出了一种无线电辅助人类检测框架,包括基于锚的oneStage检测器和两级检测器。我们从无线电信号中提取无线电定位和标识符信息以帮助人类检测,由于哪种错误阳性和假否定的问题可能会大大缓解。对于两个探测器,我们使用基于无线电定位的置信度评分修订来提高检测性能。对于两级检测方法,我们建议利用无线电定位产生的区域提案,而不是依赖于区域提案网络(RPN)。此外,利用无线电标识符信息,还提出了具有无线电定位约束的非最大抑制方法,以进一步抑制假检测并减少错过的检测。模拟Microsoft Coco DataSet和CALTECH步行数据集的实验表明,借助无线电信息可以改善平均平均精度(地图)和最先进的检测方法的错过率。最后,我们在现实世界的情况下进行实验,以展示我们在实践中的提出方法的可行性。
translated by 谷歌翻译
每年,AEDESAEGYPTI蚊子都感染了数百万人,如登录,ZIKA,Chikungunya和城市黄热病等疾病。战斗这些疾病的主要形式是通过寻找和消除潜在的蚊虫养殖场来避免蚊子繁殖。在这项工作中,我们介绍了一个全面的空中视频数据集,获得了无人驾驶飞行器,含有可能的蚊帐。使用识别所有感兴趣对象的边界框手动注释视频数据集的所有帧。该数据集被用于开发基于深度卷积网络的这些对象的自动检测系统。我们提出了通过在可以注册检测到的对象的时空检测管道的对象检测流水线中的融合来利用视频中包含的时间信息,这些时间是可以注册检测到的对象的,最大限度地减少最伪正和假阴性的出现。此外,我们通过实验表明使用视频比仅使用框架对马赛克组成马赛克更有利。使用Reset-50-FPN作为骨干,我们可以分别实现0.65和0.77的F $ _1 $ -70分别对“轮胎”和“水箱”的对象级别检测,说明了正确定位潜在蚊子的系统能力育种对象。
translated by 谷歌翻译
部署到开放世界中,对象探测器容易出现开放式错误,训练数据集中不存在的对象类的假阳性检测。我们提出了GMM-DET,一种用于从对象探测器中提取认知不确定性的实时方法,以识别和拒绝开放式错误。 GMM-DID列达探测器以产生与特定于类高斯混合模型建模的结构化的Logit空间。在测试时间时,通过所有高斯混合模型下的低对数概率识别开放式错误。我们测试了两个常见的探测器架构,更快的R-CNN和RETINANET,跨越了三种不同的数据集,跨越机器人和计算机视觉。我们的结果表明,GMM-DET始终如一地优于识别和拒绝开放式检测的现有不确定性技术,特别是在安全关键应用程序所需的低差错率操作点。 GMM-DET保持对象检测性能,并仅引入最小的计算开销。我们还介绍一种用于将现有对象检测数据集转换为特定的开放式数据集的方法,以评估对象检测中的开放式性能。
translated by 谷歌翻译
遵循机器视觉系统在线自动化质量控制和检查过程的成功之后,这项工作中为两个不同的特定应用提供了一种对象识别解决方案,即,在医院准备在医院进行消毒的手术工具箱中检测质量控制项目,以及检测血管船体中的缺陷,以防止潜在的结构故障。该解决方案有两个阶段。首先,基于单镜头多伯克斯检测器(SSD)的特征金字塔体系结构用于改善检测性能,并采用基于地面真实的统计分析来选择一系列默认框的参数。其次,利用轻量级神经网络使用回归方法来实现定向检测结果。该方法的第一阶段能够检测两种情况下考虑的小目标。在第二阶段,尽管很简单,但在保持较高的运行效率的同时,检测细长目标是有效的。
translated by 谷歌翻译
接受注释较弱的对象探测器是全面监督者的负担得起的替代方案。但是,它们之间仍然存在显着的性能差距。我们建议通过微调预先训练的弱监督检测器来缩小这一差距,并使用``Box-In-box''(bib'(bib)自动从训练集中自动选择了一些完全注销的样品,这是一种新颖的活跃学习专门针对弱势监督探测器的据可查的失败模式而设计的策略。 VOC07和可可基准的实验表明,围嘴表现优于其他活跃的学习技术,并显着改善了基本的弱监督探测器的性能,而每个类别仅几个完全宣布的图像。围嘴达到了完全监督的快速RCNN的97%,在VOC07上仅10%的全已通量图像。在可可(COCO)上,平均每类使用10张全面通量的图像,或同等的训练集的1%,还减少了弱监督检测器和完全监督的快速RCN之间的性能差距(In AP)以上超过70% ,在性能和数据效率之间表现出良好的权衡。我们的代码可在https://github.com/huyvvo/bib上公开获取。
translated by 谷歌翻译
空中无人机镜头的视觉检查是当今土地搜索和救援(SAR)运营的一个组成部分。由于此检查是对人类的缓慢而繁琐,令人疑惑的工作,我们提出了一种新颖的深入学习算法来自动化该航空人员检测(APD)任务。我们试验模型架构选择,在线数据增强,转移学习,图像平铺和其他几种技术,以提高我们方法的测试性能。我们将新型航空检验视网膜(空气)算法呈现为这些贡献的结合。空中探测器在精度(〜21个百分点增加)和速度方面,在常用的SAR测试数据上表现出最先进的性能。此外,我们为SAR任务中的APD问题提供了新的正式定义。也就是说,我们提出了一种新的评估方案,在现实世界SAR本地化要求方面排名探测器。最后,我们提出了一种用于稳健的新型后处理方法,近似对象定位:重叠边界框(MOB)算法的合并。在空中检测器中使用的最终处理阶段在真实的空中SAR任务面前显着提高了其性能和可用性。
translated by 谷歌翻译
准确的不确定性估计对于在安全关键系统中部署深层对象探测器至关重要。概率对象探测器的开发和评估受到现有绩效指标的缺点的阻碍,这些绩效指标倾向于涉及任意阈值或限制检测器的分布选择。在这项工作中,我们建议将对象检测视为设置预测任务,其中检测器预测对象集的分布。使用负面的对数可能性进行随机有限集,我们提出了一个适当的评分规则,用于评估和训练概率对象探测器。所提出的方法可以应用于现有的概率检测器,没有阈值,并可以在体系结构之间进行公平的比较。在可可数据集上评估了三种不同类型的检测器。我们的结果表明,现有检测器的培训已针对非稳定指标进行了优化。我们希望鼓励开发新的对象探测器,这些探测器可以准确估计自己的不确定性。代码可在https://github.com/georghess/pmb-nll上找到。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
本文旨在解决多个对象跟踪(MOT),这是计算机视觉中的一个重要问题,但由于许多实际问题,尤其是阻塞,因此仍然具有挑战性。确实,我们提出了一种新的实时深度透视图 - 了解多个对象跟踪(DP-MOT)方法,以解决MOT中的闭塞问题。首先提出了一个简单但有效的主题深度估计(SODE),以在2D场景中自动以无监督的方式自动订购检测到的受试者的深度位置。使用SODE的输出,提出了一个新的活动伪3D KALMAN滤波器,即具有动态控制变量的Kalman滤波器的简单但有效的扩展,以动态更新对象的运动。此外,在数据关联步骤中提出了一种新的高阶关联方法,以合并检测到的对象之间的一阶和二阶关系。与标准MOT基准的最新MOT方法相比,提出的方法始终达到最先进的性能。
translated by 谷歌翻译
布局分析(LA)阶段对光学音乐识别(OMR)系统的正确性能至关重要。它标识了感兴趣的区域,例如Staves或歌词,然后必须处理,以便转录它们的内容。尽管存在基于深度学习的现代方法,但在不同模型的精度,它们对不同领域的概括或更重要的是,它们尚未开展对OMR的详尽研究,或者更重要的是,它们对后续阶段的影响管道。这项工作侧重于通过对不同神经结构,音乐文档类型和评估方案的实验研究填补文献中的这种差距。培训数据的需求也导致了一种新的半合成数据生成技术的提议,这使得LA方法在真实情况下能够有效适用性。我们的结果表明:(i)该模型的选择及其性能对于整个转录过程至关重要; (ii)(ii)常用于评估LA阶段的指标并不总是与OMR系统的最终性能相关,并且(iii)所提出的数据生成技术使最先进的结果能够以有限的限制实现标记数据集。
translated by 谷歌翻译
通过查找图像可能不满意的图像来捕获对象检测器的错误行为,这一兴趣很长。在实际应用(例如自动驾驶)中,对于表征除了简单的检测性能要求之外的潜在失败也至关重要。例如,与远处未遗漏的汽车检测相比,错过对靠近自我车辆的行人的侦查通常需要更仔细的检查。在测试时间预测这种潜在失败的问题在文献和基于检测不确定性的传统方法中被忽略了,因为它们对这种错误的细粒度表征不可知。在这项工作中,我们建议将查找“硬”图像作为基于查询的硬图像检索任务的问题进行重新制定,其中查询是“硬度”的特定定义,并提供了一种简单而直观的方法,可以解决此任务大型查询家庭。我们的方法完全是事后的,不需要地面真相注释,独立于检测器的选择,并且依赖于有效的蒙特卡洛估计,该估计使用简单的随机模型代替地面真相。我们通过实验表明,它可以成功地应用于各种查询中,它可以可靠地识别给定检测器的硬图像,而无需任何标记的数据。我们使用广泛使用的视网膜,更快的RCNN,Mask-RCNN和CASCADE MASK-RCNN对象检测器提供有关排名和分类任务的结果。
translated by 谷歌翻译