交通标志检测是无人驾驶系统的具有挑战性的任务,特别是对于检测多尺度目标和检测的实时问题。在交通标志检测过程中,目标的比例大大变化,这将对检测精度产生一定的影响。特征金字塔广泛用于解决这个问题,但它可能会破坏不同的交通标志尺度的功能一致性。此外,在实际应用中,常用方法难以提高多尺度交通标志的检测精度,同时确保实时检测。在本文中,我们提出了一种改进的特征金字塔模型,名为AF-FPN,它利用自适应注意模块(AAM)和特征增强模块(FEM)来减少特征映射生成过程中的信息损失,并提高表示能力特征金字塔。我们用AF-FPN替换了YOLOV5中的原始特征金字塔网络,这在确保实时检测的前提下提高了YOLOV5网络的多尺度目标的检测性能。此外,提出了一种新的自动学习数据增强方法来丰富数据集,提高模型的稳健性,使其更适合实际情况。关于清华腾讯100K(TT100K)数据集的广泛实验结果证明了与多种最先进的方法相比,所提出的方法的有效性和优越性。
translated by 谷歌翻译
In recent years, object detection has achieved a very large performance improvement, but the detection result of small objects is still not very satisfactory. This work proposes a strategy based on feature fusion and dilated convolution that employs dilated convolution to broaden the receptive field of feature maps at various scales in order to address this issue. On the one hand, it can improve the detection accuracy of larger objects. On the other hand, it provides more contextual information for small objects, which is beneficial to improving the detection accuracy of small objects. The shallow semantic information of small objects is obtained by filtering out the noise in the feature map, and the feature information of more small objects is preserved by using multi-scale fusion feature module and attention mechanism. The fusion of these shallow feature information and deep semantic information can generate richer feature maps for small object detection. Experiments show that this method can have higher accuracy than the traditional YOLOv3 network in the detection of small objects and occluded objects. In addition, we achieve 32.8\% Mean Average Precision on the detection of small objects on MS COCO2017 test set. For 640*640 input, this method has 88.76\% mAP on the PASCAL VOC2012 dataset.
translated by 谷歌翻译
近年来,基于深度学习的面部检测算法取得了长足的进步。这些算法通常可以分为两类,即诸如更快的R-CNN和像Yolo这样的单阶段检测器之类的两个阶段检测器。由于准确性和速度之间的平衡更好,因此在许多应用中广泛使用了一阶段探测器。在本文中,我们提出了一个基于一阶段检测器Yolov5的实时面部检测器,名为Yolo-Facev2。我们设计一个称为RFE的接收场增强模块,以增强小面的接受场,并使用NWD损失来弥补IOU对微小物体的位置偏差的敏感性。对于面部阻塞,我们提出了一个名为Seam的注意模块,并引入了排斥损失以解决它。此外,我们使用重量函数幻灯片来解决简单和硬样品之间的不平衡,并使用有效的接收场的信息来设计锚。宽面数据集上的实验结果表明,在所有简单,中和硬子集中都可以找到我们的面部检测器及其变体的表现及其变体。源代码https://github.com/krasjet-yu/yolo-facev2
translated by 谷歌翻译
从卷积神经网络的快速发展中受益,汽车牌照检测和识别的性能得到了很大的改善。但是,大多数现有方法分别解决了检测和识别问题,并专注于特定方案,这阻碍了现实世界应用的部署。为了克服这些挑战,我们提出了一个有效而准确的框架,以同时解决车牌检测和识别任务。这是一个轻巧且统一的深神经网络,可以实时优化端到端。具体而言,对于不受约束的场景,采用了无锚方法来有效检测车牌的边界框和四个角,这些框用于提取和纠正目标区域特征。然后,新型的卷积神经网络分支旨在进一步提取角色的特征而不分割。最后,将识别任务视为序列标记问题,这些问题通过连接派时间分类(CTC)解决。选择了几个公共数据集,包括在各种条件下从不同方案中收集的图像进行评估。实验结果表明,所提出的方法在速度和精度上都显着优于先前的最新方法。
translated by 谷歌翻译
为了响应现有的对象检测算法,应用于复杂的火灾方案,检测准确性较差,速度缓慢和困难的部署。本文提出了轻巧的火灾检测算法,可实现速度和准确性的平衡。首先,骨干网络的最后一层被SEPVIT块取代,以增强骨干网络与全局信息的联系;其次,轻型BIFPN颈网旨在减轻模型,同时改善特征提取。第三,全球注意机制(GAM)融合到网络中,以使模型更加专注于全球维度特征。最后,我们使用Mish激活函数和SIOU损失来提高收敛速度并同时提高准确性。实验结果表明,与原始算法相比,Light-Yolov5将MAP提高3.3%,将参数数量减少27.1%,将计算减少19.1%,达到91.1的FPS。即使与最新的Yolov7微型相比,Light-Yolov5的地图也高6.8%,这显示了该算法的有效性。
translated by 谷歌翻译
2019年冠状病毒为全球社会稳定和公共卫生带来了严重的挑战。遏制流行病的一种有效方法是要求人们在公共场所戴口罩,并通过使用合适的自动探测器来监视戴口罩状态。但是,现有的基于深度学习的模型努力同时达到高精度和实时性能的要求。为了解决这个问题,我们提出了基于Yolov5的改进的轻质面膜探测器,该检测器可以实现精确和速度的良好平衡。首先,提出了将ShuffleNetV2网络与协调注意机制相结合的新型骨干轮弹工具作为骨干。之后,将有效的路径攻击网络BIFPN作为特征融合颈应用。此外,在模型训练阶段,定位损失被α-CIOU取代,以获得更高质量的锚。还利用了一些有价值的策略,例如数据增强,自适应图像缩放和锚点群集操作。 Aizoo面膜数据集的实验结果显示了所提出模型的优越性。与原始的Yolov5相比,提出的模型将推理速度提高28.3%,同时仍将精度提高0.58%。与其他七个现有型号相比,它的最佳平均平均精度为95.2%,比基线高4.4%。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
最近已经设计了一些轻巧的卷积神经网络(CNN)模型,用于遥感对象检测(RSOD)。但是,他们中的大多数只是用可分离的卷积代替了香草卷积,这可能是由于很多精确损失而无法有效的,并且可能无法检测到方向的边界框(OBB)。同样,现有的OBB检测方法很难准确限制CNN预测的对象的形状。在本文中,我们提出了一个有效的面向轻质对象检测器(LO-DET)。具体而言,通道分离聚集(CSA)结构旨在简化可分开的卷积的复杂性,并开发了动态的接收场(DRF)机制,以通过自定义卷积内核及其感知范围来保持高精度,以保持高精度。网络复杂性。 CSA-DRF组件在保持高精度的同时优化了效率。然后,对角支撑约束头(DSC-Head)组件旨在检测OBB,并更准确,更稳定地限制其形状。公共数据集上的广泛实验表明,即使在嵌入式设备上,拟议的LO-DET也可以非常快地运行,具有检测方向对象的竞争精度。
translated by 谷歌翻译
本文分析了面部检测体系结构的设计选择,以提高计算成本和准确性之间的效率。具体而言,我们重新检查了标准卷积块作为面部检测的轻质骨干结构的有效性。与当前的轻质体系结构设计的趋势(大量利用了可分开的卷积层)不同,我们表明,使用类似的参数大小时,大量通道绕的标准卷积层可以实现更好的准确性和推理速度。关于目标数据域的特征的分析,该观察结果得到了支持。根据我们的观察,我们建议使用高度降低的通道使用Resnet,与其他移动友好网络(例如Mobilenet-V1,-V2,-V3)相比,它具有高度效率。从广泛的实验中,我们表明所提出的主链可以以更快的推理速度替换最先进的面部检测器的主链。此外,我们进一步提出了一种最大化检测性能的新功能聚合方法。我们提出的检测器ERESFD获得了更宽的面部硬子子集的80.4%地图,该图仅需37.7 ms即可在CPU上进行VGA图像推断。代码将在https://github.com/clovaai/eresfd上找到。
translated by 谷歌翻译
现代的高性能语义分割方法采用沉重的主链和扩张的卷积来提取相关特征。尽管使用上下文和语义信息提取功能对于分割任务至关重要,但它为实时应用程序带来了内存足迹和高计算成本。本文提出了一种新模型,以实现实时道路场景语义细分的准确性/速度之间的权衡。具体来说,我们提出了一个名为“比例吸引的条带引导特征金字塔网络”(s \ textsuperscript {2} -fpn)的轻巧模型。我们的网络由三个主要模块组成:注意金字塔融合(APF)模块,比例吸引条带注意模块(SSAM)和全局特征Upsample(GFU)模块。 APF采用了注意力机制来学习判别性多尺度特征,并有助于缩小不同级别之间的语义差距。 APF使用量表感知的关注来用垂直剥离操作编码全局上下文,并建模长期依赖性,这有助于将像素与类似的语义标签相关联。此外,APF还采用频道重新加权块(CRB)来强调频道功能。最后,S \ TextSuperScript {2} -fpn的解码器然后采用GFU,该GFU用于融合APF和编码器的功能。已经对两个具有挑战性的语义分割基准进行了广泛的实验,这表明我们的方法通过不同的模型设置实现了更好的准确性/速度权衡。提出的模型已在CityScapes Dataset上实现了76.2 \%miou/87.3fps,77.4 \%miou/67fps和77.8 \%miou/30.5fps,以及69.6 \%miou,71.0 miou,71.0 \%miou,和74.2 \%\%\%\%\%\%。 miou在Camvid数据集上。这项工作的代码将在\ url {https://github.com/mohamedac29/s2-fpn提供。
translated by 谷歌翻译
面部检测是为了在图像中搜索面部的所有可能区域,并且如果有任何情况,则定位面部。包括面部识别,面部表情识别,面部跟踪和头部姿势估计的许多应用假设面部的位置和尺寸在图像中是已知的。近几十年来,研究人员从Viola-Jones脸上检测器创造了许多典型和有效的面部探测器到当前的基于CNN的CNN。然而,随着图像和视频的巨大增加,具有面部刻度的变化,外观,表达,遮挡和姿势,传统的面部探测器被挑战来检测野外面孔的各种“脸部。深度学习技术的出现带来了非凡的检测突破,以及计算的价格相当大的价格。本文介绍了代表性的深度学习的方法,并在准确性和效率方面提出了深度和全面的分析。我们进一步比较并讨论了流行的并挑战数据集及其评估指标。进行了几种成功的基于深度学习的面部探测器的全面比较,以使用两个度量来揭示其效率:拖鞋和延迟。本文可以指导为不同应用选择合适的面部探测器,也可以开发更高效和准确的探测器。
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
在本文中,我们为RSI(名为Superyolo)提出了一种准确而快速的小对象检测方法,该方法融合了多模式数据并通过利用辅助超级分辨率(SR)学习并考虑既有辅助的超级分辨率(SR)对象进行高分辨率(HR)对象检测检测准确性和计算成本。首先,我们通过删除焦点模块来保持人力资源特征并显着克服小物体缺失的误差来构建紧凑的基线。其次,我们利用像素级的多模式融合(MF)从各种数据中提取信息,以促进RSI中的小物体更合适和有效的功能。此外,我们设计了一个简单且灵活的SR分支来学习HR特征表示,可以区分具有低分辨率(LR)输入的庞大背景的小物体,从而进一步提高了检测准确性。此外,为避免引入其他计算,SR分支在推理阶段被丢弃,并且由于LR输入而减少了网络模型的计算。实验结果表明,在广泛使用的Vedai RS数据集上,Superyolo的精度为73.61%(在MAP50方面),比SOTA大型模型(例如Yolov5L,Yolov5X和RS设计的Yolors)高10%以上。同时,Superyolo的Gfolps和参数大小比Yolov5X少约18.1倍,4.2倍。我们提出的模型显示出与最新模型相比,具有良好的准确性速度权衡。该代码将在https://github.com/icey-zhang/superyolo上开放。
translated by 谷歌翻译
尽管Yolov2方法在对象检测时非常快,但由于其骨干网络的性能较低和多尺度区域特征的缺乏,其检测准确性受到限制。因此,在本文中提出了一种基于Yolov2的Yolo(DC)Yolo(DC-SPP-YOLO)方法的密集连接(DC)和空间金字塔池(SPP)方法。具体而言,在Yolov2的骨干网络中采用了卷积层的密集连接,以增强特征提取并减轻消失的梯度问题。此外,引入了改进的空间金字塔池以池并加入多尺度区域特征,以便网络可以更全面地学习对象功能。 DC-SPP-YOLO模型是根据由MSE(均方误差)损耗和跨透镜损失组成的新损失函数建立和训练的。实验结果表明,DC-SPP-Yolo的地图(平均平均精度)高于Pascal VOC数据集和UA-Detrac数据集上的Yolov2。提出了DC-SPP-Yolo方法的有效性。
translated by 谷歌翻译
现有的多尺度解决方案会导致仅增加接受场大小的风险,同时忽略小型接受场。因此,有效构建自适应神经网络以识别各种空间尺度对象是一个具有挑战性的问题。为了解决这个问题,我们首先引入一个新的注意力维度,即除了现有的注意力维度(例如渠道,空间和分支)之外,并提出了一个新颖的选择性深度注意网络,以对称地处理各种视觉中的多尺度对象任务。具体而言,在给定神经网络的每个阶段内的块,即重新连接,输出层次功能映射共享相同的分辨率但具有不同的接收场大小。基于此结构属性,我们设计了一个舞台建筑模块,即SDA,其中包括树干分支和类似SE的注意力分支。躯干分支的块输出融合在一起,以通过注意力分支指导其深度注意力分配。根据提出的注意机制,我们可以动态选择不同的深度特征,这有助于自适应调整可变大小输入对象的接收场大小。这样,跨块信息相互作用会导致沿深度方向的远距离依赖关系。与其他多尺度方法相比,我们的SDA方法结合了从以前的块到舞台输出的多个接受场,从而提供了更广泛,更丰富的有效接收场。此外,我们的方法可以用作其他多尺度网络以及注意力网络的可插入模块,并创造为SDA- $ x $ net。它们的组合进一步扩展了有效的接受场的范围,可以实现可解释的神经网络。我们的源代码可在\ url {https://github.com/qingbeiguo/sda-xnet.git}中获得。
translated by 谷歌翻译
X射线图像在制造业的质量保证中起着重要作用,因为它可以反映焊接区域的内部条件。然而,不同缺陷类型的形状和规模大大变化,这使得模型检测焊接缺陷的挑战性。在本文中,我们提出了一种基于卷积神经网络的焊接缺陷检测方法,即打火机和更快的YOLO(LF-YOLO)。具体地,增强的多尺度特征(RMF)模块旨在实现基于参数和无参数的多尺度信息提取操作。 RMF使得提取的特征映射能够代表更丰富的信息,该信息是通过卓越的层级融合结构实现的。为了提高检测网络的性能,我们提出了一个有效的特征提取(EFE)模块。 EFE处理具有极低消耗量的输入数据,并提高了实际行业中整个网络的实用性。实验结果表明,我们的焊接缺陷检测网络在性能和消耗之间实现了令人满意的平衡,达到92.9平均平均精度MAP50,每秒61.5帧(FPS)。为了进一步证明我们方法的能力,我们在公共数据集MS Coco上测试它,结果表明我们的LF-YOLO具有出色的多功能性检测性能。代码可在https://github.com/lmomoy/lf-yolo上获得。
translated by 谷歌翻译
Semantic segmentation works on the computer vision algorithm for assigning each pixel of an image into a class. The task of semantic segmentation should be performed with both accuracy and efficiency. Most of the existing deep FCNs yield to heavy computations and these networks are very power hungry, unsuitable for real-time applications on portable devices. This project analyzes current semantic segmentation models to explore the feasibility of applying these models for emergency response during catastrophic events. We compare the performance of real-time semantic segmentation models with non-real-time counterparts constrained by aerial images under oppositional settings. Furthermore, we train several models on the Flood-Net dataset, containing UAV images captured after Hurricane Harvey, and benchmark their execution on special classes such as flooded buildings vs. non-flooded buildings or flooded roads vs. non-flooded roads. In this project, we developed a real-time UNet based model and deployed that network on Jetson AGX Xavier module.
translated by 谷歌翻译
更好的准确性和效率权衡在对象检测中是一个具有挑战性的问题。在这项工作中,我们致力于研究对象检测的关键优化和神经网络架构选择,以提高准确性和效率。我们调查了无锚策略对轻质对象检测模型的适用性。我们增强了骨干结构并设计了颈部的轻质结构,从而提高了网络的特征提取能力。我们改善标签分配策略和损失功能,使培训更稳定和高效。通过这些优化,我们创建了一个名为PP-Picodet的新的实时对象探测器系列,这在移动设备的对象检测上实现了卓越的性能。与其他流行型号相比,我们的模型在准确性和延迟之间实现了更好的权衡。 Picodet-s只有0.99m的参数达到30.6%的地图,它是地图的绝对4.8%,同时与yolox-nano相比将移动CPU推理延迟减少55%,并且与Nanodet相比,MAP的绝对改善了7.1%。当输入大小为320时,它在移动臂CPU上达到123个FPS(使用桨Lite)。Picodet-L只有3.3M参数,达到40.9%的地图,这是地图的绝对3.7%,比yolov5s更快44% 。如图1所示,我们的模型远远优于轻量级对象检测的最先进的结果。代码和预先训练的型号可在https://github.com/paddlepaddle/paddledentions提供。
translated by 谷歌翻译
无人驾驶飞机(UAV)的实时对象检测是一个具有挑战性的问题,因为Edge GPU设备作为物联网(IoT)节点的计算资源有限。为了解决这个问题,在本文中,我们提出了一种基于Yolox模型的新型轻型深度学习体系结构,用于Edge GPU上的实时对象检测。首先,我们设计了一个有效且轻巧的PixSF头,以更换Yolox的原始头部以更好地检测小物体,可以将其进一步嵌入深度可分离的卷积(DS Conv)中,以达到更轻的头。然后,开发为减少网络参数的颈层中的较小结构,这是精度和速度之间的权衡。此外,我们将注意模块嵌入头层中,以改善预测头的特征提取效果。同时,我们还改进了标签分配策略和损失功能,以减轻UAV数据集的类别不平衡和盒子优化问题。最后,提出了辅助头进行在线蒸馏,以提高PIXSF Head中嵌入位置嵌入和特征提取的能力。在NVIDIA Jetson NX和Jetson Nano GPU嵌入平台上,我们的轻质模型的性能得到了实验验证。扩展的实验表明,与目前的模型相比,Fasterx模型在Visdrone2021数据集中实现了更好的折衷和延迟之间的折衷。
translated by 谷歌翻译
现代物体检测网络追求一般物体检测数据集的更高精度,同时计算负担也随着精度的提高而越来越多。然而,推理时间和精度对于需要是实时的对象检测系统至关重要。没有额外的计算成本,有必要研究精度改进。在这项工作中,提出了两种模块以提高零成本的检测精度,这是一般对象检测网络的FPN和检测头改进。我们采用规模注意机制,以有效地保险熔断多级功能映射,参数较少,称为SA-FPN模块。考虑到分类头和回归头的相关性,我们使用顺序头取代广泛使用的并联头部,称为SEQ-Head模块。为了评估有效性,我们将这两个模块应用于一些现代最先进的对象检测网络,包括基于锚和无锚。 Coco DataSet上的实验结果表明,具有两个模块的网络可以将原始网络超越1.1 AP和0.8 AP,分别为锚的锚和无锚网络的零成本。代码将在https://git.io/jtfgl提供。
translated by 谷歌翻译