最近,国内Covid-19的流行状况很严重,但是在某些公共场所,有些人不戴口罩或不正确戴口罩,这要求相关人员立即提醒和监督他们正确戴口罩。但是,面对如此重要且复杂的工作,有必要在公共场所戴上自动面具。本文提出了一种基于改进的Yolov4的新面具戴上检测方法。具体而言,首先,我们将坐标注意模块添加到主链中以坐标特征融合和表示。其次,我们进行了一系列网络结构改进,以增强模型性能和鲁棒性。第三,我们部署K-Means聚类算法以使九个锚点更适合我们的NPMD数据集。实验结果表明,改进的Yolov4的性能更好,超过基线4.06%AP,可比速度为64.37 fps。
translated by 谷歌翻译
In recent years, object detection has achieved a very large performance improvement, but the detection result of small objects is still not very satisfactory. This work proposes a strategy based on feature fusion and dilated convolution that employs dilated convolution to broaden the receptive field of feature maps at various scales in order to address this issue. On the one hand, it can improve the detection accuracy of larger objects. On the other hand, it provides more contextual information for small objects, which is beneficial to improving the detection accuracy of small objects. The shallow semantic information of small objects is obtained by filtering out the noise in the feature map, and the feature information of more small objects is preserved by using multi-scale fusion feature module and attention mechanism. The fusion of these shallow feature information and deep semantic information can generate richer feature maps for small object detection. Experiments show that this method can have higher accuracy than the traditional YOLOv3 network in the detection of small objects and occluded objects. In addition, we achieve 32.8\% Mean Average Precision on the detection of small objects on MS COCO2017 test set. For 640*640 input, this method has 88.76\% mAP on the PASCAL VOC2012 dataset.
translated by 谷歌翻译
2019年冠状病毒为全球社会稳定和公共卫生带来了严重的挑战。遏制流行病的一种有效方法是要求人们在公共场所戴口罩,并通过使用合适的自动探测器来监视戴口罩状态。但是,现有的基于深度学习的模型努力同时达到高精度和实时性能的要求。为了解决这个问题,我们提出了基于Yolov5的改进的轻质面膜探测器,该检测器可以实现精确和速度的良好平衡。首先,提出了将ShuffleNetV2网络与协调注意机制相结合的新型骨干轮弹工具作为骨干。之后,将有效的路径攻击网络BIFPN作为特征融合颈应用。此外,在模型训练阶段,定位损失被α-CIOU取代,以获得更高质量的锚。还利用了一些有价值的策略,例如数据增强,自适应图像缩放和锚点群集操作。 Aizoo面膜数据集的实验结果显示了所提出模型的优越性。与原始的Yolov5相比,提出的模型将推理速度提高28.3%,同时仍将精度提高0.58%。与其他七个现有型号相比,它的最佳平均平均精度为95.2%,比基线高4.4%。
translated by 谷歌翻译
交通标志检测是无人驾驶系统的具有挑战性的任务,特别是对于检测多尺度目标和检测的实时问题。在交通标志检测过程中,目标的比例大大变化,这将对检测精度产生一定的影响。特征金字塔广泛用于解决这个问题,但它可能会破坏不同的交通标志尺度的功能一致性。此外,在实际应用中,常用方法难以提高多尺度交通标志的检测精度,同时确保实时检测。在本文中,我们提出了一种改进的特征金字塔模型,名为AF-FPN,它利用自适应注意模块(AAM)和特征增强模块(FEM)来减少特征映射生成过程中的信息损失,并提高表示能力特征金字塔。我们用AF-FPN替换了YOLOV5中的原始特征金字塔网络,这在确保实时检测的前提下提高了YOLOV5网络的多尺度目标的检测性能。此外,提出了一种新的自动学习数据增强方法来丰富数据集,提高模型的稳健性,使其更适合实际情况。关于清华腾讯100K(TT100K)数据集的广泛实验结果证明了与多种最先进的方法相比,所提出的方法的有效性和优越性。
translated by 谷歌翻译
无人驾驶飞机(UAV)的实时对象检测是一个具有挑战性的问题,因为Edge GPU设备作为物联网(IoT)节点的计算资源有限。为了解决这个问题,在本文中,我们提出了一种基于Yolox模型的新型轻型深度学习体系结构,用于Edge GPU上的实时对象检测。首先,我们设计了一个有效且轻巧的PixSF头,以更换Yolox的原始头部以更好地检测小物体,可以将其进一步嵌入深度可分离的卷积(DS Conv)中,以达到更轻的头。然后,开发为减少网络参数的颈层中的较小结构,这是精度和速度之间的权衡。此外,我们将注意模块嵌入头层中,以改善预测头的特征提取效果。同时,我们还改进了标签分配策略和损失功能,以减轻UAV数据集的类别不平衡和盒子优化问题。最后,提出了辅助头进行在线蒸馏,以提高PIXSF Head中嵌入位置嵌入和特征提取的能力。在NVIDIA Jetson NX和Jetson Nano GPU嵌入平台上,我们的轻质模型的性能得到了实验验证。扩展的实验表明,与目前的模型相比,Fasterx模型在Visdrone2021数据集中实现了更好的折衷和延迟之间的折衷。
translated by 谷歌翻译
近年来,基于深度学习的面部检测算法取得了长足的进步。这些算法通常可以分为两类,即诸如更快的R-CNN和像Yolo这样的单阶段检测器之类的两个阶段检测器。由于准确性和速度之间的平衡更好,因此在许多应用中广泛使用了一阶段探测器。在本文中,我们提出了一个基于一阶段检测器Yolov5的实时面部检测器,名为Yolo-Facev2。我们设计一个称为RFE的接收场增强模块,以增强小面的接受场,并使用NWD损失来弥补IOU对微小物体的位置偏差的敏感性。对于面部阻塞,我们提出了一个名为Seam的注意模块,并引入了排斥损失以解决它。此外,我们使用重量函数幻灯片来解决简单和硬样品之间的不平衡,并使用有效的接收场的信息来设计锚。宽面数据集上的实验结果表明,在所有简单,中和硬子集中都可以找到我们的面部检测器及其变体的表现及其变体。源代码https://github.com/krasjet-yu/yolo-facev2
translated by 谷歌翻译
对象检测是计算机视觉领域中最基本而具有挑战性的研究主题之一。最近,在航拍图像中的这一主题的研究取得了巨大的进步。然而,复杂的背景和更糟糕的成像质量是空中物体检测中的明显问题。大多数最先进的方法倾向于开发具有艰巨计算复杂性的时空特征校准的精心关注机制,同时令人惊讶地忽略了通道中特征校准的重要性。在这项工作中,我们提出了一种简单而有效的校准引导(CG)方案,以增强特征变压器时尚中的信道通信,其可以基于全局特征亲和力相关性自适应地确定每个信道的校准权重。具体地,对于给定的一组特征映射,CG首先将每个信道和剩余信道之间的特征相似性计算为中间校准引导。然后,通过通过引导操作聚合加权加权的所有信道来重新表示每个信道。我们的CG是一般模块,可以插入任何深度神经网络,该网络被命名为CG-Net。为了展示其有效性和效率,在航空图像中的定向对象检测任务和水平物体检测任务中进行了广泛的实验。两个具有挑战性的基准(DotA和HRSC2016)的实验结果表明,我们的CG-Net可以通过公平计算开销的准确性实现新的最先进的性能。源代码已在https://github.com/weizongqi/cg-net中开放源
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
最近已经设计了一些轻巧的卷积神经网络(CNN)模型,用于遥感对象检测(RSOD)。但是,他们中的大多数只是用可分离的卷积代替了香草卷积,这可能是由于很多精确损失而无法有效的,并且可能无法检测到方向的边界框(OBB)。同样,现有的OBB检测方法很难准确限制CNN预测的对象的形状。在本文中,我们提出了一个有效的面向轻质对象检测器(LO-DET)。具体而言,通道分离聚集(CSA)结构旨在简化可分开的卷积的复杂性,并开发了动态的接收场(DRF)机制,以通过自定义卷积内核及其感知范围来保持高精度,以保持高精度。网络复杂性。 CSA-DRF组件在保持高精度的同时优化了效率。然后,对角支撑约束头(DSC-Head)组件旨在检测OBB,并更准确,更稳定地限制其形状。公共数据集上的广泛实验表明,即使在嵌入式设备上,拟议的LO-DET也可以非常快地运行,具有检测方向对象的竞争精度。
translated by 谷歌翻译
为了响应现有的对象检测算法,应用于复杂的火灾方案,检测准确性较差,速度缓慢和困难的部署。本文提出了轻巧的火灾检测算法,可实现速度和准确性的平衡。首先,骨干网络的最后一层被SEPVIT块取代,以增强骨干网络与全局信息的联系;其次,轻型BIFPN颈网旨在减轻模型,同时改善特征提取。第三,全球注意机制(GAM)融合到网络中,以使模型更加专注于全球维度特征。最后,我们使用Mish激活函数和SIOU损失来提高收敛速度并同时提高准确性。实验结果表明,与原始算法相比,Light-Yolov5将MAP提高3.3%,将参数数量减少27.1%,将计算减少19.1%,达到91.1的FPS。即使与最新的Yolov7微型相比,Light-Yolov5的地图也高6.8%,这显示了该算法的有效性。
translated by 谷歌翻译
随着人工智能和简短视频的快速发展,短视频中的情感识别已成为人类计算机互动中最重要的研究主题之一。目前,大多数情感识别方法仍然保持在单一方式中。但是,在日常生活中,人类通常会掩盖自己的真实情绪,这导致了一个问题,即单局情感识别的准确性相对可怕。而且,区分类似的情绪并不容易。因此,我们提出了一种新方法,称为ICANET,通过采用三种不同的音频,视频和光学方式来实现多模式的短视频情感识别,从而弥补了缺乏单一模态,然后在短视频中提高情感识别的准确性。ICANET在IEMOCAP基准测试中具有更好的精度为80.77%,超过SOTA方法的精度为15.89%。
translated by 谷歌翻译
近年来,自主驾驶LIDAR数据的3D对象检测一直在迈出卓越的进展。在最先进的方法中,已经证明了将点云进行编码为鸟瞰图(BEV)是有效且有效的。与透视图不同,BEV在物体之间保留丰富的空间和距离信息;虽然在BEV中相同类型的更远物体不会较小,但它们包含稀疏点云特征。这一事实使用共享卷积神经网络削弱了BEV特征提取。为了解决这一挑战,我们提出了范围感知注意网络(RAANET),提取更强大的BEV功能并产生卓越的3D对象检测。范围感知的注意力(RAA)卷曲显着改善了近距离的特征提取。此外,我们提出了一种新的辅助损耗,用于密度估计,以进一步增强覆盖物体的Raanet的检测精度。值得注意的是,我们提出的RAA卷积轻量级,并兼容,以集成到用于BEV检测的任何CNN架构中。 Nuscenes DataSet上的广泛实验表明,我们的提出方法优于基于LIDAR的3D对象检测的最先进的方法,具有16 Hz的实时推断速度,为LITE版本为22 Hz。该代码在匿名GitHub存储库HTTPS://github.com/Anonymous0522 / ange上公开提供。
translated by 谷歌翻译
电脑辅助诊断最近收到了低成本和时间效率优势的关注。虽然深入学习在最近的痤疮检测成功中发挥了重要作用,但仍有几种挑战,例如颜色偏移不一致,尺度的变化和高密度分布。为了解决这些问题,我们提出了一种痤疮检测网络,该网络由三个组成组成,具体而言,特别是:复合特征精制,动态上下文增强和掩模感知多关注。首先,复合特征细化集成了语义信息和精细细节以丰富特征表示,这些特征表示可以减轻不平衡照明的不利影响。然后,动态上下文增强控制用于对上下文增强的多尺度特征的不同接收字段,以处理比例变化。最后,掩模感知多次关注通过抑制无色区域和突出显示可能的痤疮区域来抑制密集地布置和小痤疮。实验在痤疮图像数据集ACNE04和自然图像数据集Pascal VOC上进行了2007年。我们展示了我们的方法如何实现ACNE04和竞争性能,在Pascal VOC上使用先前的方法2007年。
translated by 谷歌翻译
Passive millimeter-wave (PMMW) is a significant potential technique for human security screening. Several popular object detection networks have been used for PMMW images. However, restricted by the low resolution and high noise of PMMW images, PMMW hidden object detection based on deep learning usually suffers from low accuracy and low classification confidence. To tackle the above problems, this paper proposes a Task-Aligned Detection Transformer network, named PMMW-DETR. In the first stage, a Denoising Coarse-to-Fine Transformer (DCFT) backbone is designed to extract long- and short-range features in the different scales. In the second stage, we propose the Query Selection module to introduce learned spatial features into the network as prior knowledge, which enhances the semantic perception capability of the network. In the third stage, aiming to improve the classification performance, we perform a Task-Aligned Dual-Head block to decouple the classification and regression tasks. Based on our self-developed PMMW security screening dataset, experimental results including comparison with State-Of-The-Art (SOTA) methods and ablation study demonstrate that the PMMW-DETR obtains higher accuracy and classification confidence than previous works, and exhibits robustness to the PMMW images of low quality.
translated by 谷歌翻译
由于规模和形状的极端复杂性以及预测位置的不确定性,光学遥感图像(RSI-SOD)中的显着对象检测是一项非常困难的任务。现有的SOD方法可以满足自然场景图像的检测性能,但是由于遥感图像中上述图像特性,它们不能很好地适应RSI-SOD。在本文中,我们为光学RSIS中的SOD提出了一个新颖的注意力指导网络(AGNET),包括位置增强阶段和细节细节阶段。具体而言,位置增强阶段由语义注意模块和上下文注意模块组成,以准确描述显着对象的大致位置。细节完善阶段使用提出的自我注册模块在注意力的指导下逐步完善预测结果并逆转注意力。此外,混合损失用于监督网络的培训,这可以从像素,区域和统计数据的三个角度来改善模型的性能。在两个流行的基准上进行的广泛实验表明,与其他最先进的方法相比,AGNET可以达到竞争性能。该代码将在https://github.com/nuaayh/agnet上找到。
translated by 谷歌翻译
尽管Yolov2方法在对象检测时非常快,但由于其骨干网络的性能较低和多尺度区域特征的缺乏,其检测准确性受到限制。因此,在本文中提出了一种基于Yolov2的Yolo(DC)Yolo(DC-SPP-YOLO)方法的密集连接(DC)和空间金字塔池(SPP)方法。具体而言,在Yolov2的骨干网络中采用了卷积层的密集连接,以增强特征提取并减轻消失的梯度问题。此外,引入了改进的空间金字塔池以池并加入多尺度区域特征,以便网络可以更全面地学习对象功能。 DC-SPP-YOLO模型是根据由MSE(均方误差)损耗和跨透镜损失组成的新损失函数建立和训练的。实验结果表明,DC-SPP-Yolo的地图(平均平均精度)高于Pascal VOC数据集和UA-Detrac数据集上的Yolov2。提出了DC-SPP-Yolo方法的有效性。
translated by 谷歌翻译
大多数最先进的实例级人类解析模型都采用了两阶段的基于锚的探测器,因此无法避免启发式锚盒设计和像素级别缺乏分析。为了解决这两个问题,我们设计了一个实例级人类解析网络,该网络在像素级别上无锚固且可解决。它由两个简单的子网络组成:一个用于边界框预测的无锚检测头和一个用于人体分割的边缘引导解析头。无锚探测器的头继承了像素样的优点,并有效地避免了对象检测应用中证明的超参数的敏感性。通过引入部分感知的边界线索,边缘引导的解析头能够将相邻的人类部分与彼此区分开,最多可在一个人类实例中,甚至重叠的实例。同时,利用了精炼的头部整合盒子级别的分数和部分分析质量,以提高解析结果的质量。在两个多个人类解析数据集(即CIHP和LV-MHP-V2.0)和一个视频实例级人类解析数据集(即VIP)上进行实验,表明我们的方法实现了超过全球级别和实例级别的性能最新的一阶段自上而下的替代方案。
translated by 谷歌翻译
Channel and spatial attention mechanism has proven to provide an evident performance boost of deep convolution neural networks (CNNs). Most existing methods focus on one or run them parallel (series), neglecting the collaboration between the two attentions. In order to better establish the feature interaction between the two types of attention, we propose a plug-and-play attention module, which we term "CAT"-activating the Collaboration between spatial and channel Attentions based on learned Traits. Specifically, we represent traits as trainable coefficients (i.e., colla-factors) to adaptively combine contributions of different attention modules to fit different image hierarchies and tasks better. Moreover, we propose the global entropy pooling (GEP) apart from global average pooling (GAP) and global maximum pooling (GMP) operators, an effective component in suppressing noise signals by measuring the information disorder of feature maps. We introduce a three-way pooling operation into attention modules and apply the adaptive mechanism to fuse their outcomes. Extensive experiments on MS COCO, Pascal-VOC, Cifar-100, and ImageNet show that our CAT outperforms existing state-of-the-art attention mechanisms in object detection, instance segmentation, and image classification. The model and code will be released soon.
translated by 谷歌翻译
冠状病毒2019年对世界产生了重大影响。一种防止人们感染的一种有效策略是在公共场所佩戴面具。某些公共服务提供商只有在正确佩戴面具时才需要客户使用他们的服务。然而,只有一些关于自动面罩检测的研究。在本文中,我们提出了RetinAfaceMask,第一高性能单级面罩探测器。首先,解决现有研究没有区分正确和错误的掩码佩戴状态的问题,我们建立了一个包含这些注释的新数据集。其次,我们提出了一种上下文注意模块,专注于学习与面罩佩戴状态相关的区别特征。第三,我们从面部检测任务转移了知识,灵感来自人类通过学习从类似的任务学习如何改善他们的能力。消融研究表明提出的模型的优点。公共和新数据集的实验结果表明了我们模型的最先进的表现。
translated by 谷歌翻译
茶叶菊花检测在开花阶段是选择性菊花收获机器人发展的关键部件之一。然而,在非结构化领域环境下检测开花的菊花是一种挑战,鉴于照明,闭塞和对象量表的变化。在这方面,我们提出了一种基于Yolo的茶叶菊花检测(TC-YOLO)的高度融合和轻量级的深度学习架构。首先,在骨干组件和颈部部件中,该方法使用跨级部分密度的网络(CSPDenSenet)作为主网络,并嵌入自定义特征融合模块以引导梯度流。在最终的头部部件中,该方法将递归特征金字塔(RFP)多尺度融合回流结构和腔间空间金字塔(ASPP)模块结合在一起,具有腔卷积以实现检测任务。得到的模型在300个现场图像上进行了测试,显示在NVIDIA TESLA P100 GPU环境下,如果推断速度为每个图像的47.23 FPS(416 * 416),则TC-Yolo可以实现92.49%的平均精度(AP)在我们自己的茶叶菊花。此外,该方法(13.6M)可以部署在单个移动GPU上,并且可以进一步开发为未来选择性菊花收获机器人的感知系统。
translated by 谷歌翻译