最近已经设计了一些轻巧的卷积神经网络(CNN)模型,用于遥感对象检测(RSOD)。但是,他们中的大多数只是用可分离的卷积代替了香草卷积,这可能是由于很多精确损失而无法有效的,并且可能无法检测到方向的边界框(OBB)。同样,现有的OBB检测方法很难准确限制CNN预测的对象的形状。在本文中,我们提出了一个有效的面向轻质对象检测器(LO-DET)。具体而言,通道分离聚集(CSA)结构旨在简化可分开的卷积的复杂性,并开发了动态的接收场(DRF)机制,以通过自定义卷积内核及其感知范围来保持高精度,以保持高精度。网络复杂性。 CSA-DRF组件在保持高精度的同时优化了效率。然后,对角支撑约束头(DSC-Head)组件旨在检测OBB,并更准确,更稳定地限制其形状。公共数据集上的广泛实验表明,即使在嵌入式设备上,拟议的LO-DET也可以非常快地运行,具有检测方向对象的竞争精度。
translated by 谷歌翻译
最近,已经提出了许多任意定向的物体检测(AOOD)方法并在许多领域中引起了广泛的关注。然而,它们中的大多数基于锚箱或标准高斯热手套。这种标签分配策略不仅可以反映任意取向对象的形状和方向特征,而且还具有高参数调整工作。本文提出了一种称为通用高斯热爱标记(GGH1)的新型Aood方法。具体地,提出了一种无锚性对象适应标签分配(OLA)策略以基于二维(2-D)定向的高斯热手段来定义正面候选物,其反映了任意取向对象的形状和方向特征。基于OLA,开发了定向边界盒(OBB)表示组分(ORC)以指示OBBS并通过神经网络学习适应地调整高斯中心以适应不同对象的特征。此外,具有面积标准化和动态置信度加权的关节优化损耗(JOL)旨在优化不同子特设的错位最佳结果。公共数据集的广泛实验表明,所提出的GGHL具有低参数调整和时间成本的良好性能。此外,通常适用于大多数Aood的方法,以提高其性能,包括嵌入式平台上的轻量级模型。
translated by 谷歌翻译
任意为导向的对象检测(AOOD)已被广泛应用于在遥感图像中以不同方向的方式定位和分类对象。但是,AOOD模型中本地化和分类任务的不一致特征可能会导致歧义和低质量的对象预测,从而限制了检测性能。在本文中,提出了一种称为任务采样卷积(TS-CONV)的AOOD方法。 TS-CONV适应从各个敏感区域进行任务特征,并将这些特征映射为对齐方式,以指导动态标签分配以获得更好的预测。具体而言,TS-CONV中定位卷积的采样位置由与空间坐标相关的定向边界框(OBB)预测监督。尽管分类卷积的采样位置和卷积内核设计为根据不同方向进行自适应调整,以改善特征的方向鲁棒性。此外,制定了动态任务感知标签分配(DTLA)策略来选择最佳候选位置,并根据从TS-CONV获得的排名的任务吸引分数动态分配标签。在涵盖多个场景,多模式图像和多个对象的几个公共数据集上进行了广泛的实验,证明了所提出的TS-CONV的有效性,可伸缩性和出色性能。
translated by 谷歌翻译
任意为导向的对象检测(AOOD)在遥感方案中的图像理解起着重要作用。现有的AOOD方法面临歧义和高成本的挑战。为此,提出了由粗粒角分类(CAC)和细粒角回归(FAR)组成的多透明角度表示(MGAR)方法。具体而言,设计的CAC避免了通过离散角编码(DAE)避免角度预测的歧义,并通过使DAE的粒度变形来降低复杂性。基于CAC,FAR的开发是为了优化角度预测,成本比狭窄的DAE粒度要低得多。此外,与IOU指导的自适应重新加权机制相交,旨在提高角度预测的准确性(IFL)。在几个公共遥感数据集上进行了广泛的实验,这证明了拟议的MGAR的有效性。此外,对嵌入式设备进行的实验表明,拟议的MGAR也对轻型部署也很友好。
translated by 谷歌翻译
无人驾驶飞机(UAV)的实时对象检测是一个具有挑战性的问题,因为Edge GPU设备作为物联网(IoT)节点的计算资源有限。为了解决这个问题,在本文中,我们提出了一种基于Yolox模型的新型轻型深度学习体系结构,用于Edge GPU上的实时对象检测。首先,我们设计了一个有效且轻巧的PixSF头,以更换Yolox的原始头部以更好地检测小物体,可以将其进一步嵌入深度可分离的卷积(DS Conv)中,以达到更轻的头。然后,开发为减少网络参数的颈层中的较小结构,这是精度和速度之间的权衡。此外,我们将注意模块嵌入头层中,以改善预测头的特征提取效果。同时,我们还改进了标签分配策略和损失功能,以减轻UAV数据集的类别不平衡和盒子优化问题。最后,提出了辅助头进行在线蒸馏,以提高PIXSF Head中嵌入位置嵌入和特征提取的能力。在NVIDIA Jetson NX和Jetson Nano GPU嵌入平台上,我们的轻质模型的性能得到了实验验证。扩展的实验表明,与目前的模型相比,Fasterx模型在Visdrone2021数据集中实现了更好的折衷和延迟之间的折衷。
translated by 谷歌翻译
对象检测是计算机视觉中的重要下游任务。对于车载边缘计算平台,很难实现实时检测要求。而且,由大量可分开的卷积层建立的轻巧模型无法达到足够的精度。我们引入了一种新的轻质卷积技术GSCONV,以减轻模型,但保持准确性。 GSCONV在模型的准确性和速度之间取得了极好的权衡。而且,我们提供了一个设计范式,即纤细的颈部,以实现探测器的更高计算成本效益。在二十多组比较实验中,我们的方法的有效性得到了强有力的证明。特别是,通过我们的方法改善的检测器获得了最先进的结果(例如,与原件相比,在Tesla T4 GPU上以〜100fps的速度为70.9%MAP0.5。代码可从https://github.com/alanli1997/slim-neck-by-gsconv获得。
translated by 谷歌翻译
物体检测在计算机视觉中取得了巨大的进步。具有外观降级的小物体检测是一个突出的挑战,特别是对于鸟瞰观察。为了收集足够的阳性/阴性样本进行启发式训练,大多数物体探测器预设区域锚,以便将交叉联盟(iou)计算在地面判处符号数据上。在这种情况下,小物体经常被遗弃或误标定。在本文中,我们提出了一种有效的动态增强锚(DEA)网络,用于构建新颖的训练样本发生器。与其他最先进的技术不同,所提出的网络利用样品鉴别器来实现基于锚的单元和无锚单元之间的交互式样本筛选,以产生符合资格的样本。此外,通过基于保守的基于锚的推理方案的多任务联合训练增强了所提出的模型的性能,同时降低计算复杂性。所提出的方案支持定向和水平对象检测任务。对两个具有挑战性的空中基准(即,DotA和HRSC2016)的广泛实验表明,我们的方法以适度推理速度和用于训练的计算开销的准确性实现最先进的性能。在DotA上,我们的DEA-NET与ROI变压器的基线集成了0.40%平均平均精度(MAP)的先进方法,以便用较弱的骨干网(Resnet-101 VS Resnet-152)和3.08%平均 - 平均精度(MAP),具有相同骨干网的水平对象检测。此外,我们的DEA网与重新排列的基线一体化实现最先进的性能80.37%。在HRSC2016上,它仅使用3个水平锚点超过1.1%的最佳型号。
translated by 谷歌翻译
X射线图像在制造业的质量保证中起着重要作用,因为它可以反映焊接区域的内部条件。然而,不同缺陷类型的形状和规模大大变化,这使得模型检测焊接缺陷的挑战性。在本文中,我们提出了一种基于卷积神经网络的焊接缺陷检测方法,即打火机和更快的YOLO(LF-YOLO)。具体地,增强的多尺度特征(RMF)模块旨在实现基于参数和无参数的多尺度信息提取操作。 RMF使得提取的特征映射能够代表更丰富的信息,该信息是通过卓越的层级融合结构实现的。为了提高检测网络的性能,我们提出了一个有效的特征提取(EFE)模块。 EFE处理具有极低消耗量的输入数据,并提高了实际行业中整个网络的实用性。实验结果表明,我们的焊接缺陷检测网络在性能和消耗之间实现了令人满意的平衡,达到92.9平均平均精度MAP50,每秒61.5帧(FPS)。为了进一步证明我们方法的能力,我们在公共数据集MS Coco上测试它,结果表明我们的LF-YOLO具有出色的多功能性检测性能。代码可在https://github.com/lmomoy/lf-yolo上获得。
translated by 谷歌翻译
空中图像中的对象检测是地球科学和遥感领域的基本研究任务。但是,该主题的先进进展主要集中在设计渐进式骨干架构或头部网络上,但忽略了颈部网络。在这封信中,我们首先从信息瓶颈的角度分析了颈部网络在对象检测中的重要性。然后,为了减轻当前颈部网络中的信息缺乏问题,我们提出了一个全球语义网络(GSNET),该网络充当双向全球模式的桥梁。与现有的颈部网络相比,我们的模型可以捕获具有较少计算成本的丰富和详细图像功能。此外,我们进一步提出了一个特征融合细化模块(FRM),用于不同级别的特征地图,这些图形遇到了较大的信息差距。为了证明我们方法的有效性和效率,在两个具有挑战性的数据集(即DOTA和HRSC2016)上进行了实验。在识别精度和计算复杂性方面的实验结果验证了我们方法的优越性。该代码已在GSNET开源。
translated by 谷歌翻译
尽管Yolov2方法在对象检测时非常快,但由于其骨干网络的性能较低和多尺度区域特征的缺乏,其检测准确性受到限制。因此,在本文中提出了一种基于Yolov2的Yolo(DC)Yolo(DC-SPP-YOLO)方法的密集连接(DC)和空间金字塔池(SPP)方法。具体而言,在Yolov2的骨干网络中采用了卷积层的密集连接,以增强特征提取并减轻消失的梯度问题。此外,引入了改进的空间金字塔池以池并加入多尺度区域特征,以便网络可以更全面地学习对象功能。 DC-SPP-YOLO模型是根据由MSE(均方误差)损耗和跨透镜损失组成的新损失函数建立和训练的。实验结果表明,DC-SPP-Yolo的地图(平均平均精度)高于Pascal VOC数据集和UA-Detrac数据集上的Yolov2。提出了DC-SPP-Yolo方法的有效性。
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
面部检测是为了在图像中搜索面部的所有可能区域,并且如果有任何情况,则定位面部。包括面部识别,面部表情识别,面部跟踪和头部姿势估计的许多应用假设面部的位置和尺寸在图像中是已知的。近几十年来,研究人员从Viola-Jones脸上检测器创造了许多典型和有效的面部探测器到当前的基于CNN的CNN。然而,随着图像和视频的巨大增加,具有面部刻度的变化,外观,表达,遮挡和姿势,传统的面部探测器被挑战来检测野外面孔的各种“脸部。深度学习技术的出现带来了非凡的检测突破,以及计算的价格相当大的价格。本文介绍了代表性的深度学习的方法,并在准确性和效率方面提出了深度和全面的分析。我们进一步比较并讨论了流行的并挑战数据集及其评估指标。进行了几种成功的基于深度学习的面部探测器的全面比较,以使用两个度量来揭示其效率:拖鞋和延迟。本文可以指导为不同应用选择合适的面部探测器,也可以开发更高效和准确的探测器。
translated by 谷歌翻译
压缩高准确性卷积神经网络(CNN)的最新进展已经见证了实时对象检测的显着进步。为了加速检测速度,轻质检测器总是使用单路主链几乎没有卷积层。但是,单路径架构涉及连续的合并和下采样操作,始终导致粗糙和不准确的特征图,这些图形不利,无法找到对象。另一方面,由于网络容量有限,最近的轻质网络在表示大规模的视觉数据方面通常很弱。为了解决这些问题,本文提出了一个名为DPNET的双路径网络,并采用了实时对象检测的轻巧注意方案。双路径体系结构使我们能够与提取物相对于高级语义特征和低级对象详细信息。尽管DPNET相对于单路检测器几乎具有重复的形状,但计算成本和模型大小并未显着增加。为了增强表示能力,轻巧的自相关模块(LSCM)旨在捕获全局交互,只有很少的计算开销和网络参数。在颈部,LSCM扩展到轻质互相关模块(LCCM),从而捕获相邻尺度特征之间的相互依赖性。我们已经对Coco和Pascal VOC 2007数据集进行了详尽的实验。实验结果表明,DPNET在检测准确性和实施效率之间实现了最新的权衡。具体而言,DPNET在MS COCO Test-DEV上可实现30.5%的AP,Pascal VOC 2007测试集上的81.5%地图,MWITH近250万型号,1.04 GFLOPS,1.04 GFLOPS和164 fps和196 fps和196 fps,320 x 320输入图像的320 x 320输入图像。
translated by 谷歌翻译
由于存储器和计算资源有限,部署在移动设备上的卷积神经网络(CNNS)是困难的。我们的目标是通过利用特征图中的冗余来设计包括CPU和GPU的异构设备的高效神经网络,这很少在神经结构设计中进行了研究。对于类似CPU的设备,我们提出了一种新颖的CPU高效的Ghost(C-Ghost)模块,以生成从廉价操作的更多特征映射。基于一组内在的特征映射,我们使用廉价的成本应用一系列线性变换,以生成许多幽灵特征图,可以完全揭示内在特征的信息。所提出的C-Ghost模块可以作为即插即用组件,以升级现有的卷积神经网络。 C-Ghost瓶颈旨在堆叠C-Ghost模块,然后可以轻松建立轻量级的C-Ghostnet。我们进一步考虑GPU设备的有效网络。在建筑阶段的情况下,不涉及太多的GPU效率(例如,深度明智的卷积),我们建议利用阶段明智的特征冗余来制定GPU高效的幽灵(G-GHOST)阶段结构。舞台中的特征被分成两个部分,其中使用具有较少输出通道的原始块处理第一部分,用于生成内在特征,另一个通过利用阶段明智的冗余来生成廉价的操作。在基准测试上进行的实验证明了所提出的C-Ghost模块和G-Ghost阶段的有效性。 C-Ghostnet和G-Ghostnet分别可以分别实现CPU和GPU的准确性和延迟的最佳权衡。代码可在https://github.com/huawei-noah/cv-backbones获得。
translated by 谷歌翻译
交通标志检测是无人驾驶系统的具有挑战性的任务,特别是对于检测多尺度目标和检测的实时问题。在交通标志检测过程中,目标的比例大大变化,这将对检测精度产生一定的影响。特征金字塔广泛用于解决这个问题,但它可能会破坏不同的交通标志尺度的功能一致性。此外,在实际应用中,常用方法难以提高多尺度交通标志的检测精度,同时确保实时检测。在本文中,我们提出了一种改进的特征金字塔模型,名为AF-FPN,它利用自适应注意模块(AAM)和特征增强模块(FEM)来减少特征映射生成过程中的信息损失,并提高表示能力特征金字塔。我们用AF-FPN替换了YOLOV5中的原始特征金字塔网络,这在确保实时检测的前提下提高了YOLOV5网络的多尺度目标的检测性能。此外,提出了一种新的自动学习数据增强方法来丰富数据集,提高模型的稳健性,使其更适合实际情况。关于清华腾讯100K(TT100K)数据集的广泛实验结果证明了与多种最先进的方法相比,所提出的方法的有效性和优越性。
translated by 谷歌翻译
现有的锚定面向对象检测方法已经实现了惊人的结果,但这些方法需要一些手动预设盒,这引入了额外的超参数和计算。现有的锚定方法通常具有复杂的架构,并且不易部署。我们的目标是提出一种简单易于部署的空中图像检测算法。在本文中,我们介绍了基于FCOS的单级锚定旋转对象检测器(FCOSR),可以在大多数平台上部署。 FCOSR具有简单的架构,包括卷积图层。我们的工作侧重于培训阶段的标签分配策略。我们使用椭圆中心采样方法来定义面向定向框(obb)的合适采样区域。模糊样本分配策略为重叠对象提供合理的标签。为解决采样问题不足,设计了一种多级采样模块。这些策略将更合适的标签分配给培训样本。我们的算法分别在DOTA1.0,DOTA1.5和HRSC2016数据集上实现79.25,75.41和90.15映射。 FCOSR在单规模评估中展示了其他方法的卓越性能。我们将轻量级FCOSR模型转换为Tensorrt格式,该格式在Dota1.0上以10.68 fps在jetson Xavier NX上实现73.93映射。该代码可用于:https://github.com/lzh420202/fcosr
translated by 谷歌翻译
人行道表面数据的获取和评估在路面条件评估中起着至关重要的作用。在本文中,提出了一个称为RHA-NET的自动路面裂纹分割的有效端到端网络,以提高路面裂纹分割精度。 RHA-NET是通过将残留块(重阻)和混合注意块集成到编码器架构结构中来构建的。这些重组用于提高RHA-NET提取高级抽象特征的能力。混合注意块旨在融合低级功能和高级功能,以帮助模型专注于正确的频道和裂纹区域,从而提高RHA-NET的功能表现能力。构建并用于训练和评估所提出的模型的图像数据集,其中包含由自设计的移动机器人收集的789个路面裂纹图像。与其他最先进的网络相比,所提出的模型在全面的消融研究中验证了添加残留块和混合注意机制的功能。此外,通过引入深度可分离卷积生成的模型的轻加权版本可以更好地实现性能和更快的处理速度,而U-NET参数数量的1/30。开发的系统可以在嵌入式设备Jetson TX2(25 fps)上实时划分路面裂纹。实时实验拍摄的视频将在https://youtu.be/3xiogk0fig4上发布。
translated by 谷歌翻译
土地覆盖分类是一项多级分割任务,将每个像素分类为地球表面的某些天然或人为类别,例如水,土壤,自然植被,农作物和人类基础设施。受硬件计算资源和内存能力的限制,大多数现有研究通过将它们放置或将其裁剪成小于512*512像素的小斑块来预处理原始遥感图像,然后再将它们发送到深神经网络。然而,下调图像会导致空间细节损失,使小细分市场难以区分,并逆转了数十年来努力获得的空间分辨率进度。将图像裁剪成小斑块会导致远程上下文信息的丢失,并将预测的结果恢复为原始大小会带来额外的延迟。为了响应上述弱点,我们提出了称为Mkanet的有效的轻巧的语义分割网络。 Mkanet针对顶视图高分辨率遥感图像的特征,利用共享内核同时且同样处理不一致的尺度的地面段,还采用平行且浅层的体系结构来提高推理速度和友好的支持速度和友好的支持图像贴片,超过10倍。为了增强边界和小段歧视,我们还提出了一种捕获类别杂质区域的方法,利用边界信息并对边界和小部分错误判断施加额外的惩罚。广泛实验的视觉解释和定量指标都表明,Mkanet在两个土地覆盖分类数据集上获得了最先进的准确性,并且比其他竞争性轻量级网络快2倍。所有这些优点突出了Mkanet在实际应用中的潜力。
translated by 谷歌翻译
In recent years, object detection has achieved a very large performance improvement, but the detection result of small objects is still not very satisfactory. This work proposes a strategy based on feature fusion and dilated convolution that employs dilated convolution to broaden the receptive field of feature maps at various scales in order to address this issue. On the one hand, it can improve the detection accuracy of larger objects. On the other hand, it provides more contextual information for small objects, which is beneficial to improving the detection accuracy of small objects. The shallow semantic information of small objects is obtained by filtering out the noise in the feature map, and the feature information of more small objects is preserved by using multi-scale fusion feature module and attention mechanism. The fusion of these shallow feature information and deep semantic information can generate richer feature maps for small object detection. Experiments show that this method can have higher accuracy than the traditional YOLOv3 network in the detection of small objects and occluded objects. In addition, we achieve 32.8\% Mean Average Precision on the detection of small objects on MS COCO2017 test set. For 640*640 input, this method has 88.76\% mAP on the PASCAL VOC2012 dataset.
translated by 谷歌翻译
Semantic segmentation of UAV aerial remote sensing images provides a more efficient and convenient surveying and mapping method for traditional surveying and mapping. In order to make the model lightweight and improve a certain accuracy, this research developed a new lightweight and efficient network for the extraction of ground features from UAV aerial remote sensing images, called LDMCNet. Meanwhile, this research develops a powerful lightweight backbone network for the proposed semantic segmentation model. It is called LDCNet, and it is hoped that it can become the backbone network of a new generation of lightweight semantic segmentation algorithms. The proposed model uses dual multi-scale context modules, namely the Atrous Space Pyramid Pooling module (ASPP) and the Object Context Representation module (OCR). In addition, this research constructs a private dataset for semantic segmentation of aerial remote sensing images from drones. This data set contains 2431 training sets, 945 validation sets, and 475 test sets. The proposed model performs well on this dataset, with only 1.4M parameters and 5.48G floating-point operations (FLOPs), achieving an average intersection-over-union ratio (mIoU) of 71.12%. 7.88% higher than the baseline model. In order to verify the effectiveness of the proposed model, training on the public datasets "LoveDA" and "CITY-OSM" also achieved excellent results, achieving mIoU of 65.27% and 74.39%, respectively.
translated by 谷歌翻译