智能论文笔记

Exploiting Multi-Scale Fusion, Spatial Attention and Patch Interaction Techniques for Text-Independent Writer Identification

Abhishek Srivastava , Sukalpa Chanda , Umapada Pal

分类：计算机视觉

2021-11-20

文本独立作者识别是一个具有挑战性的问题，区分不同的笔迹样式来决定手写文本的作者。早期的作家识别依赖于手工制作的功能来揭示作家之间的差异。近期与卷积神经网络的出现，基于深度学习的方法已经发展。在本文中，提出了三种不同的深度学习技术 - 空间注意机制，多尺度特征融合和基于补丁的CNN，以有效地捕获每个作家手写之间的差异。我们的方法基于手写文本图像具有对作家风格更独特的特定空间区域的假设，多尺度特征在各个作家和基于补丁的功能方面传播特征特征，提供更多的一般和强大的表示有助于区分不同作家的笔迹。所提出的方法在三个公开的数据集 - CVL，Firemaker，CETUB-ZEN数据集中优于单词级和页面级写入方法的各种最先进的方法，并在IAM数据集中给出可比性的性能。

translated by 谷歌翻译

On-Device Spatial Attention based Sequence Learning Approach for Scene Text Script Identification

Rutika Moharir , Arun D Prabhu , Sukumar Moharana , Gopi Ramena , Rachit S Munjal

分类：计算机视觉

2021-12-01

自动识别脚本是多语言OCR引擎的重要组成部分。在本文中，我们介绍了基于CNN-LSTM网络的高效，轻量级，实时和设备空间关注，用于场景文本脚本标识，可在资源受限移动设备上部署部署。我们的网络由CNN组成，配备有空间注意模块，有助于减少自然图像中存在的空间扭曲。这允许特征提取器在忽略畸形的同时产生丰富的图像表示，从而提高了该细粒化分类任务的性能。该网络还采用残留卷积块来构建深度网络以专注于脚本的鉴别特征。 CNN通过识别属于特定脚本的每个字符来学习文本特征表示，并且使用LSTM层的序列学习能力捕获文本内的长期空间依赖关系。将空间注意机制与残留卷积块相结合，我们能够增强基线CNN的性能，以构建用于脚本识别的端到端可训练网络。若干标准基准测试的实验结果证明了我们方法的有效性。该网络实现了最先进的方法竞争准确性，并且在网络尺寸方面优越，总共仅为110万个参数，推理时间为2.7毫秒。

translated by 谷歌翻译

AGA-GAN: Attribute Guided Attention Generative Adversarial Network with U-Net for Face Hallucination

Abhishek Srivastava , Sukalpa Chanda , Umapada Pal

分类：计算机视觉

2021-11-20

面部超分辨率方法的性能依赖于它们有效地收回面部结构和突出特征的能力。尽管卷积神经网络和基于生成的对抗网络的方法在面对幻觉任务中提供令人印象深刻的性能，但使用与低分辨率图像相关的属性来提高性能的能力是不令人满意的。在本文中，我们提出了一种属性引导的注意力发生抗体网络，该受体对抗网络采用新的属性引导的注意力（AGA）模块来识别和聚焦图像中各种面部特征的生成过程。堆叠多个AGA模块可以恢复高电平的高级面部结构。我们设计鉴别者来学习利用高分辨率图像与其相应的面部属性注释之间关系的鉴别特征。然后，我们探索基于U-Net的架构来改进现有预测并综合进一步的面部细节。跨越几个指标的广泛实验表明，我们的AGA-GaN和Aga-GaN + U-Net框架优于其他几种最先进的幻觉的方法。我们还演示了我们的方法的可行性，当每个属性描述符未知并因此建立其在真实情景中的应用程序时。

translated by 谷歌翻译

Offline Text-Independent Writer Identification based on word level data

Vineet Kumar , Suresh Sundaram

分类：计算机视觉

2022-02-21

本文提出了一种新的方案，以根据个人的手写输入单词图像来识别文档的作者身份。我们的方法是与文本无关的，并且对所考虑的输入单词图像的大小没有任何限制。首先，我们采用SIFT算法在不同级别的抽象（包括字符的特征或组合）上提取多个关键点。然后，这些关键点通过训练有素的CNN网络，以生成与卷积层相对应的特征图。但是，由于比例对应于SIFT密钥点，生成的特征映射的大小可能会有所不同。为了缓解此问题，将梯度的直方图应用于特征图上以产生固定表示。通常，在CNN中，每个卷积块的过滤器数量增加，具体取决于网络的深度。因此，为每个卷积特征图提取直方图特征增加了尺寸以及计算负载。为了解决这一方面，我们使用基于熵的方法来学习算法的训练阶段中特定CNN层的特征图的权重。我们提出的系统的功效已在两个公开数据库中证明，即CVL和IAM。我们从经验上表明，与以前的作品相比，获得的结果是有希望的。

translated by 谷歌翻译

GMSRF-Net: An improved generalizability with global multi-scale residual fusion network for polyp segmentation

Abhishek Srivastava , Sukalpa Chanda , Debesh Jha , Umapada Pal , Sharib Ali

分类：计算机视觉

2021-11-20

结肠镜检查是一种金标准程序，但依赖于高度操作员。已经努力自动化息肉的检测和分割，这是一种癌前前兆，以有效地减少错过率。广泛使用的通过编码器解码器驱动的计算机辅助息肉分段系统在精度方面具有高性能。然而，从各种中心收集的息肉分割数据集可以遵循不同的成像协议，导致数据分布的差异。因此，大多数方法遭受性能下降，并且需要对每个特定数据集进行重新训练。我们通过提出全局多尺度剩余融合网络（GMSRF-Net）来解决这个概括问题。我们所提出的网络在为所有分辨率尺度执行多尺度融合操作时保持高分辨率表示。为了进一步利用比例信息，我们在GMSRF-Net中设计交叉多尺度注意（CMSA）和多尺度特征选择（MSFS）模块。由CMSA和MSFS门控的重复融合操作展示了网络的改进的概括性。在两种不同的息肉分割数据集上进行的实验表明，我们提出的GMSRF-Net优于先前的最先进的方法，在骰子方面，在看不见的CVC-ClinicDB和Unseen KVasir-SEG上的前一流的最先进方法。系数。

translated by 谷歌翻译

Two Decades of Bengali Handwritten Digit Recognition: A Survey

A. B. M. Ashikur Rahman , Md. Bakhtiar Hasan , Sabbir Ahmed , Tasnim Ahmed , Md. Hamjajul Ashmafee , Mohammad Ridwan Kabir , Md. Hasanul Kabir

分类：计算机视觉

2022-06-05

手写数字识别（HDR）是光学特征识别（OCR）领域中最具挑战性的任务之一。不管语言如何，HDR都存在一些固有的挑战，这主要是由于个人跨个人的写作风格的变化，编写媒介和环境的变化，无法在反复编写任何数字等时保持相同的笔触。除此之外，特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来，研究人员开发了许多离线和在线HDR管道，其中不同的图像处理技术与传统的机器学习（ML）基于基于的和/或基于深度学习（DL）的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据，例如：英语，阿拉伯语，印度，法尔西，中文等，但几乎没有对孟加拉人HDR（BHDR）的调查，这缺乏对孟加拉语HDR（BHDR）的研究，而这些调查缺乏对孟加拉语HDR（BHDR）的研究。挑战，基础识别过程以及可能的未来方向。在本文中，已经分析了孟加拉语手写数字的特征和固有的歧义，以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外，还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编，煽动了对相关研究的新途径的探索，这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。

translated by 谷歌翻译

Camouflaged Object Detection via Context-aware Cross-level Fusion

Geng Chen , Si-Jie Liu , Yu-Jia Sun , Ge-Peng Ji , Ya-Feng Wu , Tao Zhou

分类：计算机视觉

2022-07-27

伪装的对象检测（COD）旨在识别自然场景中隐藏自己的物体。准确的COD遭受了许多与低边界对比度有关的挑战，并且对象出现（例如对象大小和形状）的较大变化。为了应对这些挑战，我们提出了一种新颖的背景感知跨层次融合网络（C2F-net），该网络融合了上下文感知的跨级特征，以准确识别伪装的对象。具体而言，我们通过注意力诱导的跨融合模块（ACFM）来计算来自多级特征的内容丰富的注意系数，该模块（ACFM）进一步在注意系数的指导下进一步集成了特征。然后，我们提出了一个双分支全局上下文模块（DGCM），以通过利用丰富的全球上下文信息来完善内容丰富的功能表示的融合功能。多个ACFM和DGCM以级联的方式集成，以产生高级特征的粗略预测。粗糙的预测充当了注意力图，以完善低级特征，然后再将其传递到我们的伪装推断模块（CIM）以生成最终预测。我们对三个广泛使用的基准数据集进行了广泛的实验，并将C2F-NET与最新模型（SOTA）模型进行比较。结果表明，C2F-NET是一种有效的COD模型，并且表现出明显的SOTA模型。此外，对息肉细分数据集的评估证明了我们在COD下游应用程序中C2F-NET的有希望的潜力。我们的代码可在以下网址公开获取：https：//github.com/ben57882/c2fnet-tscvt。

translated by 谷歌翻译

Feature Aggregation and Propagation Network for Camouflaged Object Detection

Tao Zhou , Yi Zhou , Chen Gong , Jian Yang , Yu Zhang

分类：计算机视觉

2022-12-02

Camouflaged object detection (COD) aims to detect/segment camouflaged objects embedded in the environment, which has attracted increasing attention over the past decades. Although several COD methods have been developed, they still suffer from unsatisfactory performance due to the intrinsic similarities between the foreground objects and background surroundings. In this paper, we propose a novel Feature Aggregation and Propagation Network (FAP-Net) for camouflaged object detection. Specifically, we propose a Boundary Guidance Module (BGM) to explicitly model the boundary characteristic, which can provide boundary-enhanced features to boost the COD performance. To capture the scale variations of the camouflaged objects, we propose a Multi-scale Feature Aggregation Module (MFAM) to characterize the multi-scale information from each layer and obtain the aggregated feature representations. Furthermore, we propose a Cross-level Fusion and Propagation Module (CFPM). In the CFPM, the feature fusion part can effectively integrate the features from adjacent layers to exploit the cross-level correlations, and the feature propagation part can transmit valuable context information from the encoder to the decoder network via a gate unit. Finally, we formulate a unified and end-to-end trainable framework where cross-level features can be effectively fused and propagated for capturing rich context information. Extensive experiments on three benchmark camouflaged datasets demonstrate that our FAP-Net outperforms other state-of-the-art COD models. Moreover, our model can be extended to the polyp segmentation task, and the comparison results further validate the effectiveness of the proposed model in segmenting polyps. The source code and results will be released at https://github.com/taozh2017/FAPNet.

translated by 谷歌翻译

Finger Multimodal Feature Fusion and Recognition Based on Channel Spatial Attention

Jian Guo , Jiaxiang Tu , Hengyi Ren , Chong Han , Lijuan Sun

分类：计算机视觉

2022-09-06

由于单峰生物识别系统的不稳定性和局限性，多模式系统吸引了研究人员的关注。但是，如何利用不同方式之间的独立和互补信息仍然是一个关键和具有挑战性的问题。在本文中，我们提出了一种基于指纹和手指静脉的多模式融合识别算法（指纹手指静脉 - 通道 - 通道空间注意融合模块，FPV-CSAFM）。具体而言，对于每对指纹和手指静脉图像，我们首先提出一个简单有效的卷积神经网络（CNN）来提取特征。然后，我们构建一个多模式融合模块（通道空间注意融合模块，CSAFM），以完全融合指纹和指纹之间的互补信息。与现有的融合策略不同，我们的融合方法可以根据渠道和空间维度不同模态的重要性动态调整融合权重，以便更好地将信息之间的信息更好地结合在一起，并提高整体识别性能。为了评估我们方法的性能，我们在多个公共数据集上进行了一系列实验。实验结果表明，所提出的FPV-CSAFM基于指纹和手指静脉在三个多模式数据集上实现了出色的识别性能。

translated by 谷歌翻译

Improving Face-Based Age Estimation with Attention-Based Dynamic Patch Fusion

Haoyi Wang , Victor Sanchez , Chang-Tsun Li

分类：计算机视觉

2021-12-19

随着卷积神经网络（CNNS）的普及日益普及，最近的面部年龄估计的作品雇用这些网络作为骨干。然而，最先进的基于CNN的方法同样地治疗每个面部区域，从而完全忽略了一些可能包含富年龄信息的面部斑块的重要性。在本文中，我们提出了一种基于面部的年龄估计框架，称为关注的动态补丁融合（ADPF）。在ADPF中，实现了两个单独的CNN，即IpperenceNet和FusionNet。 EpperenceNet通过采用新的排名引导的多头混合注意力（RMHHA）机制来动态定位并排名特定年龄的补丁。 FusionNet使用发现的补丁以及面部图像来预测主题的年龄。由于提出的RMHA机制根据其重要性排名发现的补丁，因此FusionNet中的每个补丁的学习路径的长度与其携带的信息量成比例（较长，更重要的）。 ADPF还介绍了一种新颖的多样性损失，以指导IppectionNet的培训，并减少补丁中的重叠，以便发现多样化和重要的补丁。通过广泛的实验，我们表明我们所提出的框架优于几个年龄估计基准数据集的最先进的方法。

translated by 谷歌翻译

A new database of Houma Alliance Book ancient handwritten characters and its baseline algorithm

Xiaoyu Yuan , Zhibo Zhang , Yabo Sun , Zekai Xue , Xiuyan Shao , Xiaohua Huang

分类：计算机视觉 | 人工智能

2022-07-13

侯马联盟书是中国山西博物馆小镇博物馆的国家宝藏之一。它在研究古老的历史方面具有重要的历史意义。迄今为止，关于霍玛联盟书籍的研究一直留在纸质文件的识别中，这是无法识别和难以显示，学习和宣传的纸质文件。因此，霍玛联盟公认的古代角色的数字化可以有效提高识别古代角色并提供更可靠的技术支持和文本数据的效率。本文提出了一个新的Houma Alliance书籍的新数据库。在数据库中，从原始书籍收藏和人类的模仿写作中收集了297个班级和3,547个Houma Alliance古代手写字符样本。此外，决策级分类器融合策略用于融合三个众所周知的深神网络体系结构，以供古代手写角色识别。实验是在我们的新数据库上执行的。实验结果首先为研究界提供了新数据库的基线结果，然后证明了我们提出的方法的效率。

translated by 谷歌翻译

Touchless Palmprint Recognition based on 3D Gabor Template and Block Feature Refinement

Zhaoqun Li , Xu Liang , Dandan Fan , Jinxing Li , Wei Jia , David Zhang

分类：计算机视觉 | 人工智能

2021-03-03

随着对手工卫生的需求不断增长和使用的便利性，掌上识别最近具有淡淡的发展，为人识别提供了有效的解决方案。尽管已经致力于该地区的许多努力，但仍然不确定无接触棕榈污染的辨别能力，特别是对于大规模数据集。为了解决问题，在本文中，我们构建了一个大型无尺寸的棕榈纹数据集，其中包含了来自1167人的2334个棕榈手机。为了我们的最佳知识，它是有史以来最大的非接触式手掌形象基准，而是关于个人和棕榈树的数量收集。此外，我们提出了一个名为3DCPN（3D卷积棕榈识别网络）的无棕榈识别的新型深度学习框架，它利用3D卷积来动态地集成多个Gabor功能。在3DCPN中，嵌入到第一层中的新颖变体以增强曲线特征提取。通过精心设计的集合方案，然后将低级别的3D功能卷积以提取高级功能。最后在顶部，我们设置了基于地区的损失功能，以加强全局和本地描述符的辨别能力。为了展示我们方法的优越性，在我们的数据集和其他流行数据库同济和IITD上进行了广泛的实验，其中结果显示了所提出的3DCPN实现最先进的或可比性的性能。

translated by 谷歌翻译

Attention Mechanism Meets with Hybrid Dense Network for Hyperspectral Image Classification

Muhammad Ahmad , Adil Mehmood Khan , Manuel Mazzara , Salvatore Distefano , Swalpa Kumar Roy , Xin Wu

分类：计算机视觉

2022-01-04

确实，卷积神经网络（CNN）更合适。然而，固定内核大小使传统的CNN太具体，既不灵活也不有利于特征学习，从而影响分类准确性。不同内核大小网络的卷积可以通过捕获更多辨别和相关信息来克服这个问题。鉴于此，所提出的解决方案旨在将3D和2D成立网的核心思想与促进混合方案中的HSIC CNN性能提升。生成的\ Textit {注意融合混合网络}（AFNET）基于三个关注融合的并行混合子网，每个块中的不同内核使用高级功能，以增强最终的地面图。简而言之，AFNET能够选择性地过滤滤除对分类至关重要的辨别特征。与最先进的模型相比，HSI数据集的几次测试为AFNET提供了竞争力的结果。拟议的管道实现，实际上，印度松树的总体准确性为97 \％，博茨瓦纳100 \％，帕尔茨大学，帕维亚中心和萨利纳斯数据集的99 \％。

translated by 谷歌翻译

Deep Learning for Instance Retrieval: A Survey

Wei Chen , Yu Liu , Weiping Wang , Erwin Bakker , Theodoros Georgiou , Paul Fieguth , Li Liu , Michael S. Lew

分类：计算机视觉

2021-01-27

近年来，已经产生了大量的视觉内容，并从许多领域共享，例如社交媒体平台，医学成像和机器人。这种丰富的内容创建和共享引入了新的挑战，特别是在寻找类似内容内容的图像检索（CBIR）-A的数据库中，即长期建立的研究区域，其中需要改进的效率和准确性来实时检索。人工智能在CBIR中取得了进展，并大大促进了实例搜索过程。在本调查中，我们审查了最近基于深度学习算法和技术开发的实例检索工作，通过深网络架构类型，深度功能，功能嵌入方法以及网络微调策略组织了调查。我们的调查考虑了各种各样的最新方法，在那里，我们识别里程碑工作，揭示各种方法之间的联系，并呈现常用的基准，评估结果，共同挑战，并提出未来的未来方向。

translated by 谷歌翻译

Ghost-dil-NetVLAD: A Lightweight Neural Network for Visual Place Recognition

Qingyuan Gong , Yu Liu , Liqiang Zhang , Renhe Liu

分类：计算机视觉

2021-12-22

视觉地点识别（VPR）是一个具有挑战性的任务，具有巨大的计算成本与高识别性能之间的不平衡。由于轻质卷积神经网络（CNNS）和局部聚合描述符（VLAD）层向量的火车能力的实用特征提取能力，我们提出了一种由前部组成的轻量级弱监管的端到端神经网络-anded的感知模型称为ghostcnn和学习的VLAD层作为后端。 Ghostcnn基于幽灵模块，这些模块是基于重量的CNN架构。它们可以使用线性操作而不是传统的卷积过程生成冗余特征映射，从而在计算资源和识别准确性之间进行良好的权衡。为了进一步增强我们提出的轻量级模型，我们将扩张的卷曲添加到Ghost模块中，以获取包含更多空间语义信息的功能，提高准确性。最后，在常用的公共基准和我们的私人数据集上进行的丰富实验验证了所提出的神经网络，分别将VGG16-NetVlad的拖鞋和参数减少了99.04％和80.16％。此外，两种模型都达到了类似的准确性。

translated by 谷歌翻译

An Efficient Multi-Scale Fusion Network for 3D Organ at Risk (OAR) Segmentation

Abhishek Srivastava , Debesh Jha , Elif Keles , Bulent Aydogan , Mohamed Abazeed , Ulas Bagci

分类：计算机视觉

2022-08-15

精确分割器官 - 危险（OARS）是优化放射治疗计划的先驱。现有的基于深度学习的多尺度融合体系结构已显示出2D医疗图像分割的巨大能力。他们成功的关键是汇总全球环境并保持高分辨率表示。但是，当转化为3D分割问题时，由于其大量的计算开销和大量数据饮食，现有的多尺度融合体系结构可能表现不佳。为了解决此问题，我们提出了一个新的OAR分割框架，称为Oarfocalfusenet，该框架融合了多尺度功能，并采用焦点调制来捕获多个尺度的全局本地上下文。每个分辨率流都具有来自不同分辨率量表的特征，并且多尺度信息汇总到模型多样化的上下文范围。结果，功能表示将进一步增强。在我们的实验设置中与OAR分割以及多器官分割的全面比较表明，我们提出的Oarfocalfusenet在公开可用的OpenKBP数据集和Synapse Multi-Organ细分方面的最新最新方法优于最新的最新方法。在标准评估指标方面，提出的两种方法（3D-MSF和Oarfocalfusenet）均表现出色。我们的最佳性能方法（Oarfocalfusenet）在OpenKBP数据集上获得的骰子系数为0.7995，Hausdorff的距离为5.1435，而Synapse Multi-Organ分段数据集则获得了0.8137的骰子系数。

translated by 谷歌翻译

Nuclei & Glands Instance Segmentation in Histology Images: A Narrative Review

Esha Sadia Nasir , Arshi Perviaz , Muhammad Moazam Fraz

分类：计算机视觉

2022-08-26

组织学图像中核和腺体的实例分割是用于癌症诊断，治疗计划和生存分析的计算病理学工作流程中的重要一步。随着现代硬件的出现，大规模质量公共数据集的最新可用性以及社区组织的宏伟挑战已经看到了自动化方法的激增，重点是特定领域的挑战，这对于技术进步和临床翻译至关重要。在这项调查中，深入分析了过去五年（2017-2022）中发表的原子核和腺体实例细分的126篇论文，进行了深入分析，讨论了当前方法的局限性和公开挑战。此外，提出了潜在的未来研究方向，并总结了最先进方法的贡献。此外，还提供了有关公开可用数据集的概括摘要以及关于说明每种挑战的最佳性能方法的巨大挑战的详细见解。此外，我们旨在使读者现有研究的现状和指针在未来的发展方向上开发可用于临床实践的方法，从而可以改善诊断，分级，预后和癌症的治疗计划。据我们所知，以前没有工作回顾了朝向这一方向的组织学图像中的实例细分。

translated by 谷歌翻译

HTML版本

TriPINet: Tripartite Progressive Integration Network for Image Manipulation Localization

Wei-Yun Liang , Jing Xu , Xiao Jin

分类：计算机视觉

2022-12-25

Image manipulation localization aims at distinguishing forged regions from the whole test image. Although many outstanding prior arts have been proposed for this task, there are still two issues that need to be further studied: 1) how to fuse diverse types of features with forgery clues; 2) how to progressively integrate multistage features for better localization performance. In this paper, we propose a tripartite progressive integration network (TriPINet) for end-to-end image manipulation localization. First, we extract both visual perception information, e.g., RGB input images, and visual imperceptible features, e.g., frequency and noise traces for forensic feature learning. Second, we develop a guided cross-modality dual-attention (gCMDA) module to fuse different types of forged clues. Third, we design a set of progressive integration squeeze-and-excitation (PI-SE) modules to improve localization performance by appropriately incorporating multiscale features in the decoder. Extensive experiments are conducted to compare our method with state-of-the-art image forensics approaches. The proposed TriPINet obtains competitive results on several benchmark datasets.

translated by 谷歌翻译

Mirror Complementary Transformer Network for RGB-thermal Salient Object Detection

Xiurong Jiang , Lin Zhu , Yifan Hou , Hui Tian

分类：计算机视觉

2022-07-07

RGB-thermal显着对象检测（RGB-T SOD）旨在定位对齐可见的和热红外图像对的共同突出对象，并准确地分割所有属于这些对象的像素。由于对热图像的照明条件不敏感，它在诸如夜间和复杂背景之类的具有挑战性的场景中很有希望。因此，RGB-T SOD的关键问题是使两种方式的功能相互补充并互相调整，因为不可避免的是，由于极端光条件和诸如极端光条件和诸如极端光明条件和热跨界。在本文中，我们提出了一个针对RGB-T SOD的新型镜子互补变压器网络（MCNET）。具体而言，我们将基于变压器的特征提取模块引入RGB和热图像的有效提取分层特征。然后，通过基于注意力的特征相互作用和基于串行的多尺度扩张卷积（SDC）特征融合模块，提出的模型实现了低级特征的互补相互作用以及深度特征的语义融合。最后，基于镜子互补结构，即使是一种模态也可以准确地提取两种方式的显着区域也是无效的。为了证明在现实世界中具有挑战性的场景下提出的模型的鲁棒性，我们基于自动驾驶域中使用的大型公共语义分段RGB-T数据集建立了一种新颖的RGB-T SOD数据集VT723。基准和VT723数据集上的昂贵实验表明，所提出的方法优于最先进的方法，包括基于CNN的方法和基于变压器的方法。该代码和数据集将在稍后在https://github.com/jxr326/swinmcnet上发布。

translated by 谷歌翻译

Object Detection with Deep Learning: A Review

Zhong-Qiu Zhao , Peng Zheng , Shou-tao Xu , Xindong Wu

分类：

2018-07-15

Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.

translated by 谷歌翻译