近年来,由于其对科学和社会的重要性,人们的重新识别(RE-ID)一直受到越来越多的关注。机器学习,尤其是深度学习(DL)已成为主要的重新ID工具,该工具使研究能够在基准数据集上实现前所未有的精度水平。但是,DL模型的概括性不佳存在已知的问题。也就是说,经过训练以实现一个数据集的模型在另一个数据集上的表现不佳,并且需要重新训练。为了解决这个问题,我们提出了一个没有可训练参数的模型,该模型显示出高概括的巨大潜力。它将完全分析的特征提取和相似性排名方案与用于获得初始子区域分类的基于DL的人解析相结合。我们表明,这种组合在很大程度上消除了现有分析方法的缺点。我们使用可解释的颜色和纹理功能,这些功能具有与之相关的人类可读性相似性度量。为了验证提出的方法,我们在Market1501和CuHK03数据集上进行实验,以达到与DL模型相当的竞争排名1精度。最重要的是,我们证明我们的方法将应用于转移学习任务时,将达到63.9%和93.5%的跨域准确性。它明显高于先前报道的30-50%传输精度。我们讨论添加新功能以进一步改善模型的潜在方法。我们还展示了可解释的功能的优势,用于构建口头描述中的人类生成的查询,以进行无查询图像进行搜索。
translated by 谷歌翻译
人员重新识别(RE-ID)由于其对科学和社会保障的重要性,因此成为计算机视觉最重要的应用领域之一。由于相机系统的尺寸和尺寸巨大,因此开发边缘计算重新ID应用是有益的,在这些应用程序中至少可以通过摄像机执行分析的一部分。但是,常规的重新ID在很大程度上依赖于深度学习(DL)计算要求的模型,这些模型不容易适用于边缘计算。在本文中,我们调整了一种最近提出的重新ID方法,该方法将DL人解析与分析特征提取和排名方案相结合,更适合Edge Computing Re-ID。首先,我们比较使用RESNET101,RESNET18,MOBILENETV2和OSNET骨架的解析器,并表明可以使用紧凑的骨架进行足够的精度来进行解析。其次,我们将解析器转移到Google Coral Dev板的张量处理单元(TPU),并表明它可以充当便携式边缘计算重新ID站。我们还在珊瑚CPU上实施了RE-ID方法的分析部分,以确保它可以执行完整的重新ID周期。为了进行定量分析,我们根据解析器主链比较了GPU和珊瑚TPU的推理速度,解析掩模和重新ID准确性。我们还讨论了Re-ID中边缘计算的可能应用方案,这些限制主要与便携式设备的内存和存储空间有关。
translated by 谷歌翻译
We investigate the properties of a metric between two distributions, the Earth Mover's Distance (EMD), for content-based image retrieval. The EMD is based on the minimal cost that must be paid to transform one distribution into the other, in a precise sense, and was first proposed for certain vision problems by Peleg, Werman, and Rom. For image retrieval, we combine this idea with a representation scheme for distributions that is based on vector quantization. This combination leads to an image comparison framework that often accounts for perceptual similarity better than other previously proposed methods. The EMD is based on a solution to the transportation problem from linear optimization, for which efficient algorithms are available, and also allows naturally for partial matching. It is more robust than histogram matching techniques, in that it can operate on variable-length representations of the distributions that avoid quantization and other binning problems typical of histograms. When used to compare distributions with the same overall mass, the EMD is a true metric. In this paper we focus on applications to color and texture, and we compare the retrieval performance of the EMD with that of other distances.
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
我们提出了一种Saimaa环形密封(Pusa hispida saimensis)的方法。通过摄像机捕获和众包访问大型图像量,为动物监测和保护提供了新的可能性,并呼吁自动分析方法,特别是在重新识别图像中的单个动物时。所提出的方法通过PELAGE模式聚合(NORPPA)重新识别新型环形密封件,利用Saimaa环形密封件的永久和独特的毛线模式和基于内容的图像检索技术。首先,对查询图像进行了预处理,每个密封实例都进行了分段。接下来,使用基于U-NET编码器解码器的方法提取密封件的层模式。然后,将基于CNN的仿射不变特征嵌入并聚集到Fisher载体中。最后,使用Fisher载体之间的余弦距离用于从已知个体数据库中找到最佳匹配。我们在新的挑战性Saimaa环形密封件重新识别数据集上对该方法进行了各种修改的广泛实验。在与替代方法的比较中,提出的方法显示出在我们的数据集上产生最佳的重新识别精度。
translated by 谷歌翻译
Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
This paper presents a theoretically very simple yet efficient multiresolution approach to gray scale and rotation invariant texture classification based on local binary patterns and nonparametric discrimination of sample and prototype distributions. The method is based on recognizing that certain local binary patterns termed 'uniform' are fundamental properties of local image texture, and their occurrence histogram proves to be a very powerful texture feature. We derive a generalized gray scale and rotation invariant operator presentation that allows for detecting the 'uniform' patterns for any quantization of the angular space and for any spatial resolution, and present a method for combining multiple operators for multiresolution analysis. The proposed approach is very robust in terms of gray scale variations, since the operator is by definition invariant against any monotonic transformation of the gray scale.Another advantage is computational simplicity, as the operator can be realized with a few operations in a small neighborhood and a lookup table. Excellent experimental results obtained in true problems of rotation invariance, where the classifier is trained at one particular rotation angle and tested with samples from other rotation angles, demonstrate that good discrimination can be achieved with the occurrence statistics of simple rotation invariant local binary patterns.These operators characterize the spatial configuration of local image texture and the performance can be further improved by combining them with rotation invariant variance measures that characterize the contrast of local image texture. The joint distributions of these orthogonal measures are shown to be very powerful tools for rotation invariant texture analysis.
translated by 谷歌翻译
面部特征跟踪是成像跳芭式(BCG)的关键组成部分,其中需要精确定量面部关键点的位移,以获得良好的心率估计。皮肤特征跟踪能够在帕金森病中基于视频的电机降解量化。传统的计算机视觉算法包括刻度不变特征变换(SIFT),加速强大的功能(冲浪)和LUCAS-KANADE方法(LK)。这些长期代表了最先进的效率和准确性,但是当存在常见的变形时,如图所示,如图所示,如此。在过去的五年中,深度卷积神经网络对大多数计算机视觉任务的传统方法表现优于传统的传统方法。我们提出了一种用于特征跟踪的管道,其应用卷积堆积的AutoEncoder,以将图像中最相似的裁剪标识到包含感兴趣的特征的参考裁剪。 AutoEncoder学会将图像作物代表到特定于对象类别的深度特征编码。我们在面部图像上培训AutoEncoder,并验证其在手动标记的脸部和手视频中通常验证其跟踪皮肤功能的能力。独特的皮肤特征(痣)的跟踪误差是如此之小,因为我们不能排除他们基于$ \ chi ^ 2 $ -test的手动标签。对于0.6-4.2像素的平均误差,我们的方法在所有情况下都表现出了其他方法。更重要的是,我们的方法是唯一一个不分歧的方法。我们得出的结论是,我们的方法为特征跟踪,特征匹配和图像配准比传统算法创建更好的特征描述符。
translated by 谷歌翻译
近年来,随着对公共安全的需求越来越多,智能监测网络的快速发展,人员重新识别(RE-ID)已成为计算机视野领域的热门研究主题之一。人员RE-ID的主要研究目标是从不同的摄像机中检索具有相同身份的人。但是,传统的人重新ID方法需要手动标记人的目标,这消耗了大量的劳动力成本。随着深度神经网络的广泛应用,出现了许多基于深入的基于学习的人物的方法。因此,本文促进研究人员了解最新的研究成果和该领域的未来趋势。首先,我们总结了对几个最近公布的人的研究重新ID调查,并补充了系统地分类基于深度学习的人的重新ID方法的最新研究方法。其次,我们提出了一种多维分类,根据度量标准和表示学习,将基于深度学习的人的重新ID方法分为四类,包括深度度量学习,本地特征学习,生成的对抗学习和序列特征学习的方法。此外,我们根据其方法和动机来细分以上四类,讨论部分子类别的优缺点。最后,我们讨论了一些挑战和可能的研究方向的人重新ID。
translated by 谷歌翻译
Fruit is a key crop in worldwide agriculture feeding millions of people. The standard supply chain of fruit products involves quality checks to guarantee freshness, taste, and, most of all, safety. An important factor that determines fruit quality is its stage of ripening. This is usually manually classified by experts in the field, which makes it a labor-intensive and error-prone process. Thus, there is an arising need for automation in the process of fruit ripeness classification. Many automatic methods have been proposed that employ a variety of feature descriptors for the food item to be graded. Machine learning and deep learning techniques dominate the top-performing methods. Furthermore, deep learning can operate on raw data and thus relieve the users from having to compute complex engineered features, which are often crop-specific. In this survey, we review the latest methods proposed in the literature to automatize fruit ripeness classification, highlighting the most common feature descriptors they operate on.
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
在这项工作中,我们介绍了一种方法,并提出了一种改进的神经工作,以执行产品重新识别,这是全自动产品缺陷检测系统的必要核心功能。我们的方法基于特征距离。它是特征提取神经网络的组合,如vgg16,alexnet,带图像搜索引擎 - vearch。我们用于开发产品重新识别系统的数据集是一个水瓶数据集,由400种液体瓶装组成。这是一个小型数据集,这是我们工作的最大挑战。然而,与vearch的神经网络的组合显示了解决产品重新识别问题的可能性。特别是,我们的新神经网络 - 基于AlexNet改进的神经网络的AlphaalexNet可以通过四个百分点提高生产识别准确性。这表明当可以引入和重新设计的高效特征提取方法时,可以实现理想的生产识别精度,以用于几乎相同产品的图像特征提取。为了解决由数据集的小尺寸造成的最大挑战以及识别彼此几乎没有差异的产品的困难性质。在我们未来的工作中,我们提出了一种新的路线图来解决几乎 - 相同的生产标识:介绍或开发需要很少的图像以训练自己的新算法。
translated by 谷歌翻译
In modern face recognition, the conventional pipeline consists of four stages: detect ⇒ align ⇒ represent ⇒ classify. We revisit both the alignment step and the representation step by employing explicit 3D face modeling in order to apply a piecewise affine transformation, and derive a face representation from a nine-layer deep neural network. This deep network involves more than 120 million parameters using several locally connected layers without weight sharing, rather than the standard convolutional layers. Thus we trained it on the largest facial dataset to-date, an identity labeled dataset of four million facial images belonging to more than 4,000 identities. The learned representations coupling the accurate model-based alignment with the large facial database generalize remarkably well to faces in unconstrained environments, even with a simple classifier. Our method reaches an accuracy of 97.35% on the Labeled Faces in the Wild (LFW) dataset, reducing the error of the current state of the art by more than 27%, closely approaching human-level performance.
translated by 谷歌翻译
被遮挡的人重新识别(RE-ID)旨在解决跨多个摄像机感兴趣的人时解决遮挡问题。随着深度学习技术的促进和对智能视频监视的需求的不断增长,现实世界应用中的频繁闭塞使闭塞的人重新引起了研究人员的极大兴趣。已经提出了大量封闭的人重新ID方法,而很少有针对遮挡的调查。为了填补这一空白并有助于提高未来的研究,本文提供了对封闭者重新ID的系统调查。通过对人体闭塞的深入分析,发现大多数现有方法仅考虑一部分闭塞问题。因此,我们从问题和解决方案的角度回顾了与闭塞相关的人重新ID方法。我们总结了个人重新闭塞引起的四个问题,即位置错位,规模错位,嘈杂的信息和缺失的信息。然后对解决不同问题的闭塞相关方法进行分类和引入。之后,我们总结并比较了四个流行数据集上最近被遮挡的人重新ID方法的性能:部分reid,部分易边,咬合 - 固定和遮挡的dukemtmc。最后,我们提供了有关有希望的未来研究方向的见解。
translated by 谷歌翻译
近年来,已经产生了大量的视觉内容,并从许多领域共享,例如社交媒体平台,医学成像和机器人。这种丰富的内容创建和共享引入了新的挑战,特别是在寻找类似内容内容的图像检索(CBIR)-A的数据库中,即长期建立的研究区域,其中需要改进的效率和准确性来实时检索。人工智能在CBIR中取得了进展,并大大促进了实例搜索过程。在本调查中,我们审查了最近基于深度学习算法和技术开发的实例检索工作,通过深网络架构类型,深度功能,功能嵌入方法以及网络微调策略组织了调查。我们的调查考虑了各种各样的最新方法,在那里,我们识别里程碑工作,揭示各种方法之间的联系,并呈现常用的基准,评估结果,共同挑战,并提出未来的未来方向。
translated by 谷歌翻译
已经广泛地研究了使用虹膜和围眼区域作为生物特征,主要是由于虹膜特征的奇异性以及当图像分辨率不足以提取虹膜信息时的奇异区域的使用。除了提供有关个人身份的信息外,还可以探索从这些特征提取的功能,以获得其他信息,例如个人的性别,药物使用的影响,隐形眼镜的使用,欺骗等。这项工作提出了对为眼部识别创建的数据库的调查,详细说明其协议以及如何获取其图像。我们还描述并讨论了最受欢迎的眼镜识别比赛(比赛),突出了所提交的算法,只使用Iris特征和融合虹膜和周边地区信息实现了最佳结果。最后,我们描述了一些相关工程,将深度学习技术应用于眼镜识别,并指出了新的挑战和未来方向。考虑到有大量的眼部数据库,并且每个人通常都设计用于特定问题,我们认为这项调查可以广泛概述眼部生物识别学中的挑战。
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译