智能论文笔记

Uncertainty Aware Multitask Pyramid Vision Transformer For UAV-Based Object Re-Identification

Syeda Nyma Ferdous , Xin Li , Siwei Lyu

分类：计算机视觉

2022-09-19

物体重新识别（REID）是生物识别和监视系统中最重要的问题之一，在过去几十年来通过图像处理和计算机视觉社区进行了广泛的研究。学习强大而判别的特征表示是对象REID的关键挑战。在REID中，基于无人机（UAV）的REID更具挑战性，因为图像的特征是飞行无人机的摄像机参数（例如，视角，海拔等）的连续变化。为了应对这一挑战，已经考虑了多尺度特征表示形式来表征来自不同海拔无人机飞行的图像。在这项工作中，我们提出了一种多任务学习方法，该方法采用新的多尺度体系结构，无卷积，金字塔视觉变压器（PVT），作为基于无人机的对象REID的骨干。通过对类内变化的不确定性建模，我们提出的模型可以使用不确定性感知对象ID和相机ID信息共同优化。实验结果报告了Prai和VRAI，这是两个REID数据集，从空中监视中验证我们提出的方法的有效性

translated by 谷歌翻译

Jamdani Motif Generation using Conditional GAN

MD Tanvir Rouf Shawon , Raihan Tanvir , Humaira Ferdous Shifa , Susmoy Kar , Mohammad Imrul Jubair

分类：计算机视觉

2022-12-22

Jamdani is the strikingly patterned textile heritage of Bangladesh. The exclusive geometric motifs woven on the fabric are the most attractive part of this craftsmanship having a remarkable influence on textile and fine art. In this paper, we have developed a technique based on the Generative Adversarial Network that can learn to generate entirely new Jamdani patterns from a collection of Jamdani motifs that we assembled, the newly formed motifs can mimic the appearance of the original designs. Users can input the skeleton of a desired pattern in terms of rough strokes and our system finalizes the input by generating the complete motif which follows the geometric structure of real Jamdani ones. To serve this purpose, we collected and preprocessed a dataset containing a large number of Jamdani motifs images from authentic sources via fieldwork and applied a state-of-the-art method called pix2pix to it. To the best of our knowledge, this dataset is currently the only available dataset of Jamdani motifs in digital format for computer vision research. Our experimental results of the pix2pix model on this dataset show satisfactory outputs of computer-generated images of Jamdani motifs and we believe that our work will open a new avenue for further research.

translated by 谷歌翻译

BDSL 49: A Comprehensive Dataset of Bangla Sign Language

Ayman Hasib , Saqib Sizan Khan , Jannatul Ferdous Eva , Mst. Nipa Khatun , Ashraful Haque , Nishat Shahrin , Rashik Rahman , Hasan Murad , Md. Rajibul Islam , Molla Rashied Hussein

分类：计算机视觉

2022-08-14

语言是个人表达思想的方法。每种语言都有自己的字母和数字字符集。人们可以通过口头或书面交流相互交流。但是，每种语言都有同类语言。聋哑和/或静音的个人通过手语交流。孟加拉语还具有手语，称为BDSL。数据集是关于孟加拉手册图像的。该系列包含49个单独的孟加拉字母图像。 BDSL49是一个数据集，由29,490张具有49个标签的图像组成。在数据收集期间，已经记录了14个不同成年人的图像，每个人都有不同的背景和外观。在准备过程中，已经使用了几种策略来消除数据集中的噪声。该数据集可免费提供给研究人员。他们可以使用机器学习，计算机视觉和深度学习技术开发自动化系统。此外，该数据集使用了两个模型。第一个是用于检测，而第二个是用于识别。

translated by 谷歌翻译

Deep dual stream residual network with contextual attention for pansharpening of remote sensing images

Syeda Roshana Ali , Anis Ur Rahman , Muhammad Shahzad

分类：计算机视觉

2022-07-25

Pansharpening使用高空间分辨率Panchromatic图像的特征增强了高光谱分辨率多光谱图像的空间细节。有许多传统的pansharpening方法，但是产生表现出高光谱和空间保真度的图像仍然是一个空旷的问题。最近，深度学习已被用来产生有希望的Pansharped图像。但是，这些方法中的大多数通过使用相同的网络进行特征提取，对多光谱和全球性图像都采用了类似的处理。在这项工作中，我们提出了一个新型的基于双重注意的两流网络。首先使用两个单独的网络进行两个图像的特征提取，这是一种具有注意机制的编码器，可重新校准提取的功能。接下来是融合的特征，形成喂入图像重建网络的紧凑表示形式以产生pansharped图像。使用标准定量评估指标和视觉检查的PL \'{E} IADES数据集的实验结果表明，就Pansharped图像质量而言，所提出的方法比其他方法更好。

translated by 谷歌翻译

Fake Hilsa Fish Detection Using Machine Vision

Mirajul Islam , Jannatul Ferdous Ani , Abdur Rahman , Zakia Zaman

分类：计算机视觉 | 人工智能

2022-01-08

希尔萨是孟加拉国的国家鱼。孟加拉国通过出口这条鱼赚了很多外币。不幸的是，最近几天，一些肆无忌惮的商人正在销售假的HILSA鱼类来获得利润。沙丁鱼和撒丁岛是市场上最销售的希尔萨。孟加拉国政府机构，即孟加拉国食品安全管理局表示，这些假希腊鱼类含有高水平的镉和铅，这对人类有害。在这项研究中，我们提出了一种可以容易地识别原始HILSA鱼和假HILSA鱼的方法。基于在线文学上的研究，我们是第一个识别原始HILSA鱼的研究。我们收集了超过16,000个原装和假冒Hilsa鱼的图像。要对这些图像进行分类，我们使用了几种基于深度学习的模型。然后，在它们之间比较了性能。在这些模型中，Densenet201实现了97.02％的最高精度。

translated by 谷歌翻译

Deep Learning Based Classification System For Recognizing Local Spinach

Mirajul Islam , Nushrat Jahan Ria , Jannatul Ferdous Ani , Abu Kaisar Mohammad Masum , Sheikh Abujar , Syed Akhter Hossain

分类：计算机视觉 | 机器学习

2022-01-06

深度学习模型通过从训练的数据集学习来提供图像处理的令人难以置信的结果。菠菜是一种含有维生素和营养素的叶蔬菜。在我们的研究中，已经使用了一种可以自动识别菠菜的深度学习方法，并且该方法具有总共五种菠菜的数据集，其中包含3785个图像。四种卷积神经网络（CNN）模型用于对我们的菠菜进行分类。这些模型为图像分类提供更准确的结果。在应用这些模型之前，存在一些预处理图像数据。为了预处理数据，需要发生一些方法。那些是RGB转换，过滤，调整大小和重新划分和分类。应用这些方法后，图像数据被预处理并准备好在分类器算法中使用。这些分类器的准确性在98.68％至99.79％之间。在这些模型中，VGG16实现了99.79％的最高精度。

translated by 谷歌翻译

Weed Recognition using Deep Learning Techniques on Class-imbalanced Imagery

A S M Mahmudul Hasan , Ferdous Sohel , Dean Diepeveen , Hamid Laga , Michael G. K. Jones

分类：计算机视觉 | 人工智能

2021-12-15

大多数杂草物种都会通过竞争高价值作物所需的营养而产生对农业生产力的不利影响。手动除草对于大型种植区不实用。已经开展了许多研究，为农业作物制定了自动杂草管理系统。在这个过程中，其中一个主要任务是识别图像中的杂草。但是，杂草的认可是一个具有挑战性的任务。它是因为杂草和作物植物的颜色，纹理和形状类似，可以通过成像条件，当记录图像时的成像条件，地理或天气条件进一步加剧。先进的机器学习技术可用于从图像中识别杂草。在本文中，我们调查了五个最先进的深神经网络，即VGG16，Reset-50，Inception-V3，Inception-Resnet-V2和MobileNetv2，并评估其杂草识别的性能。我们使用了多种实验设置和多个数据集合组合。特别是，我们通过组合几个较小的数据集，通过数据增强构成了一个大型DataSet，缓解了类别不平衡，并在基于深度神经网络的基准测试中使用此数据集。我们通过保留预先训练的权重来调查使用转移学习技术来利用作物和杂草数据集的图像提取特征和微调它们。我们发现VGG16比小规模数据集更好地执行，而ResET-50比其他大型数据集上的其他深网络更好地执行。

translated by 谷歌翻译

Real Time Action Recognition from Video Footage

Tasnim Sakib Apon , Mushfiqul Islam Chowdhury , MD Zubair Reza , Arpita Datta , Syeda Tanjina Hasan , MD. Golam Rabiul Alam

分类：计算机视觉

2021-12-13

犯罪率与人口的增加率成比例地增加。最突出的方法是引入基于闭路电视（CCTV）相机的监视以解决问题。视频监控摄像机增加了一个新的维度来检测犯罪。目前正在进行自动安全摄像机监控的几项研究工作，基本目标是从视频饲料发现暴力活动。从技术方面来看，这是一个具有挑战性的问题，因为分析了一组帧，即时间维度的视频，以检测暴力可能需要仔细的机器学习模型训练，以减少错误的结果。本研究通过整合最先进的深度学习方法来重点介绍该问题，以确保用于检测暴力活动的自主监测的强大管道，例如，踢，冲压和拍打。最初，我们设计了这种特定兴趣的数据集，其中包含600个视频（每个动作200个）。稍后，我们已经利用现有的预先训练的模型架构来提取特征，后来使用深度学习网络进行分类。此外，我们在不同预先训练的架构上分类了我们的模型'准确性，以及像VGG16，Inceptionv3，Reset50，七峰和MobileNet V2的不同预先训练的架构中的混淆矩阵，其中VGG16和MobileNet V2更好。

translated by 谷歌翻译

Fine-Grained Vehicle Classification in Urban Traffic Scenes using Deep Learning

Syeda Aneeba Najeeb , Rana Hammad Raza , Adeel Yusuf , Zamra Sultan

分类：计算机视觉

2021-11-17

越来越密集的流量在我们当地的环境中成为挑战，促使需要更好的交通监控和管理系统。与车辆粗加分类相比，细粒度的车辆分类似乎是一个具有挑战性的任务。因此，基本上需要探索车辆检测和分类的鲁棒方法，因此需要进行细粒度。现有的车辆制作和模型识别（VMMR）系统已经开发在同步和受控的流量条件上。需要在复杂，城市，异构和非同步交通条件下坚固的VMMR仍然是开放式研究区域。在本文中，使用深度学习解决了车辆检测和细粒度分类。为了进行相关复杂性进行细粒度分类，专门制备具有高内部和低次间变异的本地数据集THS-10。 DataSet由4250辆汽车型号的10辆车型号，即本田市，本田思域，铃木，铃木博拉，铃木文化，铃木Mehran，Suzuki Ravi，Suzuki Swift，Suzuki Wagon R和Toyota Corolla。此数据集可在线获取。已经探索了两种方法，并分析了从深神经网络的微调和特征提取的车辆分类。进行比较研究，并证明了更简单的方法可以在当地环境中产生良好的结果，以应对复杂的问题，如密集的遮挡和车道偏离。因此，减少了计算负荷和时间，例如，微调成立-V3产生的最高精度为97.4％，最低错误分类率为2.08％。微调MobileNet-V2和Reset-18分别产生96.8％和95.7％的精度。从FC6亚历尼特层的提取特征产生93.5％的精度，错误分类率为6.5％。

translated by 谷歌翻译

A Comparative Analysis of Machine Learning Algorithms for Intrusion Detection in Edge-Enabled IoT Networks

Poornima Mahadevappa , Syeda Mariam Muzammal , Raja Kumar Murugesan

分类：机器学习

2021-11-02

通过无线网络互联设备数量和数据通信数量的显着增加引起了各种威胁，风险和安全问题。物联网（IoT）应用程序几乎部署在日常生活中的几乎所有领域，包括敏感环境。边缘计算范例通过在数据源附近移动计算处理来补充了IOT应用程序。在各种安全模型中，基于机器学习（ML）的入侵检测是最可想到的防御机制，用于打击已启用边缘的物联网中的异常行为。 ML算法用于将网络流量分类为正常和恶意攻击。入侵检测是网络安全领域的具有挑战性问题之一。研究界提出了许多入侵检测系统。然而，选择合适的算法涉及在启用边缘的物联网网络中提供安全性的挑战存在。在本文中，已经执行了传统机器学习分类算法的比较分析，以在Puparm工具上使用Jupyter对NSL-KDD数据集上的网络流量进行分类。可以观察到，多层感知（MLP）在输入和输出之间具有依赖性，并且更多地依赖于用于入侵检测的网络配置。因此，MLP可以更适合于基于边缘的物联网网络，其具有更好的培训时间为1.2秒，测试精度为79％。

translated by 谷歌翻译