由生物声监测设备组成的无线声传感器网络运行的专家系统的部署,从声音中识别鸟类物种将使许多生态价值任务自动化,包括对鸟类种群组成的分析或濒危物种的检测在环境感兴趣的地区。由于人工智能的最新进展,可以将这些设备具有准确的音频分类功能,其中深度学习技术出色。但是,使生物声音设备负担得起的一个关键问题是使用小脚印深神经网络,这些神经网络可以嵌入资源和电池约束硬件平台中。因此,这项工作提供了两个重型和大脚印深神经网络(VGG16和RESNET50)和轻量级替代方案MobilenetV2之间的批判性比较分析。我们的实验结果表明,MobileNetV2的平均F1得分低于RESNET50(0.789 vs. 0.834)的5 \%,其性能优于VGG16,其足迹大小近40倍。此外,为了比较模型,我们创建并公开了西部地中海湿地鸟类数据集,其中包括201.6分钟和5,795个音频摘录,摘录了20种特有鸟类的aiguamolls de l'empord \ e empord \`一个自然公园。
translated by 谷歌翻译
为了保护热带森林生物多样性,我们需要能够可靠,便宜地和规模地检测它。通过机器学习方法从被动录制的SoundScapes检测自动化物种是对此目标的有希望的技术,但它受到大型训练数据集的必要性。在婆罗洲的热带森林中使用Soundcapes和通过转移学习创建的卷积神经网络模型(CNN),我们调查I)最低可行训练数据集规模,用于准确预测呼叫类型('Sonotypes')和II)的程度数据增强可以克服小型训练数据集的问题。我们发现甚至相对较高的样本尺寸(每个呼叫类型)导致平庸的精度,然而,无论分类学组或呼叫特征如何,数据增强都会显着提高。我们的研究结果表明,即使对于具有许多罕见物种的小型Sountscape的项目,转移学习和数据增强可以使用CNN来分类物种的发声。我们的开源方法有可能使节约计划能够通过在生物多样性的自适应管理中使用Soundscape数据来实现更有证据。
translated by 谷歌翻译
Audio sound recognition and classification is used for many tasks and applications including human voice recognition, music recognition and audio tagging. In this paper we apply Mel Frequency Cepstral Coefficients (MFCC) in combination with a range of machine learning models to identify (Australian) birds from publicly available audio files of their birdsong. We present approaches used for data processing and augmentation and compare the results of various state of the art machine learning models. We achieve an overall accuracy of 91% for the top-5 birds from the 30 selected as the case study. Applying the models to more challenging and diverse audio files comprising 152 bird species, we achieve an accuracy of 58%
translated by 谷歌翻译
大多数杂草物种都会通过竞争高价值作物所需的营养而产生对农业生产力的不利影响。手动除草对于大型种植区不实用。已经开展了许多研究,为农业作物制定了自动杂草管理系统。在这个过程中,其中一个主要任务是识别图像中的杂草。但是,杂草的认可是一个具有挑战性的任务。它是因为杂草和作物植物的颜色,纹理和形状类似,可以通过成像条件,当记录图像时的成像条件,地理或天气条件进一步加剧。先进的机器学习技术可用于从图像中识别杂草。在本文中,我们调查了五个最先进的深神经网络,即VGG16,Reset-50,Inception-V3,Inception-Resnet-V2和MobileNetv2,并评估其杂草识别的性能。我们使用了多种实验设置和多个数据集合组合。特别是,我们通过组合几个较小的数据集,通过数据增强构成了一个大型DataSet,缓解了类别不平衡,并在基于深度神经网络的基准测试中使用此数据集。我们通过保留预先训练的权重来调查使用转移学习技术来利用作物和杂草数据集的图像提取特征和微调它们。我们发现VGG16比小规模数据集更好地执行,而ResET-50比其他大型数据集上的其他深网络更好地执行。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
Effective conservation of maritime environments and wildlife management of endangered species require the implementation of efficient, accurate and scalable solutions for environmental monitoring. Ecoacoustics offers the advantages of non-invasive, long-duration sampling of environmental sounds and has the potential to become the reference tool for biodiversity surveying. However, the analysis and interpretation of acoustic data is a time-consuming process that often requires a great amount of human supervision. This issue might be tackled by exploiting modern techniques for automatic audio signal analysis, which have recently achieved impressive performance thanks to the advances in deep learning research. In this paper we show that convolutional neural networks can indeed significantly outperform traditional automatic methods in a challenging detection task: identification of dolphin whistles from underwater audio recordings. The proposed system can detect signals even in the presence of ambient noise, at the same time consistently reducing the likelihood of producing false positives and false negatives. Our results further support the adoption of artificial intelligence technology to improve the automatic monitoring of marine ecosystems.
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
街道级别图像对原位数据收集进行扩大占据了重要潜力。通过组合使用便宜的高质量相机与最近的深度学习计算解决方案的进步来实现这一点,以推导出相关专题信息。我们介绍了一个框架,用于使用计算机视觉从街道层图像中收集和提取作物类型和候选信息。在2018年生长季节期间,高清图片被捕获在荷兰弗莱洛兰省的侧视动作相机。每个月从3月到10月,调查了一个固定的200公里路线,每秒收集一张照片,结果总计40万个地理标记的图片。在220个特定的包裹物位置,记录了现场作物的观察结果,以获得17种作物。此外,时间跨度包括特定的出苗前包裹阶段,例如用于春季和夏季作物的不同栽培的裸土,以及收获后栽培实践,例如,绿色皱眉和捕捉庄稼。基于与卷积神经网络(MobileNet)的转移学习,使用具有众所周知的图像识别模型的Tensorflow进行分类。开发了一种超核解方法,以获得160型号的表现最佳模型。这种最佳模型应用于独立推理的鉴别作物类型,宏观F1分数为88.1%的宏观效果,在包裹水平的86.9%。讨论了这种方法的潜力和警告以及实施和改进的实际考虑因素。所提出的框架速度升高了高质量的原位数据收集,并通过使用计算机视觉自动分类建议大规模数据收集的途径。
translated by 谷歌翻译
我们提出“ AITLAS:基准竞技场” - 一个开源基准测试框架,用于评估地球观察中图像分类的最新深度学习方法(EO)。为此,我们介绍了从九种不同的最先进的体系结构得出的400多个模型的全面比较分析,并将它们与来自22个具有不同尺寸的数据集的各种多级和多标签分类任务进行比较和属性。除了完全在这些数据集上训练的模型外,我们还基于在转移学习的背景下训练的模型,利用预训练的模型变体,因为通常在实践中执行。所有提出的方法都是一般的,可以轻松地扩展到本研究中未考虑的许多其他遥感图像分类任务。为了确保可重复性并促进更好的可用性和进一步的开发,所有实验资源在内的所有实验资源,包括训练的模型,模型配置和数据集的处理详细信息(以及用于培训和评估模型的相应拆分)都在存储库上公开可用:HTTPS ://github.com/biasvariancelabs/aitlas-arena。
translated by 谷歌翻译
葡萄牙人战士(PMW)是一种凝胶生物体,具有长长的触手,能够造成严重的燃烧,从而导致对人类活动(例如旅游和捕鱼)的负面影响。缺乏有关该物种的时空动力学的信息。因此,使用替代方法收集数据可以有助于其监视。鉴于社交网络的广泛使用和PMW的引人注目的外观,Instagram帖子可能是监视的有前途的数据源。遵循此方法的第一个任务是识别指向PMW的帖子。本文报告了使用卷积神经网络进行PMW图像分类,以自动识别Instagram帖子。我们创建了一个合适的数据集,并训练了三个不同的神经网络:VGG-16,RESNET50和InceptionV3,并在Imagenet数据集中进行了预先训练的步骤。我们使用准确性,精度,召回和F1评分指标分析了他们的结果。预先训练的RESNET50网络提供了最佳结果,获得了94%的精度和95%的精度,召回和F1分数。这些结果表明,卷积神经网络对于识别Instagram社交媒体的PMW图像非常有效。
translated by 谷歌翻译
尽管只有几个兴趣类的示例,但很少有声音事件检测是检测声音事件的任务。该框架在生物声学中特别有用,在生物声学中,通常需要注释很长的录音,但是专家注释时间是有限的。本文概述了Dcase 2022 Challenge中包含的第二次发射生物声音事件检测任务的第二版。介绍了任务目标,数据集和基准的详细描述,以及所获得的主要结果以及提交系统的特征。该任务收到了15个不同团队的提交,其中13个得分高于基线。最高的F-评分在评估集中为60%,这对去年的版本有了巨大的进步。高度表现的方法利用了原型网络,转导学习,并解决了所有目标类别的事件长度。此外,通过分析每个子集的结果,我们可以确定系统面临的主要困难,并得出结论,很少有展示的生物声音事件检测仍然是一个开放的挑战。
translated by 谷歌翻译
我们提出了一个新的基准数据集,即Sapsucker Woods 60(SSW60),用于推进视听细颗粒分类的研究。尽管我们的社区在图像上的细粒度视觉分类方面取得了长足的进步,但音频和视频细颗粒分类的对应物相对尚未探索。为了鼓励在这个领域的进步,我们已经仔细构建了SSW60数据集,以使研究人员能够以三种不同的方式对相同的类别进行分类:图像,音频和视频。该数据集涵盖了60种鸟类,由现有数据集以及全新的专家策划音频和视频数据集组成。我们通过使用最先进的变压器方法进行了彻底基准的视听分类性能和模态融合实验。我们的发现表明,视听融合方法的性能要比仅使用基于图像或音频的方法来进行视频分类任务要好。我们还提出了有趣的模态转移实验,这是由SSW60的独特构造所涵盖的三种不同模态所实现的。我们希望SSW60数据集和伴随的基线在这个迷人的地区进行研究。
translated by 谷歌翻译
听到鸟比看到它们要容易得多。但是,它们仍然在自然界中起着至关重要的作用,并且是恶化环境质量和污染的极好指标。机器学习和卷积神经网络的最新进展使我们能够处理连续的音频数据以检测和对鸟类的声音进行分类。该技术可以帮助研究人员监测鸟类种群的状态和趋势和生态系统的生物多样性。我们提出了一个声音检测和分类管道,以分析复杂的音景记录并识别背景中的鸟类。我们的方法从弱标签和很少的数据中学习,声学上可以识别鸟类。我们的解决方案在Kaggle举办的Birdclef 2022挑战赛中获得了807支球队的第18位。
translated by 谷歌翻译
为了确保全球粮食安全和利益相关者的总体利润,正确检测和分类植物疾病的重要性至关重要。在这方面,基于深度学习的图像分类的出现引入了大量解决方案。但是,这些解决方案在低端设备中的适用性需要快速,准确和计算廉价的系统。这项工作提出了一种基于轻巧的转移学习方法,用于从番茄叶中检测疾病。它利用一种有效的预处理方法来增强具有照明校正的叶片图像,以改善分类。我们的系统使用组合模型来提取功能,该模型由预审计的MobilenETV2体系结构和分类器网络组成,以进行有效的预测。传统的增强方法被运行时的增加取代,以避免数据泄漏并解决类不平衡问题。来自PlantVillage数据集的番茄叶图像的评估表明,所提出的体系结构可实现99.30%的精度,型号大小为9.60mb和4.87亿个浮点操作,使其成为低端设备中现实生活的合适选择。我们的代码和型号可在https://github.com/redwankarimsony/project-tomato中找到。
translated by 谷歌翻译
With big data becoming increasingly available, IoT hardware becoming widely adopted, and AI capabilities becoming more powerful, organizations are continuously investing in sensing. Data coming from sensor networks are currently combined with sensor fusion and AI algorithms to drive innovation in fields such as self-driving cars. Data from these sensors can be utilized in numerous use cases, including alerts in safety systems of urban settings, for events such as gun shots and explosions. Moreover, diverse types of sensors, such as sound sensors, can be utilized in low-light conditions or at locations where a camera is not available. This paper investigates the potential of the utilization of sound-sensor data in an urban context. Technically, we propose a novel approach of classifying sound data using the Wigner-Ville distribution and Convolutional Neural Networks. In this paper, we report on the performance of the approach on open-source datasets. The concept and work presented is based on my doctoral thesis, which was performed as part of the Engineering Doctorate program in Data Science at the University of Eindhoven, in collaboration with the Dutch National Police. Additional work on real-world datasets was performed during the thesis, which are not presented here due to confidentiality.
translated by 谷歌翻译
分布式声音传感器(DAS)是有效的设备,在许多应用区域中广泛使用,用于记录各种事件的信号,这些事件沿光纤沿光纤沿着非常高的空间分辨率。为了正确地检测和识别记录的事件,具有高计算需求的高级信号处理算法至关重要。卷积神经网络是提取空间信息的高功能工具,非常适合DAS中的事件识别应用。长期术语内存(LSTM)是处理顺序数据的有效仪器。在这项研究中,我们提出了一种多输入的多输出,两个阶段特征提取方法,该方法将这些神经网络体系结构的能力与转移学习的能力结合在一起,以将压电传感器应用于光纤上的振动进行分类。首先,我们从相位-OTDR记录中提取了差幅度和相位信息,并将它们存储在时间空间数据矩阵中。然后,我们在第一阶段使用了最先进的预训练的CNN作为特征提取器。在第二阶段,我们使用LSTMS进一步分析了CNN提取的特征。最后,我们使用密集层来对提取的特征进行分类。为了观察使用的CNN体​​系结构的效果,我们通过五个最先进的预训练模型(VGG-16,Resnet-50,Densenet-121,Mobilenet和Inception-V3)测试了模型。结果表明,在我们的框架中使用VGG-16体系结构可以在50个培训中获得100%的分类精度,并在我们的相位数据集中获得最佳结果。这项研究的结果表明,与LSTM结合的预训练的CNN非常适合分析差分振幅和相位信息,在时间空间数据矩阵中表示,这对于DAS应用中的事件识别操作很有希望。
translated by 谷歌翻译
机器学习(ML)是指根据大量数据预测有意义的输出或对复杂系统进行分类的计算机算法。 ML应用于各个领域,包括自然科学,工程,太空探索甚至游戏开发。本文的重点是在化学和生物海洋学领域使用机器学习。在预测全球固定氮水平,部分二氧化碳压力和其他化学特性时,ML的应用是一种有前途的工具。机器学习还用于生物海洋学领域,可从各种图像(即显微镜,流车和视频记录器),光谱仪和其他信号处理技术中检测浮游形式。此外,ML使用其声学成功地对哺乳动物进行了分类,在特定的环境中检测到濒临灭绝的哺乳动物和鱼类。最重要的是,使用环境数据,ML被证明是预测缺氧条件和有害藻华事件的有效方法,这是对环境监测的重要测量。此外,机器学习被用来为各种物种构建许多对其他研究人员有用的数据库,而创建新算法将帮助海洋研究界更好地理解海洋的化学和生物学。
translated by 谷歌翻译
深度学习和转移学习的进步为农业的各种自动化分类任务铺平了道路,包括植物疾病,害虫,杂草和植物物种检测。然而,农业自动化仍然面临各种挑战,例如数据集的大小和缺乏植物域特异性预处理模型。特定于域的预处理模型显示了各种计算机视觉任务的最先进的表现,包括面部识别和医学成像诊断。在本文中,我们提出了Agrinet数据集,该数据集是来自19个地理位置的160k农业图像的集合,几个图像标题为设备,以及423种以上的植物物种和疾病。我们还介绍了Agrinet模型,这是一组预处理的模型:VGG16,VGG19,Inception-V3,InceptionResnet-V2和Xception。 Agrinet-VGG19的分类准确性最高的94%,最高的F1分数为92%。此外,发现所有提出的模型都可以准确地对423种植物物种,疾病,害虫和杂草分类,而Inception-V3模型的精度最低为87%。与ImageNet相比,实验以评估Agrinet模型优势的实验在两个外部数据集上进行了模型:来自孟加拉国的害虫和植物疾病数据集和来自克什米尔的植物疾病数据集。
translated by 谷歌翻译
本文的目的是比较医学声学任务中不同可学习的前端。已经实施了一个框架,以将人类的呼吸道声音和心跳分为两类,即健康或受病理影响。在获得两个合适的数据集后,我们开始使用两个可学习的前端(叶子和nnaudio)对声音进行分类,以及一个不可学习的基线前端,即mel-Filterbanks。然后,计算出的功能将被馈送到两种不同的CNN模型中,即VGG16和EfficityNet。前端根据参数,计算资源和有效性的数量进行了仔细的基准测试。这项工作表明了神经音频分类系统中可学习前端的整合如何提高性能,尤其是在医学声学领域。但是,此类框架的使用使所需的数据数量更大。因此,如果可用于培训的数据量足够大以帮助特征学习过程,则它们很有用。
translated by 谷歌翻译
在实践中,非常苛刻,有时无法收集足够大的标记数据数据集以成功培训机器学习模型,并且对此问题的一个可能解决方案是转移学习。本研究旨在评估如何可转让的时间序列数据和哪些条件下的不同域之间的特征。在训练期间,在模型的预测性能和收敛速度方面观察到转移学习的影响。在我们的实验中,我们使用1,500和9,000个数据实例的减少数据集来模仿现实世界的条件。使用相同的缩小数据集,我们培训了两组机器学习模型:那些随着转移学习的培训和从头开始培训的机器学习模型。使用四台机器学习模型进行实验。在相同的应用领域(地震学)以及相互不同的应用领域(地震,语音,医学,金融)之间进行知识转移。我们在训练期间遵守模型的预测性能和收敛速度。为了确认所获得的结果的有效性,我们重复了实验七次并应用了统计测试以确认结果的重要性。我们研究的一般性结论是转移学习可能会增加或不会对模型的预测性能或其收敛速度产生负面影响。在更多细节中分析收集的数据,以确定哪些源域和目标域兼容以用于传输知识。我们还分析了目标数据集大小的效果和模型的选择及其超参数对转移学习的影响。
translated by 谷歌翻译