行星漫游者任务必须利用基于机器学习的感知来继续发生地球外探索,几乎没有人类的存在。火星地形细分对于漫游车导航和避免危害至关重要,以执行进一步的探索性任务,例如土壤样品收集和寻找有机化合物。当前的火星地形细分模型需要大量标记的数据才能实现可接受的性能,还需要重新培训以在不同域中的部署,即不同的漫游者任务或不同的任务,即地质识别和导航。这项研究提出了一种半监督的学习方法,该方法利用了骨干的无监督对比度预处理,用于对火星表面的多效率语义分割。该模型将通过使用混合域训练套件来确保具有多样性的混合域训练套件,从而扩展到当前的火星分割能力,以便在不同的火星漫游者任务中部署以进行地形导航。使用平均像素精度的评估结果表明,与单个领域训练和监督培训相比,半监督的混合域方法通过达到火星科学实验室的好奇心漫游者的精度为97%,MARS 2020 Perseverance Perseverance Rover提高了精度。 。此外,使用召回度量与标准的跨透镜损失相比,使用召回度量的损失功能提供不同的权重方法将对少数族裔或稀有类别的模型提高了30%以上。这些结果可以以数据效率的方式为Rover任务提供未来的多任务和多任务语义细分。
translated by 谷歌翻译
深度学习已成为火星探索的强大工具。火星地形细分是一项重要的火星愿景任务,它是漫游者自动计划和安全驾驶的基础。但是,现有的基于深度学习的地形细分方法遇到了两个问题:一个是缺乏足够的详细和高信心注释,另一个是模型过度依赖于注释的培训数据。在本文中,我们从联合数据和方法设计的角度解决了这两个问题。我们首先提出了一个新的火星地形细分数据集,该数据集包含6K高分辨率图像,并根据置信度稀疏注释,以确保标签的高质量。然后从这些稀疏的数据中学习,我们为火星地形细分的基于表示的学习框架,包括一个自我监督的学习阶段(用于预训练)和半监督的学习阶段(用于微调)。具体而言,对于自我监督的学习,我们设计了一个基于掩盖图像建模(MIM)概念的多任务机制,以强调图像的纹理信息。对于半监督的学习,由于我们的数据集很少注释,因此我们鼓励该模型通过在线生成和利用伪标签来挖掘每个图像中未标记的区域的信息。我们将数据集和方法命名为MARS(S $^{5} $ MARS)的自我监督和半监督分割。实验结果表明,我们的方法可以超越最先进的方法,并通过很大的边距提高地形分割性能。
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
使用计算机视觉对间接费用的分析是一个问题,在学术文献中受到了很大的关注。在这个领域运行的大多数技术都非常专业,需要大型数据集的昂贵手动注释。这些问题通过开发更通用的框架来解决这些问题,并结合了表示学习的进步,该框架可以更灵活地分析具有有限标记数据的新图像类别。首先,根据动量对比机制创建了未标记的空中图像数据集的强大表示。随后,通过构建5个标记图像的准确分类器来专门用于不同的任务。从6000万个未标记的图像中,成功的低水平检测城市基础设施进化,体现了我们推进定量城市研究的巨大潜力。
translated by 谷歌翻译
我们对最近的自我和半监督ML技术进行严格的评估,从而利用未标记的数据来改善下游任务绩效,以河床分割的三个遥感任务,陆地覆盖映射和洪水映射。这些方法对于遥感任务特别有价值,因为易于访问未标记的图像,并获得地面真理标签通常可以昂贵。当未标记的图像(标记数据集之外)提供培训时,我们量化性能改进可以对这些遥感分割任务进行期望。我们还设计实验以测试这些技术的有效性,当测试集相对于训练和验证集具有域移位时。
translated by 谷歌翻译
恶意软件检测在网络安全中起着至关重要的作用,随着恶意软件增长的增加和网络攻击的进步。以前看不见的恶意软件不是由安全供应商确定的,这些恶意软件通常在这些攻击中使用,并且不可避免地要找到可以从未标记的样本数据中自学习的解决方案。本文介绍了Sherlock,这是一种基于自学的深度学习模型,可根据视觉变压器(VIT)体系结构检测恶意软件。 Sherlock是一种新颖的恶意软件检测方法,它可以通过使用基于图像的二进制表示形式来学习独特的功能,以区分恶意软件和良性程序。在47种类型和696个家庭的层次结构中使用120万个Android应用的实验结果表明,自我监督的学习可以达到97%的恶意软件分类,而恶意软件的二进制分类比现有的最新技术更高。我们提出的模型还能够胜过针对多级恶意软件类型和家庭的最先进技术,分别为.497和.491。
translated by 谷歌翻译
尽管最近通过剩余网络的代表学习中的自我监督方法取得了进展,但它们仍然对ImageNet分类基准进行了高度的监督学习,限制了它们在性能关键设置中的适用性。在MITROVIC等人的现有理论上洞察中建立2021年,我们提出了RELICV2,其结合了明确的不变性损失,在各种适当构造的数据视图上具有对比的目标。 Relicv2在ImageNet上实现了77.1%的前1个分类准确性,使用线性评估使用Reset50架构和80.6%,具有较大的Reset型号,优于宽边缘以前的最先进的自我监督方法。最值得注意的是,RelicV2是使用一系列标准Reset架构始终如一地始终优先于类似的对比较中的监督基线的第一个表示学习方法。最后,我们表明,尽管使用Reset编码器,Relicv2可与最先进的自我监控视觉变压器相媲美。
translated by 谷歌翻译
学习无标记数据的判别性表示是一项具有挑战性的任务。对比性的自我监督学习提供了一个框架,可以使用简单的借口任务中的相似性措施来学习有意义的表示。在这项工作中,我们为使用图像贴片上的对比度学习而无需使用明确的借口任务或任何进一步标记的微调来提出一个简单有效的框架,用于使用对比度学习进行自我监督的图像分割。完全卷积的神经网络(FCNN)以自我监督的方式进行训练,以辨别输入图像中的特征并获得置信图,从而捕获网络对同一类的对象的信念。根据对比度学习的置信图中的平均熵对正 - 和负斑进行采样。当正面斑块之间的信息分离很小时,假定会收敛,而正阴对对很大。我们评估了从多个组织病理学数据集分割核的任务,并通过相关的自我监督和监督方法显示出可比的性能。所提出的模型仅由一个具有10.8K参数的简单FCNN组成,需要大约5分钟才能收敛于高分辨率显微镜数据集,该数据集比相关的自我监督方法小的数量级以获得相似的性能。
translated by 谷歌翻译
自我监督的学习(SSL)通过大量未标记的数据的先知,在各种医学成像任务上取得了出色的性能。但是,对于特定的下游任务,仍然缺乏有关如何选择合适的借口任务和实现细节的指令书。在这项工作中,我们首先回顾了医学成像分析领域中自我监督方法的最新应用。然后,我们进行了广泛的实验,以探索SSL中的四个重要问题用于医学成像,包括(1)自我监督预处理对不平衡数据集的影响,(2)网络体系结构,(3)上游任务对下游任务和下游任务和下游任务的适用性(4)SSL和常用政策用于深度学习的堆叠效果,包括数据重新采样和增强。根据实验结果,提出了潜在的指南,以在医学成像中进行自我监督预处理。最后,我们讨论未来的研究方向并提出问题,以了解新的SSL方法和范式时要注意。
translated by 谷歌翻译
作物现场边界有助于映射作物类型,预测产量,并向农民提供现场级分析。近年来,已经看到深深学习的成功应用于划定工业农业系统中的现场边界,但由于(1)需要高分辨率卫星图像的小型字段来解除界限和(2)缺乏(2)缺乏用于模型培训和验证的地面标签。在这项工作中,我们结合了转移学习和弱监督来克服这些挑战,我们展示了在印度的成功方法,我们有效地产生了10,000个新的场地标签。我们最好的型号使用1.5亿分辨率的空中客车现货图像作为投入,预先列进法国界限的最先进的神经网络,以及印度标签上的微调,以实现0.86的联盟(iou)中位数交叉口在印度。如果使用4.8M分辨率的行星扫描图像,最好的模型可以实现0.72的中位数。实验还表明,法国的预训练减少了所需的印度现场标签的数量,以便在数据集较小时尽可能多地实现给定的性能水平。这些发现表明我们的方法是划定当前缺乏现场边界数据集的世界区域中的裁剪领域的可扩展方法。我们公开发布了10,000个标签和描绘模型,以方便社区创建现场边界地图和新方法。
translated by 谷歌翻译
One paradigm for learning from few labeled examples while making best use of a large amount of unlabeled data is unsupervised pretraining followed by supervised fine-tuning. Although this paradigm uses unlabeled data in a task-agnostic way, in contrast to common approaches to semi-supervised learning for computer vision, we show that it is surprisingly effective for semi-supervised learning on ImageNet. A key ingredient of our approach is the use of big (deep and wide) networks during pretraining and fine-tuning. We find that, the fewer the labels, the more this approach (task-agnostic use of unlabeled data) benefits from a bigger network. After fine-tuning, the big network can be further improved and distilled into a much smaller one with little loss in classification accuracy by using the unlabeled examples for a second time, but in a task-specific way. The proposed semi-supervised learning algorithm can be summarized in three steps: unsupervised pretraining of a big ResNet model using SimCLRv2, supervised fine-tuning on a few labeled examples, and distillation with unlabeled examples for refining and transferring the task-specific knowledge. This procedure achieves 73.9% ImageNet top-1 accuracy with just 1% of the labels (≤13 labeled images per class) using ResNet-50, a 10× improvement in label efficiency over the previous state-of-theart. With 10% of labels, ResNet-50 trained with our method achieves 77.5% top-1 accuracy, outperforming standard supervised training with all of the labels. 1
translated by 谷歌翻译
长尾分布式数据的分类是一个具有挑战性的问题,它遭受了严重的班级不平衡,因此只有几个样本的尾巴阶级表现不佳。由于样本的匮乏,在将预审计的模型转移到下游任务时,在尾部类中学习对于微调尤其具有挑战性。在这项工作中,我们简单地修改了标准微调,以应对这些挑战。具体而言,我们提出了一个两阶段的微调:我们首先用类平衡的重新释放损失微调了预审计模型的最后一层,然后我们执行标准的微调。我们的修改有几个好处:(1)仅通过微调模型参数的一小部分,同时保持其余部分未触及,从而利用了预告片; (2)它允许模型学习特定任务的初始表示;重要的是(3)它可以保护学习尾巴的学习免于模型更新期间处于不利地位。我们对文本分类的两类和多级任务的合成数据集进行了广泛的实验,以及用于ADME的现实世界应用(即吸收,分布,代谢和排泄)语义标记。实验结果表明,所提出的两阶段微调既优于传统损失,又超过了微调,并且在上述数据集上进行了重新调整损失。
translated by 谷歌翻译
该卷包含来自机器学习挑战的选定贡献“发现玛雅人的奥秘”,该挑战在欧洲机器学习和数据库中知识发现的欧洲挑战赛曲目(ECML PKDD 2021)中提出。遥感大大加速了古代玛雅人森林地区的传统考古景观调查。典型的探索和发现尝试,除了关注整个古老的城市外,还集中在单个建筑物和结构上。最近,已经成功地尝试了使用机器学习来识别古代玛雅人定居点。这些尝试虽然相关,但却集中在狭窄的区域上,并依靠高质量的空中激光扫描(ALS)数据,该数据仅涵盖古代玛雅人曾经定居的地区的一小部分。另一方面,由欧洲航天局(ESA)哨兵任务制作的卫星图像数据很丰富,更重要的是公开。旨在通过执行不同类型的卫星图像(Sentinel-1和Sentinel-2和ALS)的集成图像细分来定位和识别古老的Maya架构(建筑物,Aguadas和平台)的“发现和识别古代玛雅体系结构(建筑物,Aguadas和平台)的挑战的“发现和识别古老的玛雅体系结构(建筑物,阿吉达斯和平台)的“发现玛雅的奥秘”的挑战, (LIDAR)数据。
translated by 谷歌翻译
带有像素天标签的注释图像是耗时和昂贵的过程。最近,DataSetGan展示了有希望的替代方案 - 通过利用一小组手动标记的GaN生成的图像来通过生成的对抗网络(GAN)来综合大型标记数据集。在这里,我们将DataSetGan缩放到ImageNet类别的规模。我们从ImageNet上训练的类条件生成模型中拍摄图像样本,并为所有1K类手动注释每个类的5张图像。通过在Biggan之上培训有效的特征分割架构,我们将Bigan转换为标记的DataSet生成器。我们进一步表明,VQGan可以类似地用作数据集生成器,利用已经注释的数据。我们通过在各种设置中标记一组8K实图像并在各种设置中评估分段性能来创建一个新的想象因基准。通过广泛的消融研究,我们展示了利用大型生成的数据集来培训在像素 - 明智的任务上培训不同的监督和自我监督的骨干模型的大增益。此外,我们证明,使用我们的合成数据集进行预培训,以改善在几个下游数据集上的标准Imagenet预培训,例如Pascal-VOC,MS-Coco,Citycapes和Chink X射线以及任务(检测,细分)。我们的基准将公开并维护一个具有挑战性的任务的排行榜。项目页面:https://nv-tlabs.github.io/big-dataseTgan/
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
上下文信息对于各种计算机视觉任务至关重要,以前的作品通常设计插件模块和结构损失,以有效地提取和汇总全局上下文。这些方法利用优质标签来优化模型,但忽略了精细训练的特征也是宝贵的训练资源,可以将优选的分布引入硬像素(即错误分类的像素)。受到无监督范式的对比学习的启发,我们以监督的方式应用了对比度损失,并重新设计了损失功能,以抛弃无监督学习的刻板印象(例如,积极和负面的不平衡,对锚定计算的混淆)。为此,我们提出了阳性阴性相等的对比损失(PNE损失),这增加了阳性嵌入对锚的潜在影响,并同时对待阳性和阴性样本对。 PNE损失可以直接插入现有的语义细分框架中,并以可忽视的额外计算成本导致出色的性能。我们利用许多经典的分割方法(例如,DeepLabv3,Ocrnet,Upernet)和骨干(例如Resnet,Hrnet,Swin Transformer)进行全面的实验,并在两个基准数据集(例如,例如,例如,,例如城市景观和可可固定)。我们的代码将公开
translated by 谷歌翻译
异常检测和定位是具有多种应用的重要视觉问题。各种不同表面上异常区域的有效和通用的语义分割,在各种不同的表面上,大多数异常区域没有任何明显的模式,仍处于积极研究。在广大基础设施中检测是一种重要的基础设施的定期健康监测和故障(异常)是一种重要的安全相关任务,是基于视觉的异常分割的一个这样的应用领域。然而,由于表面故障的大变化,纹理的结构材料/背景,照明条件等,任务是非常具有挑战性的。裂缝是临界和频繁的表面缺陷,表现为极端曲折形状的薄,细长区域。它们是在深入学习的最难检测的故障之一中。在这项工作中,我们解决了自动裂缝分割问题的一个开放方面,通过模拟问题来概括和提高各种场景的分割性能。我们仔细研究和抽象涉及的子问题,并在更广泛的背景下解决它们,使我们的解决方案通用。在各种与不同基础设施监视相关的数据集上,在不同的条件下,我们的模型在没有任何铃声和口哨的情况下始终如一地优于最先进的算法。这种性能优势在我们模型的两个部署中轻松携带,针对行业提供的数据集进行测试。更进一步的是,我们也可以为两个制造质量检查场景建立我们的模型的表现,其中缺陷类型不仅仅是裂缝等价物,而且更加不同。因此,我们希望我们的模型确实是一个真正的通用缺陷分段模型。
translated by 谷歌翻译
语义分割包括通过将其分配给从一组所有可用的标签来分类图像的每个像素。在过去的几年里,很多关注转移到这种任务。许多计算机视觉研究人员试图应用AutoEncoder结构来开发可以学习图像语义的模型以及它的低级表示。在给定输入的AutoEncoder架构中,编码器计算的输入的低维表示,然后解码器用于重建原始数据。在这项工作中,我们提出了一个卷积神经网络(CNNS)的集合。在集合方法中,许多不同的型号训练,然后用于分类,整体汇总了单个分类器的输出。该方法利用各种分类器的差异来提高整个系统的性能。通过使用不同的丢失函数强制执行单个分类器中的多样性。特别是,我们提出了一种新的损失函数,从骰子和结构相似度指数的组合产生。通过使用Deeplabv3 +和Hardnet环境结合不同的骨干网络来实现所提出的合奏。该提案是通过关于两个真实情景的广泛实证评估来评估:息肉和皮肤细分。所有代码都在HTTPS://github.com/lorisnanni在线提供。
translated by 谷歌翻译
我们提出“ AITLAS:基准竞技场” - 一个开源基准测试框架,用于评估地球观察中图像分类的最新深度学习方法(EO)。为此,我们介绍了从九种不同的最先进的体系结构得出的400多个模型的全面比较分析,并将它们与来自22个具有不同尺寸的数据集的各种多级和多标签分类任务进行比较和属性。除了完全在这些数据集上训练的模型外,我们还基于在转移学习的背景下训练的模型,利用预训练的模型变体,因为通常在实践中执行。所有提出的方法都是一般的,可以轻松地扩展到本研究中未考虑的许多其他遥感图像分类任务。为了确保可重复性并促进更好的可用性和进一步的开发,所有实验资源在内的所有实验资源,包括训练的模型,模型配置和数据集的处理详细信息(以及用于培训和评估模型的相应拆分)都在存储库上公开可用:HTTPS ://github.com/biasvariancelabs/aitlas-arena。
translated by 谷歌翻译
在过去的几年中,监督语义医学图像细分的深度学习方法越来越流行。在资源约束的设置中,获得大量带注释的图像非常困难,因为它主要需要专家,昂贵且耗时。监督分割可以是一个有吸引力的解决方案,其中使用了很少的标记图像以及大量未标记的图像。尽管在过去的几年中,针对分类问题已经大大减少了监督和半监督方法之间的差距,但分割方法仍然存在较大的差距。在这项工作中,我们将最先进的半监督分类方法FIXMATCH修复到语义分割任务中,并引入FixMatchSeg。 FIXMATCHSEG在不同的不同解剖结构和不同方式的四个不同的公开数据集中进行了评估:心脏超声,胸部X射线,视网膜眼睛图像和皮肤图像。当标签很少时,我们表明FixMatchSeg与强有力的监督基线相同。
translated by 谷歌翻译