我们研究了很少的开放式识别(FSOR)的问题,该问题学习了一个能够快速适应新类的识别系统,具有有限的标签示例和对未知负样本的拒绝。由于数据限制,传统的大规模开放式方法对FSOR问题有效无效。当前的FSOR方法通常校准了几个弹出封闭式分类器对负样品敏感的,因此可以通过阈值拒绝它们。但是,阈值调整是一个具有挑战性的过程,因为不同的FSOR任务可能需要不同的拒绝功能。在本文中,我们提出了任务自适应的负面类别设想,以使FSOR集成阈值调整到学习过程中。具体而言,我们增加了几个封闭式分类器,并使用少量示例产生的其他负面原型。通过在负生成过程中纳入很少的类相关性,我们可以学习FSOR任务的动态拒绝边界。此外,我们将我们的方法扩展到概括的少数开放式识别(GFSOR),该识别需要在许多射击和少数类别上进行分类以及拒绝​​负样本。公共基准的广泛实验验证了我们在这两个问题上的方法。
translated by 谷歌翻译
很少有开放式识别旨在对可见类别的培训数据进行有限的培训数据进行分类和新颖的图像。这项任务的挑战是,该模型不仅需要学习判别性分类器,以用很少的培训数据对预定的类进行分类,而且还要拒绝从未见过的培训时间出现的未见类别的输入。在本文中,我们建议从两个新方面解决问题。首先,我们没有像在标准的封闭设置分类中那样学习看到类之间的决策边界,而是为看不见的类保留空间,因此位于这些区域中的图像被认为是看不见的类。其次,为了有效地学习此类决策边界,我们建议利用所见类的背景功能。由于这些背景区域没有显着促进近距离分类的决定,因此自然地将它们用作分类器学习的伪阶层。我们的广泛实验表明,我们提出的方法不仅要优于多个基线,而且还为三个流行的基准测试(即Tieredimagenet,Miniimagenet和Caltech-uscd Birds-birds-2011-2011(Cub))设定了新的最先进结果。
translated by 谷歌翻译
教学机器根据少数训练样本认识到一个新的类别,特别是由于缺乏数据缺乏的新型类别的难题了解,只有一个仍然挑战。然而,人类可以快速学习新课程,甚至在人类可以讲述基于视觉和语义先前知识的关于每个类别的歧视特征时,甚至给出了一些样本。为了更好地利用这些先验知识,我们提出了语义引导的注意力(SEGA)机制,其中语义知识用于以自上而下的方式引导视觉感知,在区分类别时应注意哪些视觉特征。结果,即使少量样品也可以更具判别嵌入新类。具体地,借助从基类传输可视化的先验知识,接受了一个特征提取器,以培训以将每个小组类的数量的每个小组的图像嵌入到视觉原型中。然后,我们学习一个网络将语义知识映射到特定于类别的注意力矢量,该向量将用于执行功能选择以增强视觉原型。在Miniimagenet,Tieredimagenet,CiFar-FS和Cub上进行了广泛的实验表明,我们的语义引导的注意力实现了预期的功能和优于最先进的结果。
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
我们研究了如何在只有几个类别(几次拍摄设置)给出的一些样本时识别来自Unseen类别(开放式分类)的样本的问题。学习良好抽象的挑战是一个非常少数样本的课程使得从看不见的类别中检测样本非常困难;因此,开放式识别在少量拍摄设置中受到最小的关注。大多数开放式少量拍摄分类方法正规化SoftMax得分以表明开放类样本的均匀概率,但我们认为这种方法通常是不准确的,特别是在细粒度。相反,我们提出了一种新颖的示例性重建的元学习策略,用于共同检测开放类样本,以及通过基于度量的分类对来自观众的样本进行分类。充当类的代表的示例可以在训练数据集中提供或在特征域中估计。我们的框架,名为重建示例的基于少量拍摄的少量开放式分类器(Refofs),在各种数据集上测试,实验结果明确突出了我们作为新技术的方法。
translated by 谷歌翻译
在新课程训练时,几乎没有射击学习(FSL)方法通常假设具有准确标记的样品的清洁支持集。这个假设通常可能是不现实的:支持集,无论多么小,仍然可能包括标签错误的样本。因此,对标签噪声的鲁棒性对于FSL方法是实用的,但是这个问题令人惊讶地在很大程度上没有探索。为了解决FSL设置中标签错误的样品,我们做出了一些技术贡献。 (1)我们提供了简单而有效的特征聚合方法,改善了流行的FSL技术Protonet使用的原型。 (2)我们描述了一种嘈杂的噪声学习的新型变压器模型(TRANFS)。 TRANFS利用变压器的注意机制称重标记为错误的样品。 (3)最后,我们对迷你胶原和tieredimagenet的嘈杂版本进行了广泛的测试。我们的结果表明,TRANFS与清洁支持集的领先FSL方法相对应,但到目前为止,在存在标签噪声的情况下,它们的表现优于它们。
translated by 谷歌翻译
The human visual system has the remarkably ability to be able to effortlessly learn novel concepts from only a few examples. Mimicking the same behavior on machine learning vision systems is an interesting and very challenging research problem with many practical advantages on real world vision applications. In this context, the goal of our work is to devise a few-shot visual learning system that during test time it will be able to efficiently learn novel categories from only a few training data while at the same time it will not forget the initial categories on which it was trained (here called base categories). To achieve that goal we propose (a) to extend an object recognition system with an attention based few-shot classification weight generator, and (b) to redesign the classifier of a ConvNet model as the cosine similarity function between feature representations and classification weight vectors. The latter, apart from unifying the recognition of both novel and base categories, it also leads to feature representations that generalize better on "unseen" categories. We extensively evaluate our approach on Mini-ImageNet where we manage to improve the prior state-of-the-art on few-shot recognition (i.e., we achieve 56.20% and 73.00% on the 1-shot and 5-shot settings respectively) while at the same time we do not sacrifice any accuracy on the base categories, which is a characteristic that most prior approaches lack. Finally, we apply our approach on the recently introduced few-shot benchmark of Bharath and Girshick [4] where we also achieve stateof-the-art results. The code and models of our paper will be published on: https://github.com/gidariss/ FewShotWithoutForgetting.
translated by 谷歌翻译
我们解决了几个射击开放式识别(FSOSR)问题,即在我们只有很少的标签样本的一组类中分类的实例,同时检测不属于任何已知类别的实例。偏离现有文献,我们专注于开发模型不足的推理方法,这些方法可以插入任何现有模型,无论其架构或培训程序如何。通过评估嵌入的各种模型的质量,我们量化了模型 - 敏捷FSOSR的内在难度。此外,公平的经验评估表明,在FSOSR的电感环境中,KNN检测器和原型分类器的天真组合在专业或复杂方法之前。这些观察结果促使我们诉诸于转导,这是对标准的几次学习问题的流行而实用的放松。我们介绍了一个开放的设置转导信息最大化方法OSTIM,该方法幻觉了异常原型,同时最大程度地提高了提取的特征和作业之间的相互信息。通过跨越5个数据集的广泛实验,我们表明OSTIM在检测开放式实例的同时,在与最强的托管方法竞争时,在检测开放式实例时都超过了电感和现有的转导方法。我们进一步表明,OSTIM的模型不可知论使其能够成功利用最新体系结构和培训策略的强大表现能力而没有任何超参数修改,这是一个有希望的信号,即将来临的建筑进步将继续积极影响Ostim的表现。
translated by 谷歌翻译
很少有图像分类是一个具有挑战性的问题,旨在仅基于少量培训图像来达到人类的识别水平。少数图像分类的一种主要解决方案是深度度量学习。这些方法是,通过将看不见的样本根据距离的距离进行分类,可在强大的深神经网络中学到的嵌入空间中看到的样品,可以避免以少数图像分类的少数训练图像过度拟合,并实现了最新的图像表现。在本文中,我们提供了对深度度量学习方法的最新审查,以进行2018年至2022年的少量图像分类,并根据度量学习的三个阶段将它们分为三组,即学习功能嵌入,学习课堂表示和学习距离措施。通过这种分类法,我们确定了他们面临的不同方法和问题的新颖性。我们通过讨论当前的挑战和未来趋势进行了少量图像分类的讨论。
translated by 谷歌翻译
大多数现有的少量学习(FSL)方法都需要大量的元训练中标记数据,这是一个主要限制。为了减少标签的需求,已经为FSL提出了半监督的元训练设置,其中仅包括几个标记的样品和基础类别中的未标记样本数量。但是,此设置下的现有方法需要从未标记的集合中选择类吸引的样本选择,这违反了未标记集的假设。在本文中,我们提出了一个实用的半监督元训练环境,并使用真正的未标记数据。在新设置下,现有方法的性能显着下降。为了更好地利用标签和真正未标记的数据,我们提出了一个简单有效的元训练框架,称为基于元学习(PLML)的伪标记。首先,我们通过常见的半监督学习(SSL)训练分类器,并使用它来获取未标记数据的伪标记。然后,我们从标记和伪标记的数据中构建了几个射击任务,并在构造的任务上运行元学习以学习FSL模型。令人惊讶的是,通过在两个FSL数据集的广泛实验中,我们发现这个简单的元训练框架有效地防止了在有限的标记数据下FSL的性能降解。此外,从元培训中受益,提出的方法还改善了两种代表性SSL算法所学的分类器。
translated by 谷歌翻译
Nearest-Neighbor (NN) classification has been proven as a simple and effective approach for few-shot learning. The query data can be classified efficiently by finding the nearest support class based on features extracted by pretrained deep models. However, NN-based methods are sensitive to the data distribution and may produce false prediction if the samples in the support set happen to lie around the distribution boundary of different classes. To solve this issue, we present P3DC-Shot, an improved nearest-neighbor based few-shot classification method empowered by prior-driven data calibration. Inspired by the distribution calibration technique which utilizes the distribution or statistics of the base classes to calibrate the data for few-shot tasks, we propose a novel discrete data calibration operation which is more suitable for NN-based few-shot classification. Specifically, we treat the prototypes representing each base class as priors and calibrate each support data based on its similarity to different base prototypes. Then, we perform NN classification using these discretely calibrated support data. Results from extensive experiments on various datasets show our efficient non-learning based method can outperform or at least comparable to SOTA methods which need additional learning steps.
translated by 谷歌翻译
在过去的几年里,几年枪支学习(FSL)引起了极大的关注,以最大限度地减少标有标记的训练示例的依赖。FSL中固有的困难是处理每个课程的培训样本太少的含糊不清的歧义。为了在FSL中解决这一基本挑战,我们的目标是培训可以利用关于新颖类别的先前语义知识来引导分类器合成过程的元学习模型。特别是,我们提出了语义调节的特征注意力和样本注意机制,估计表示尺寸和培训实例的重要性。我们还研究了FSL的样本噪声问题,以便在更现实和不完美的环境中利用Meta-Meverys。我们的实验结果展示了所提出的语义FSL模型的有效性,而没有样品噪声。
translated by 谷歌翻译
很少有动作识别旨在仅使用少量标记的训练样本识别新型动作类别。在这项工作中,我们提出了一种新颖的方法,该方法首先将每个视频汇总到由一组全球原型和一组集中原型组成的复合原型中,然后比较基于原型的视频相似性。鼓励每个全局原型总结整个视频中的特定方面,例如动作的开始/演变。由于没有针对全球原型提供明确的注释,因此我们使用一组专注的原型专注于视频中的某些时间戳。我们通过匹配支持视频和查询视频之间的复合原型来比较视频相似性。例如,从相同的角度来比较视频,以比较两个动作是否同样开始。对于集中的原型,由于动作在视频中具有各种时间变化,因此我们采用两分匹配,以比较具有不同时间位置和偏移的动作。实验表明,我们提出的方法在多个基准上实现了最先进的结果。
translated by 谷歌翻译
开放式识别(OSR)假设未知实例在推理时间出现在蓝色中。 OSR的主要挑战是,模型对未知数的响应是完全无法预测的。此外,由于实例的难度级别不同,因此开放式设置的多样性使情况变得更加困难。因此,我们提出了一个新颖的框架,难以感知的模拟器(DIAS),该框架产生了具有不同难度水平的假货来模拟现实世界。我们首先在分​​类器的角度研究了生成对抗网络(GAN)的假货,并观察到这些伪造并不具有挑战性。这使我们通过对具有中等难题的甘恩产生的样品来定义难度的标准。为了产生难题的示例,我们介绍模仿者,模仿分类器的行为。此外,我们的修改后的gan和模仿者也分别产生了中等和易于缺陷的样品。结果,DIAS的表现优于AUROC和F-SCORE指标的最先进方法。我们的代码可在https://github.com/wjun0830/difficulty-aware-simulator上找到。
translated by 谷歌翻译
从一个非常少数标记的样品中学习新颖的课程引起了机器学习区域的越来越高。最近关于基于元学习或转移学习的基于范例的研究表明,良好特征空间的获取信息可以是在几次拍摄任务上实现有利性能的有效解决方案。在本文中,我们提出了一种简单但有效的范式,该范式解耦了学习特征表示和分类器的任务,并且只能通过典型的传送学习培训策略从基类嵌入体系结构的特征。为了在每个类别内保持跨基地和新类别和辨别能力的泛化能力,我们提出了一种双路径特征学习方案,其有效地结合了与对比特征结构的结构相似性。以这种方式,内部级别对齐和级别的均匀性可以很好地平衡,并且导致性能提高。三个流行基准测试的实验表明,当与简单的基于原型的分类器结合起来时,我们的方法仍然可以在电感或转换推理设置中的标准和广义的几次射击问题达到有希望的结果。
translated by 谷歌翻译
从有限的数据学习是一个具有挑战性的任务,因为数据的稀缺导致训练型模型的较差。经典的全局汇总表示可能会失去有用的本地信息。最近,许多射击学习方法通​​过使用深度描述符和学习像素级度量来解决这一挑战。但是,使用深描述符作为特征表示可能丢失图像的上下文信息。这些方法中的大多数方法独立地处理支持集中的每个类,这不能充分利用鉴别性信息和特定于特定的嵌入。在本文中,我们提出了一种名为稀疏空间变压器(SSFormers)的新型变压器的神经网络架构,可以找到任务相关的功能并抑制任务无关的功能。具体地,我们首先将每个输入图像划分为不同大小的几个图像斑块,以获得密集的局部特征。这些功能在表达本地信息时保留上下文信息。然后,提出了一种稀疏的空间变压器层以在查询图像和整个支持集之间找到空间对应关系,以选择任务相关的图像斑块并抑制任务 - 无关的图像斑块。最后,我们建议使用图像补丁匹配模块来计算密集的本地表示之间的距离,从而确定查询图像属于支持集中的哪个类别。广泛的少量学习基准测试表明,我们的方法实现了最先进的性能。
translated by 谷歌翻译
少量学习(FSL)旨在学习概括到具有有限培训样本的小型课程的模型。最近的作品将FSL推进一个场景,其中还提供了未标记的例子并提出半监督FSL方法。另一种方法还关心基类的性能,除了新颖的外,还建立了增量FSL方案。在本文中,我们在更现实但复杂的环境下概括了上述两个,通过半监督增量少量学习(S2 I-FSL)命名。为了解决任务,我们提出了一种包含两部分的新型范例:(1)一种精心设计的元训练算法,用于减轻由不可靠的伪标签和(2)模型适应机制来减轻基础和新颖类之间的模糊性,以学习歧视特征对于小说类,同时使用少数标记和所有未标记的数据保留基本知识。对标准FSL,半监控FSL,增量FSL的广泛实验,以及第一个构建的S2 I-FSL基准测试证明了我们提出的方法的有效性。
translated by 谷歌翻译
最近,很少拍摄的视频分类已经获得了越来越令人利益。目前的方法主要集中在有效利用视频中的时间维度,以在低数据制度下改善学习。然而,大多数作品在很大程度上忽略了视频通常伴随着丰富的文本描述,也可以是处理少量拍摄识别情况的重要信息来源。在本文中,我们建议利用这些人提供的文本描述作为培训几次视频分类模型时的特权信息。具体来说,我们制定了一种基于文本的任务调节器,以使视频功能适应几次拍摄的学习任务。此外,我们的模型遵循转换设置,通过使用支持文本描述和查询实例来更新一组类原型来提高模型的任务适应能力。我们的模型在四个具有挑战性的基准测试中实现了最先进的性能,通常用于评估少量拍摄视频动作分类模型。
translated by 谷歌翻译
Metric-based meta-learning is one of the de facto standards in few-shot learning. It composes of representation learning and metrics calculation designs. Previous works construct class representations in different ways, varying from mean output embedding to covariance and distributions. However, using embeddings in space lacks expressivity and cannot capture class information robustly, while statistical complex modeling poses difficulty to metric designs. In this work, we use tensor fields (``areas'') to model classes from the geometrical perspective for few-shot learning. We present a simple and effective method, dubbed hypersphere prototypes (HyperProto), where class information is represented by hyperspheres with dynamic sizes with two sets of learnable parameters: the hypersphere's center and the radius. Extending from points to areas, hyperspheres are much more expressive than embeddings. Moreover, it is more convenient to perform metric-based classification with hypersphere prototypes than statistical modeling, as we only need to calculate the distance from a data point to the surface of the hypersphere. Following this idea, we also develop two variants of prototypes under other measurements. Extensive experiments and analysis on few-shot learning tasks across NLP and CV and comparison with 20+ competitive baselines demonstrate the effectiveness of our approach.
translated by 谷歌翻译
新课程经常出现在我们不断变化的世界中,例如社交媒体中的新兴主题和电子商务中的新产品。模型应识别新的类,同时保持对旧类的可区分性。在严重的情况下,只有有限的新颖实例可以逐步更新模型。在不忘记旧课程的情况下识别几个新课程的任务称为少数类的课程学习(FSCIL)。在这项工作中,我们通过学习多相增量任务(limit)提出了一个基于元学习的FSCIL的新范式,该任务从基本数据集中综合了伪造的FSCIL任务。假任务的数据格式与“真实”的增量任务一致,我们可以通过元学习构建可概括的特征空间。此外,限制还基于变压器构建了一个校准模块,该模块将旧类分类器和新类原型校准为相同的比例,并填补语义间隙。校准模块还可以自适应地将具有设置对集合函数的特定于实例的嵌入方式化。限制有效地适应新课程,同时拒绝忘记旧课程。在三个基准数据集(CIFAR100,Miniimagenet和Cub200)和大规模数据集上进行的实验,即Imagenet ILSVRC2012验证以实现最新性能。
translated by 谷歌翻译