The real-world data tends to be heavily imbalanced and severely skew the data-driven deep neural networks, which makes Long-Tailed Recognition (LTR) a massive challenging task. Existing LTR methods seldom train Vision Transformers (ViTs) with Long-Tailed (LT) data, while the off-the-shelf pretrain weight of ViTs always leads to unfair comparisons. In this paper, we systematically investigate the ViTs' performance in LTR and propose LiVT to train ViTs from scratch only with LT data. With the observation that ViTs suffer more severe LTR problems, we conduct Masked Generative Pretraining (MGP) to learn generalized features. With ample and solid evidence, we show that MGP is more robust than supervised manners. In addition, Binary Cross Entropy (BCE) loss, which shows conspicuous performance with ViTs, encounters predicaments in LTR. We further propose the balanced BCE to ameliorate it with strong theoretical groundings. Specially, we derive the unbiased extension of Sigmoid and compensate extra logit margins to deploy it. Our Bal-BCE contributes to the quick convergence of ViTs in just a few epochs. Extensive experiments demonstrate that with MGP and Bal-BCE, LiVT successfully trains ViTs well without any additional data and outperforms comparable state-of-the-art methods significantly, e.g., our ViT-B achieves 81.0% Top-1 accuracy in iNaturalist 2018 without bells and whistles. Code is available at https://github.com/XuZhengzhuo/LiVT.
translated by 谷歌翻译
现实世界数据普遍面对严重的类别 - 不平衡问题,并且展示了长尾分布,即,大多数标签与有限的情况有关。由此类数据集监督的NA \“IVE模型更愿意占主导地位标签,遇到严重的普遍化挑战并变得不佳。我们从先前的角度提出了两种新的方法,以减轻这种困境。首先,我们推导了一个以平衡为导向的数据增强命名均匀的混合物(Unimix)促进长尾情景中的混合,采用先进的混合因子和采样器,支持少数民族。第二,受贝叶斯理论的动机,我们弄清了贝叶斯偏见(北美),是由此引起的固有偏见先前的不一致,并将其补偿为对标准交叉熵损失的修改。我们进一步证明了所提出的方法理论上和经验地确保分类校准。广泛的实验验证我们的策略是否有助于更好校准的模型,以及他们的策略组合在CIFAR-LT,ImageNet-LT和Inattations 2018上实现最先进的性能。
translated by 谷歌翻译
深度神经网络在严重的类不平衡数据集上的表现不佳。鉴于对比度学习的有希望的表现,我们提出了重新平衡的暹罗对比度采矿(RESCOM)来应对不平衡的识别。基于数学分析和仿真结果,我们声称监督的对比学习在原始批次和暹罗批次水平上都遭受双重失衡问题,这比长尾分类学习更为严重。在本文中,在原始批处理水平上,我们引入了级别平衡的监督对比损失,以分配不同类别的自适应权重。在暹罗批次级别,我们提出了一个级别平衡的队列,该队列维持所有类的键相同。此外,我们注意到,相对于对比度逻辑的不平衡对比损失梯度可以将其分解为阳性和负面因素,易于阳性和易于负面因素将使对比度梯度消失。我们建议有监督的正面和负面对挖掘,以获取信息对的对比度计算并改善表示形式学习。最后,为了大致最大程度地提高两种观点之间的相互信息,我们提出了暹罗平衡的软性软件,并与一阶段训练的对比损失结合。广泛的实验表明,在多个长尾识别基准上,RESCON优于先前的方法。我们的代码和模型可公开可用:https://github.com/dvlab-research/rescom。
translated by 谷歌翻译
在本文中,我们提出了广义参数对比度学习(GPACO/PACO),该学习在不平衡和平衡数据上都很好地工作。基于理论分析,我们观察到,受监督的对比损失倾向于偏向高频类别,从而增加了学习不平衡的学习难度。我们从优化的角度介绍了一组参数班的可学习中心,以重新平衡。此外,我们在平衡的环境下分析了GPACO/PACO损失。我们的分析表明,GPACO/PACO可以适应地增强同一等级样品的强度,因为将更多的样品与相应的中心一起拉在一起并有益于艰难的示例学习。长尾基准测试的实验表明了长尾识别的新最先进。在完整的Imagenet上,与MAE模型相比,从CNN到接受GPACO损失训练的视觉变压器的模型显示出更好的泛化性能和更强的鲁棒性。此外,GPACO可以应用于语义分割任务,并在4个最受欢迎的基准测试中观察到明显的改进。我们的代码可在https://github.com/dvlab-research/parametric-contrastive-learning上找到。
translated by 谷歌翻译
长尾分布是现实世界中的常见现象。提取的大规模图像数据集不可避免地证明了长尾巴的属性和经过不平衡数据训练的模型可以为代表性过多的类别获得高性能,但为代表性不足的类别而苦苦挣扎,导致偏见的预测和绩效降低。为了应对这一挑战,我们提出了一种名为“逆图像频率”(IIF)的新型偏差方法。 IIF是卷积神经网络分类层中逻辑的乘法边缘调整转换。我们的方法比类似的作品实现了更强的性能,并且对于下游任务(例如长尾实例分割)特别有用,因为它会产生较少的假阳性检测。我们的广泛实验表明,IIF在许多长尾基准的基准(例如Imagenet-lt,cifar-lt,ploce-lt和lvis)上超过了最先进的现状,在Imagenet-lt上,Resnet50和26.2%达到了55.8%的TOP-1准确性LVIS上使用MaskRCNN分割AP。代码可在https://github.com/kostas1515/iif中找到
translated by 谷歌翻译
旨在从长尾数据培训类平衡模型的现有长尾识别方法,通常假设将在均匀的测试类分布上进行评估模型。然而,实际的测试类分布通常违反了这种假设(例如,长尾甚至是长尾的),这将导致现有的方法在现实世界中失败。在这项工作中,我们研究了一个更实用的任务设置,称为测试不稳定的长尾识别,其中训练类分布在测试类分布未知时长尾,可以任意偏斜。除了类别不平衡的问题外,这项任务造成了另一个挑战:培训和测试样本之间的班级分布转移是未识别的。为了处理这项任务,我们提出了一种新的方法,称为测试时间聚合各种专家,提供了两种解决方案策略:(1)一种新的技能 - 多样化专家学习策略,将各种专家培训从单一的处理不同的类分布时颁发不同的专家。长尾训练分配; (2)一种新的测试时间专家聚合策略,利用自我监督来汇总多个专家来处理各种未知的测试分布。理论上我们表明我们的方法具有模拟测试类分布的可提供能力。广泛的实验验证了我们的方法在香草和测试不可知的长尾识别上实现了新的最先进的性能,其中只有三个专家足以处理任意变化的测试级分布。代码可在https://github.com/vanint/tade-agnosticlt获得。
translated by 谷歌翻译
视觉识别任务中的长尾类分布对于如何处理头部和尾部类之间的偏置预测,即,模型倾向于将尾部类作为头部类进行分类。虽然现有的研究专注于数据重采采样和损失函数工程,但在本文中,我们采取了不同的视角:分类利润率。我们研究边距和注册之间的关系(分类得分)并经验遵守偏置边缘,并且偏置的Logits是正相关的。我们提出MARC,一个简单但有效的边缘校准函数,用于动态校准偏置边缘的偏置利润。我们通过对普通的长尾基准测试进行了广泛的实验,包括CIFAR-LT,Imagenet-LT,LT,以及不适物 - LT的广泛实验。实验结果表明,我们的MARC在这些基准上实现了有利的结果。此外,Marc只需三行代码即可实现。我们希望这种简单的方法能够激励人们重新思考偏置的边距和偏见的长尾视觉识别标识。
translated by 谷歌翻译
现实世界数据通常存在长尾分布。对不平衡数据的培训倾向于呈现神经网络在头部上表现良好,而尾部课程则更加差。尾班的培训实例的严重稀疏性是主要挑战,这导致培训期间的偏见分配估计。丰富的努力已经致力于改善挑战,包括数据重新采样和综合尾班的新培训实例。然而,没有先前的研究已经利用了从头课程转移到尾班的可转让知识,以校准尾舱的分布。在本文中,我们假设可以通过类似的头部级别来丰富尾部类,并提出一种名为标签感知分布校准Ladc的新型分布校准方法。 Ladc从相关的头部课程转移统计数据以推断尾部课程的分布。从校准分布的采样进一步促进重新平衡分类器。图像和文本的实验和文本长尾数据集表明,LADC显着优于现有方法。可视化还显示LADC提供更准确的分布估计。
translated by 谷歌翻译
Deep neural networks still struggle on long-tailed image datasets, and one of the reasons is that the imbalance of training data across categories leads to the imbalance of trained model parameters. Motivated by the empirical findings that trained classifiers yield larger weight norms in head classes, we propose to reformulate the recognition probabilities through included angles without re-balancing the classifier weights. Specifically, we calculate the angles between the data feature and the class-wise classifier weights to obtain angle-based prediction results. Inspired by the performance improvement of the predictive form reformulation and the outstanding performance of the widely used two-stage learning framework, we explore the different properties of this angular prediction and propose novel modules to improve the performance of different components in the framework. Our method is able to obtain the best performance among peer methods without pretraining on CIFAR10/100-LT and ImageNet-LT. Source code will be made publicly available.
translated by 谷歌翻译
长尾图像识别对深度学习系统提出了巨大的挑战,因为多数(头)类别与少数族裔(TAIL)类之间的失衡严重偏斜了数据驱动的深度神经网络。以前的方法从数据分布,功能空间和模型设计等的角度来解决数据失衡。从以前省略的平衡标签空间的角度来看。为了减轻从头到尾的偏见,我们通过逐步调整标签空间并将头等阶层和尾部类别分开,动态构建平衡从不平衡到促进分类,提出简洁的范式。借助灵活的数据过滤和标签空间映射,我们可以轻松地将方法嵌入大多数分类模型,尤其是脱钩的训练方法。此外,我们发现头尾类别的可分离性在具有不同电感偏见的不同特征之间各不相同。因此,我们提出的模型还提供了一种功能评估方法,并为长尾特征学习铺平了道路。广泛的实验表明,我们的方法可以在广泛使用的基准上提高不同类型的最先进的性能。代码可在https://github.com/silicx/dlsa上找到。
translated by 谷歌翻译
许多现实世界的识别问题都有不平衡或长尾标签的分布。这些分布使表示形式学习更具挑战性,因为对尾巴类别的概括有限。如果测试分布与训练分布有所不同,例如统一与长尾,需要解决分配转移的问题。为此,最近的作品通过贝叶斯定理的启发,使用边缘修改扩展了SoftMax跨凝结。在本文中,我们通过专家的平衡产品(Balpoe)概括了几种方法,该方法结合了一个具有不同测试时间目标分布的模型家庭,以解决数据中的不平衡。拟议的专家在一个阶段进行培训,无论是共同还是独立的,并无缝融合到Balpoe中。我们表明,Balpoe是Fisher的一致性,可以最大程度地减少均衡误差并执行广泛的实验以验证我们的方法的有效性。最后,我们研究了在这种情况下混合的效果,发现正则化是学习校准专家的关键要素。我们的实验表明,正则化的BALPOE在测试准确性和校准指标上的表现非常出色,从而导致CIFAR-100-LT,Imagenet-LT和Inaturalist-2018数据集的最新结果。该代码将在纸质接受后公开提供。
translated by 谷歌翻译
自我监督的学习在表示视觉和文本数据的表示方面取得了巨大的成功。但是,当前的方法主要在经过良好策划的数据集中验证,这些数据集未显示现实世界的长尾分布。在损失的角度或模型观点中,重新平衡的重新平衡是为了考虑自我监督的长尾学习的最新尝试,类似于被监督的长尾学习中的范式。然而,没有标签的帮助,由于尾巴样品发现或启发式结构设计的限制,这些探索并未显示出预期的明显希望。与以前的作品不同,我们从替代角度(即数据角度)探索了这个方向,并提出了一种新颖的增强对比度学习(BCL)方法。具体而言,BCL利用深神经网络的记忆效果自动推动对比度学习中样本视图的信息差异,这更有效地增强了标签 - unaware环境中的长尾学习。对一系列基准数据集进行的广泛实验证明了BCL对几种最新方法的有效性。我们的代码可在https://github.com/mediabrain-sjtu/bcl上找到。
translated by 谷歌翻译
The long-tail distribution of the visual world poses great challenges for deep learning based classification models on how to handle the class imbalance problem. Existing solutions usually involve class-balancing strategies, e.g. by loss re-weighting, data re-sampling, or transfer learning from head-to tail-classes, but most of them adhere to the scheme of jointly learning representations and classifiers. In this work, we decouple the learning procedure into representation learning and classification, and systematically explore how different balancing strategies affect them for long-tailed recognition. The findings are surprising: (1) data imbalance might not be an issue in learning high-quality representations; (2) with representations learned with the simplest instance-balanced (natural) sampling, it is also possible to achieve strong long-tailed recognition ability by adjusting only the classifier. We conduct extensive experiments and set new state-of-the-art performance on common long-tailed benchmarks like ImageNet-LT, Places-LT and iNaturalist, showing that it is possible to outperform carefully designed losses, sampling strategies, even complex modules with memory, by using a straightforward approach that decouples representation and classification. Our code is available at https://github.com/facebookresearch/classifier-balancing.
translated by 谷歌翻译
常规的去命名方法依赖于所有样品都是独立且分布相同的假设,因此最终的分类器虽然受到噪声的干扰,但仍然可以轻松地将噪声识别为训练分布的异常值。但是,在不可避免地长尾巴的大规模数据中,该假设是不现实的。这种不平衡的训练数据使分类器对尾巴类别的歧视性较小,而尾巴类别的差异化现在变成了“硬”的噪声 - 它们几乎与干净的尾巴样品一样离群值。我们将这一新挑战介绍为嘈杂的长尾分类(NLT)。毫不奇怪,我们发现大多数拖延方法无法识别出硬噪声,从而导致三个提出的NLT基准测试的性能大幅下降:Imagenet-NLT,Animal10-NLT和Food101-NLT。为此,我们设计了一个迭代嘈杂的学习框架,称为“难以容易”(H2E)。我们的引导理念是首先学习一个分类器作为噪声标识符不变的类和上下文分布变化,从而将“硬”噪声减少到“ Easy”的噪声,其删除进一步改善了不变性。实验结果表明,我们的H2E胜过最先进的方法及其在长尾设置上的消融,同时在传统平衡设置上保持稳定的性能。数据集和代码可从https://github.com/yxymessi/h2e-framework获得
translated by 谷歌翻译
长尾数据集(Head Class)组成的培训样本比尾巴类别多得多,这会导致识别模型对头等舱有偏见。加权损失是缓解此问题的最受欢迎的方法之一,最近的一项工作表明,班级难度可能比常规使用的类频率更好地决定了权重的分布。在先前的工作中使用了一种启发式公式来量化难度,但是我们从经验上发现,最佳公式取决于数据集的特征。因此,我们提出了困难网络,该难题学习在元学习框架中使用模型的性能来预测类的难度。为了使其在其他班级的背景下学习班级的合理难度,我们新介绍了两个关键概念,即相对难度和驾驶员损失。前者有助于困难网络在计算班级难度时考虑其他课程,而后者对于将学习指向有意义的方向是必不可少的。对流行的长尾数据集进行了广泛的实验证明了该方法的有效性,并且在多个长尾数据集上实现了最先进的性能。
translated by 谷歌翻译
与其他类别(称为少数族裔或尾巴类)相比,很少的类或类别(称为多数或头等类别的类别)具有更高的数据样本数量,在现实世界中,长尾数据集经常遇到。在此类数据集上培训深层神经网络会给质量级别带来偏见。到目前为止,研究人员提出了多种加权损失和数据重新采样技术,以减少偏见。但是,大多数此类技术都认为,尾巴类始终是最难学习的类,因此需要更多的重量或注意力。在这里,我们认为该假设可能并不总是成立的。因此,我们提出了一种新颖的方法,可以在模型的训练阶段动态测量每个类别的瞬时难度。此外,我们使用每个班级的难度度量来设计一种新型的加权损失技术,称为“基于阶级难度的加权(CDB-W)损失”和一种新型的数据采样技术,称为“基于类别难度的采样)(CDB-S )'。为了验证CDB方法的广泛可用性,我们对多个任务进行了广泛的实验,例如图像分类,对象检测,实例分割和视频操作分类。结果验证了CDB-W损失和CDB-S可以在许多类似于现实世界中用例的类别不平衡数据集(例如Imagenet-LT,LVIS和EGTEA)上实现最先进的结果。
translated by 谷歌翻译
真实世界的图像通常是通过对每级图像数量的显着不平衡的特征,导致长尾的分布。长尾视觉识别的有效和简单的方法是分别学习特征表示和分类器,分别使用实例和类平衡采样。在这项工作中,我们介绍一个新的框架,通过键观察,即使用实例采样学习的特征表示远远不受长尾设置的最佳选择。我们的主要贡献是一种新的培训方法,称为类别平衡蒸馏(CBD),其利用知识蒸馏来增强特征表示。 CBD允许特征表示在第二阶段的老师指导的第二次培训阶段演变。第二阶段使用类平衡的采样,以专注于非代表性的类。此框架可以自然地适应多个教师的使用,从模型的集合中解锁信息以增强识别能力。我们的实验表明,所提出的技术始终如一地优于本领域的长尾识别基准,例如想象群 - LT,Inaturatibry17和Inaturation18。
translated by 谷歌翻译
现实世界中的数据通常遵循长尾巴的分布,其中一些多数类别占据了大多数数据,而大多数少数族裔类别都包含有限数量的样本。分类模型最小化跨凝结的努力来代表和分类尾部类别。尽管已经对学习无偏分类器的学习问题进行了充分的研究,但代表不平衡数据的方法却没有探索。在本文中,我们专注于表示不平衡数据的表示。最近,受到监督的对比学习最近在平衡数据上表现出了有希望的表现。但是,通过我们的理论分析,我们发现对于长尾数据,它未能形成常规的单纯形,这是代表学习的理想几何配置。为了纠正SCL的优化行为并进一步改善了长尾视觉识别的性能,我们提出了平衡对比度学习(BCL)的新型损失。与SCL相比,我们在BCL:类平均水平方面有两个改进,可以平衡负类的梯度贡献。课堂组合,允许所有类都出现在每个迷你批次中。提出的平衡对比度学习(BCL)方法满足形成常规单纯形的条件并有助于跨透明拷贝的优化。配备了BCL,提出的两分支框架可以获得更强的特征表示,并在诸如CIFAR-10-LT,CIFAR-100-LT,Imagenet-LT和Inaturalist2018之类的长尾基准数据集上实现竞争性能。我们的代码可在\ href {https://github.com/flamiezhu/bcl} {this url}中获得。
translated by 谷歌翻译
视觉世界自然地展现了一个长尾的开放类分布,这对现代视觉系统带来了巨大挑战。现有方法可以执行类重新平衡策略或直接改进网络模块以解决问题。然而,他们仍然用有限一套预定义标签训练模型,限制了他们的监督信息并限制了他们对新颖实例的可转移性。新途径上的大型对比视觉普瑞宁普雷宁闪光灯的最新进展,可视识别。利用开放词汇监督,预先染色的对比视觉语言模型学习强大的多模式表示,这是对处理数据缺陷和看不见的概念。通过计算视觉和文本输入之间的语义相似性,可视识别被转换为vision语言匹配问题。灵感来自于此,我们提出了民谣,利用了对比尾识别的对比视觉模型。我们首先通过对特定的长尾目标数据集进行对比学习继续预先预留视觉语言骨干。之后,我们冻结了骨干,进一步采用了额外的适配器层,以增强通过重新采样策略构建的平衡训练样本上的尾级课程的表示。已经在三个流行的长尾识别基准测试中进行了广泛的实验。因此,我们简单有效的方法设定了新的最先进的表演,优于具有大边距的竞争基础。代码在https://github.com/gaopengcuhk/ballad发布。
translated by 谷歌翻译
我们提出了一种称为分配 - 均衡损失的新损失功能,用于展示长尾类分布的多标签识别问题。与传统的单标分类问题相比,由于两个重要问题,多标签识别问题通常更具挑战性,即标签的共同发生以及负标签的主导地位(当被视为多个二进制分类问题时)。分配 - 平衡损失通过对标准二进制交叉熵丢失的两个关键修改来解决这些问题:1)重新平衡考虑标签共发生造成的影响的重量的新方法,以及2)负耐受规则化以减轻负标签的过度抑制。 Pascal VOC和Coco的实验表明,使用这种新损失功能训练的模型可实现现有方法的显着性能。代码和型号可在:https://github.com/wutong16/distributionbalancedloss。
translated by 谷歌翻译