机器学习中的一个关键挑战是类不平衡,其中某些类(多数类)的样本大小远高于其他类别(少数族裔)。如果我们要直接培训分类器在不平衡的数据上,则分类器更有可能将新样本预测为多数类。在极端情况下,分类器可以完全忽略少数群体。这可能在医疗保健中具有严重的社会学意义,因为少数群体通常是疾病类别(例如,死亡或临床阳性检测结果)。在本文中,我们介绍了一种软件,该软件使用生成的对抗网络来超过少数群体,以改善下游分类。据我们所知,这是允许多类分类的第一个工具(目标可以具有任意数量的类)。该工具的代码在我们的GitHub存储库中公开可用(https://github.com/yuxiaohuang/research/research/tree/master/gwu/working/working/cigan/code)。
translated by 谷歌翻译
随着技术的发展,信用卡欺诈的数量一直在增长,人们可以利用它。因此,实施一种健壮有效的方法来检测此类欺诈非常重要。机器学习算法适合这些任务,因为它们试图最大程度地提高预测的准确性,因此可以依靠。但是,在机器学习模型中存在一个即将到来的缺陷,由于样本集中的类别分布之间存在不平衡的原因,因此可能表现不佳。因此,在许多相关任务中,数据集有少数观察到的欺诈案件(有时发现了1%的正欺诈实例)。因此,这种不平衡的存在可能会通过将所有标签视为多数级别来影响任何学习模型的行为,因此在模型做出的预测中不允许概括概括。我们培训了生成对抗网络(GAN),以产生大量令人信服的(可靠)的少数族裔典范,可用于缓解培训集中的类失衡,从而更有效地学习数据。
translated by 谷歌翻译
数据通常以表格格式存储。几个研究领域(例如,生物医学,断层/欺诈检测),容易出现不平衡的表格数据。由于阶级失衡,对此类数据的监督机器学习通常很困难,从而进一步增加了挑战。合成数据生成,即过采样是一种用于提高分类器性能的常见补救措施。最先进的线性插值方法,例如洛拉斯和普罗拉斯,可用于从少数族裔类的凸空间中生成合成样本,以在这种情况下提高分类器的性能。生成的对抗网络(GAN)是合成样本生成的常见深度学习方法。尽管GAN被广泛用于合成图像生成,但在不平衡分类的情况下,它们在表格数据上的范围没有充分探索。在本文中,我们表明,与线性插值方法相比,现有的深层生成模型的性能较差,该方法从少数族裔类的凸空间中生成合成样本,对于小规模的表格数据集中的分类问题不平衡。我们提出了一个深厚的生成模型,将凸出空间学习和深层生成模型的思想结合在一起。 Convgen了解了少数族类样品的凸组合的系数,因此合成数据与多数类的不同。我们证明,与现有的深层生成模型相比,我们提出的模型Convgen在与现有的线性插值方法相当的同时,改善了此类小数据集的不平衡分类。此外,我们讨论了如何将模型用于一般的综合表格数据生成,甚至超出了数据不平衡的范围,从而提高了凸空间学习的整体适用性。
translated by 谷歌翻译
Classification using supervised learning requires annotating a large amount of classes-balanced data for model training and testing. This has practically limited the scope of applications with supervised learning, in particular deep learning. To address the issues associated with limited and imbalanced data, this paper introduces a sample-efficient co-supervised learning paradigm (SEC-CGAN), in which a conditional generative adversarial network (CGAN) is trained alongside the classifier and supplements semantics-conditioned, confidence-aware synthesized examples to the annotated data during the training process. In this setting, the CGAN not only serves as a co-supervisor but also provides complementary quality examples to aid the classifier training in an end-to-end fashion. Experiments demonstrate that the proposed SEC-CGAN outperforms the external classifier GAN (EC-GAN) and a baseline ResNet-18 classifier. For the comparison, all classifiers in above methods adopt the ResNet-18 architecture as the backbone. Particularly, for the Street View House Numbers dataset, using the 5% of training data, a test accuracy of 90.26% is achieved by SEC-CGAN as opposed to 88.59% by EC-GAN and 87.17% by the baseline classifier; for the highway image dataset, using the 10% of training data, a test accuracy of 98.27% is achieved by SEC-CGAN, compared to 97.84% by EC-GAN and 95.52% by the baseline classifier.
translated by 谷歌翻译
In recent years, applying deep learning (DL) to assess structural damages has gained growing popularity in vision-based structural health monitoring (SHM). However, both data deficiency and class-imbalance hinder the wide adoption of DL in practical applications of SHM. Common mitigation strategies include transfer learning, over-sampling, and under-sampling, yet these ad-hoc methods only provide limited performance boost that varies from one case to another. In this work, we introduce one variant of the Generative Adversarial Network (GAN), named the balanced semi-supervised GAN (BSS-GAN). It adopts the semi-supervised learning concept and applies balanced-batch sampling in training to resolve low-data and imbalanced-class problems. A series of computer experiments on concrete cracking and spalling classification were conducted under the low-data imbalanced-class regime with limited computing power. The results show that the BSS-GAN is able to achieve better damage detection in terms of recall and $F_\beta$ score than other conventional methods, indicating its state-of-the-art performance.
translated by 谷歌翻译
生成的对抗网络(GANS)是生成综合数据,尤其是图像的最流行的方法之一,用于数据共享目的。鉴于在原始数据中保留各个数据点隐私至关重要的重要意义,GAN培训利用具有差异隐私保障(如差异隐私(DP)等强大隐私保证的框架。然而,当呈现有不平衡的数据集时,这些方法仍然超越单个性能指标之外。为此,我们系统地将培训的Gans与两个透视图的不同数据不平衡设置中的两个最着名的DP框架培训培训 - 从两个透视图 - 生成的合成数据和它们的类别中的类别分类绩效。我们的分析表明,与DP-SGD类似,应用头脑对下面的/超代表的类别具有不同的影响,但在更温和的幅度下使其更加强大。有趣的是,我们的实验一直表明,对于PITE,与DP-SGD不同,隐私式实用权折衷不是单调递减,而是更平滑和倒置U形,这意味着增加了小程度的隐私实际上有助于泛化。但是,我们还确定了一些设置(例如,大不平衡),Pate-GaN完全无法学习培训数据的一些子部分。
translated by 谷歌翻译
物联网技术的开发使各种传感器可以集成到移动设备中。基于传感器数据的人类活动识别(HAR)已成为机器学习和无处不在计算领域的积极研究主题。但是,由于人类活动的频率不一致,人类活动数据集中的每个活动的数据量都会失衡。考虑到有限的传感器资源和手动标记的传感器数据的高成本,人类活动识别面临着高度不平衡的活动数据集的挑战。在本文中,我们建议平衡传感器数据生成的对抗网络(BSDGAN),以生成少数人类活动的传感器数据。所提出的BSDGAN由生成器模型和鉴别模型组成。考虑到人类活动数据集的极端失衡,使用自动编码器来初始化BSDGAN的训练过程,并确保可以学习每个活动的数据特征。生成的活动数据与原始数据集结合在一起,以平衡人类活动类别的活动数据量。我们在两个公开可用的人类活动数据集WISDM和UNIMIB上部署了多个人类活动识别模型。实验结果表明,提出的BSDGAN可以有效地捕获真实人类活动传感器数据的数据特征,并生成逼真的合成传感器数据。同时,平衡的活动数据集可以有效地帮助活动识别模型提高识别精度。
translated by 谷歌翻译
In this study, we systematically investigate the impact of class imbalance on classification performance of convolutional neural networks (CNNs) and compare frequently used methods to address the issue. Class imbalance is a common problem that has been comprehensively studied in classical machine learning, yet very limited systematic research is available in the context of deep learning. In our study, we use three benchmark datasets of increasing complexity, MNIST, CIFAR-10 and ImageNet, to investigate the effects of imbalance on classification and perform an extensive comparison of several methods to address the issue: oversampling, undersampling, two-phase training, and thresholding that compensates for prior class probabilities. Our main evaluation metric is area under the receiver operating characteristic curve (ROC AUC) adjusted to multi-class tasks since overall accuracy metric is associated with notable difficulties in the context of imbalanced data. Based on results from our experiments we conclude that (i) the effect of class imbalance on classification performance is detrimental; (ii) the method of addressing class imbalance that emerged as dominant in almost all analyzed scenarios was oversampling; (iii) oversampling should be applied to the level that completely eliminates the imbalance, whereas the optimal undersampling ratio depends on the extent of imbalance; (iv) as opposed to some classical machine learning models, oversampling does not cause overfitting of CNNs; (v) thresholding should be applied to compensate for prior class probabilities when overall number of properly classified cases is of interest.
translated by 谷歌翻译
不平衡的数据(ID)是阻止机器学习(ML)模型以实现令人满意的结果的问题。 ID是一种情况,即属于一个类别的样本的数量超过另一个类别的情况,这使此类模型学习过程偏向多数类。近年来,为了解决这个问题,已经提出了几种解决方案,该解决方案选择合成为少数族裔类生成新数据,或者减少平衡数据的多数类的数量。因此,在本文中,我们研究了基于深神经网络(DNN)和卷积神经网络(CNN)的方法的有效性,并与各种众所周知的不平衡数据解决方案混合,这意味着过采样和降采样。为了评估我们的方法,我们使用了龙骨,乳腺癌和Z-Alizadeh Sani数据集。为了获得可靠的结果,我们通过随机洗牌的数据分布进行了100次实验。分类结果表明,混合的合成少数族裔过采样技术(SMOTE) - 正态化-CNN优于在24个不平衡数据集上达到99.08%精度的不同方法。因此,提出的混合模型可以应用于其他实际数据集上的不平衡算法分类问题。
translated by 谷歌翻译
长尾分布式数据的分类是一个具有挑战性的问题,它遭受了严重的班级不平衡,因此只有几个样本的尾巴阶级表现不佳。由于样本的匮乏,在将预审计的模型转移到下游任务时,在尾部类中学习对于微调尤其具有挑战性。在这项工作中,我们简单地修改了标准微调,以应对这些挑战。具体而言,我们提出了一个两阶段的微调:我们首先用类平衡的重新释放损失微调了预审计模型的最后一层,然后我们执行标准的微调。我们的修改有几个好处:(1)仅通过微调模型参数的一小部分,同时保持其余部分未触及,从而利用了预告片; (2)它允许模型学习特定任务的初始表示;重要的是(3)它可以保护学习尾巴的学习免于模型更新期间处于不利地位。我们对文本分类的两类和多级任务的合成数据集进行了广泛的实验,以及用于ADME的现实世界应用(即吸收,分布,代谢和排泄)语义标记。实验结果表明,所提出的两阶段微调既优于传统损失,又超过了微调,并且在上述数据集上进行了重新调整损失。
translated by 谷歌翻译
类别不平衡发生在许多实际应用程序中,包括图像分类,其中每个类中的图像数量显着不同。通过不平衡数据,生成的对抗网络(GANS)倾向于多数类样本。最近的两个方法,平衡GaN(Bagan)和改进的Bagan(Bagan-GP)被提出为增强工具来处理此问题并将余额恢复到数据。前者以无人监督的方式预先训练自动化器权重。但是,当来自不同类别的图像具有类似的特征时,它是不稳定的。后者通过促进监督的自动化培训培训,基于蒲甘进行改善,但预先培训偏向于多数阶级。在这项工作中,我们提出了一种新颖的条件变形式自动化器,具有用于生成的对抗性网络(CAPAN)的平衡训练,作为生成现实合成图像的增强工具。特别是,我们利用条件卷积改变自动化器,为GaN初始化和梯度惩罚培训提供了监督和平衡的预培训。我们所提出的方法在高度不平衡版本的MNIST,时尚 - MNIST,CIFAR-10和两个医学成像数据集中呈现出卓越的性能。我们的方法可以在FR \'回路截止距离,结构相似性指数测量和感知质量方面综合高质量的少数民族样本。
translated by 谷歌翻译
本文提出了一种用于处理不平衡高光谱图像分类的新型多假进化生成的对抗网络(MFEGAN)。它是一种端到端的方法,其中在发电机网络中考虑了不同的生成目标损失,以改善鉴别器网络的分类性能。因此,通过将分类器网络嵌入识别函数的顶部,相同的鉴别器网络已被用作标准分类器。通过两个高光谱空间光谱数据集验证了所提出的方法的有效性。同样的生成和鉴别者架构已经与两个不同的GAN目标用于与所提出的方法进行公平的性能比较。从实验验证中观察到所提出的方法优于最先进的方法,具有更好的分类性能。
translated by 谷歌翻译
许多现实世界的分类问题的班级标签频率不平衡;一个被称为“阶级失衡”问题的著名问题。经典的分类算法往往会偏向多数级别,使分类器容易受到少数族裔类别的分类。尽管文献富含解决此问题的方法,但随着问题的维度的增加,许多方法没有扩展,并且运行它们的成本变得越来越高。在本文中,我们提出了端到端的深层生成分类器。我们提出了一个域构成自动编码器,以将潜在空间保留为发电机的先验,然后将其用于与其他两个深网,一个歧视器和一个分类器一起玩对抗游戏。对三个不同的多级不平衡问题进行了广泛的实验,并与最先进的方法进行了比较。实验结果证实了我们方法比流行算法在处理高维不平衡分类问题方面具有优势。我们的代码可在https://github.com/tanmdl/slppl-gan上找到。
translated by 谷歌翻译
深度学习模型记住培训数据,这损害了他们推广到代表性不足的课程的能力。我们从经验上研究了卷积神经网络对图像数据不平衡数据的内部表示,并测量了训练和测试集中模型特征嵌入之间的概括差距,这表明该差距对于少数类别的差异更大。这个洞察力使我们能够为不平衡数据设计有效的三相CNN培训框架。该框架涉及训练网络端到端的数据不平衡数据以学习准确的功能嵌入,在学习的嵌入式空间中执行数据增强以平衡火车分布,并在嵌入式平衡的培训数据上微调分类器头。我们建议在培训框架中使用广泛的过采样(EOS)作为数据增强技术。 EOS形成合成训练实例,作为少数族类样本与其最近的敌人之间的凸组合,以减少概括差距。提出的框架提高了与不平衡学习中常用的领先成本敏感和重新采样方法的准确性。此外,它比标准数据预处理方法(例如SMOTE和基于GAN的过采样)更有效,因为它需要更少的参数和更少的训练时间。
translated by 谷歌翻译
We present a variety of new architectural features and training procedures that we apply to the generative adversarial networks (GANs) framework. We focus on two applications of GANs: semi-supervised learning, and the generation of images that humans find visually realistic. Unlike most work on generative models, our primary goal is not to train a model that assigns high likelihood to test data, nor do we require the model to be able to learn well without using any labels. Using our new techniques, we achieve state-of-the-art results in semi-supervised classification on MNIST, CIFAR-10 and SVHN. The generated images are of high quality as confirmed by a visual Turing test: our model generates MNIST samples that humans cannot distinguish from real data, and CIFAR-10 samples that yield a human error rate of 21.3%. We also present ImageNet samples with unprecedented resolution and show that our methods enable the model to learn recognizable features of ImageNet classes.
translated by 谷歌翻译
接受差异隐私(DP)训练的生成模型可用于生成合成数据,同时最大程度地降低隐私风险。我们分析了DP对数据的影响不足的数据/子组的影响,特别是研究:1)合成数据中类/子组的大小和2)分类任务的准确性在其上运行。我们还评估了各种不平衡和隐私预算的影响。我们的分析使用了三种最先进的DP模型(Privbayes,DP-WGAN和PATE-GAN),并表明DP在生成的合成数据中产生相反的大小分布。它影响了多数族裔和少数族裔/亚组之间的差距;在某些情况下,通过减少它(一种“罗宾汉”效应),而在其他情况下则通过增加它(一种“马修”效应)。无论哪种方式,这都会导致(类似)对合成数据的分类任务准确性的(类似)不同的影响,从而更加不成比例地影响了代表性不足的数据。因此,当培训模型对合成数据时,可能会导致不均匀地处理不同亚群的风险,从而得出不可靠或不公平的结论。
translated by 谷歌翻译
不平衡的数据是机器学习中经常遇到的问题。尽管有关数据不平衡的抽样技术有大量文献,但仍有有限的研究解决了最佳抽样比率的问题。在本文中,我们试图通过对抽样比对分类准确性的影响进行大规模研究来填补文献中的空白。我们考虑10种流行的抽样方法,并根据20个数据集评估其性能。数值实验的结果表明,最佳采样比在0.7至0.8之间,尽管确切比率取决于数据集。此外,我们发现,尽管原始不平衡比率或功能数量在确定最佳比率方面没有可见作用,但数据集中的样本数量可能会产生切实效果。
translated by 谷歌翻译
Darknets的匿名性质通常用于非法活动。先前的研究已经采用了机器学习和深度学习技术来自动对暗网流量的检测,以阻止这些犯罪活动。这项研究旨在通过评估支持向量机(SVM),随机森林(RF),卷积神经网络(CNN)和辅助分类器生成对抗网络(AC-GAN)来改善暗网流量检测申请类型。我们发现,我们的RF模型优于与CIC-Darknet2020数据集的先前工作中使用的最新机器学习技术。为了评估RF分类器的鲁棒性,我们混淆选择应用程序类型类,以模拟现实的对抗攻击方案。我们证明,我们表现最好的分类器可能会被这种攻击击败,我们考虑处理这种对抗性攻击的方法。
translated by 谷歌翻译
通过利用深度学习来自动分类相机陷阱图像,生态学家可以更有效地监测生物多样性保护努力和气候变化对生态系统的影响。由于相机陷阱数据集的不平衡类分布,当前模型偏向于多数类。因此,他们为少数多数课程获得了良好的表现,而是许多少数阶级的表现不佳。我们使用两阶段培训来增加这些少数阶级的表现。我们培训,旁边是基线模型,四个模型,它在高度不平衡快照Serengeti数据集的子集上实现了不同版本的两阶段训练。我们的研究结果表明,两阶段培训可以提高许多少数群体课程的性能,对其他课程的性能有限。我们发现,基于多数欠采样的两阶段培训将等级特定的F1分数增加到3.0%。我们还发现,两阶段培训胜过仅使用过采样或欠采样的F1分数平均使用6.1%。最后,我们发现过度和欠采样的组合导致更好的性能,而不是单独使用它们。
translated by 谷歌翻译
基于分数的生成模型(SGM)是生成假图像的最新突破。已知SGM可以超越其他生成模型,例如生成对抗网络(GAN)和变异自动编码器(VAE)。在这项工作中,我们受到了他们的巨大成功的启发,我们将它们完全自定义以生成伪造的表格数据。特别是,我们对过度采样较小的课程感兴趣,因为不平衡的课程经常导致次优训练成果。据我们所知,我们是第一个提出基于得分的表格数据超采样方法的人。首先,我们必须重新设计自己的分数网络,因为我们必须处理表格数据。其次,我们为我们的生成方法提出了两个选项:前者等同于表格数据的样式传输,后者使用SGMS的标准生成策略。最后,我们定义了一种微调方法,该方法进一步提高了过度采样质量。在我们使用6个数据集和10个基线的实验中,我们的方法在所有情况下都优于其他过采样方法。
translated by 谷歌翻译