糖尿病性视网膜病(DR)和糖尿病黄斑水肿(DME)是全球永久失明的主要原因。在临床实践中设计具有良好泛化能力的自动分级系统至关重要。但是,先前的工作是独立的DR或DME等级,而无需考虑它们之间的内部相关性,或者通过共享特征表示共同对其进行分级,但忽略了由困难的样本和数据偏见引起的潜在概括问题。为了解决这些问题,我们提出了一个与动态难度意识的加权损失(DAW)和双流式分离的学习体系结构(分离)的框架。受课程学习的启发,DAW通过适应性地测量难度从简单的样本学习到困难样本。分离分离分级任务的特征,以避免潜在地强调偏见。通过添加DAW和Decarach,该模型学习了鲁棒的分离特征表示,以探索DR和DME之间的内部相关性并实现更好的分级性能。在三个基准测试的实验显示了我们框架内框架和跨数据库测试的有效性和鲁棒性。
translated by 谷歌翻译
甲状腺结节分类旨在根据给定的超声图像确定结节是良性还是恶性。但是,通过细胞学活检获得的标签是临床医学的黄金标准,并不总是与超声成像TI-RADS标准一致。两者之间的信息差异导致现有的基于深度学习的分类方法具有优柔寡断。为了解决不一致的标签问题,我们提出了一个自适应课程学习(ACL)框架,该框架可以自适应地发现并用不一致的标签丢弃样品。具体而言,ACL同时考虑了硬样品和模型确定性,并且可以准确确定用不一致的标签区分样品的阈值。此外,我们贡献了TNCD:甲状腺结节分类数据集,以促进对甲状腺结节的未来相关研究。基于三个不同的骨干网络的TNCD的广泛实验结果不仅证明了我们方法的优势,而且证明了较少的IS原理在战略上以不一致​​的标签抛弃样品可以产生性能提高。源代码和数据可从https://github.com/chenghui-666/acl/获得。
translated by 谷歌翻译
疾病预测是医学应用中的知名分类问题。 GCNS提供了一个强大的工具,用于分析患者相对于彼此的特征。这可以通过将问题建模作为图形节点分类任务来实现,其中每个节点是患者。由于这种医学数据集的性质,类别不平衡是疾病预测领域的普遍存在问题,其中类的分布是歪曲的。当数据中存在类别不平衡时,现有的基于图形的分类器倾向于偏向于主要类别并忽略小类中的样本。另一方面,所有患者中罕见阳性病例的正确诊断在医疗保健系统中至关重要。在传统方法中,通过将适当的权重分配给丢失函数中的类别来解决这种不平衡,这仍然依赖于对异常值敏感的权重的相对值,并且在某些情况下偏向于小类(ES)。在本文中,我们提出了一种重加权的对抗性图形卷积网络(RA-GCN),以防止基于图形的分类器强调任何特定类的样本。这是通过将基于图形的神经网络与每个类相关联来完成的,这负责加权类样本并改变分类器的每个样本的重要性。因此,分类器自身调节并确定类之间的边界,更加关注重要样本。分类器和加权网络的参数受到侵犯方法训练。我们在合成和三个公共医疗数据集上显示实验。与最近的方法相比,ra-gcn展示了与最近的方法在所有三个数据集上识别患者状态的方法相比。详细分析作为合成数据集的定量和定性实验提供。
translated by 谷歌翻译
通过从完全标记的源域中利用数据,无监督域适应(UDA)通过显式差异最小化数据分布或对抗学习来提高未标记的目标域上的分类性能。作为增强,通过利用模型预测来加强目标特征识别期间涉及类别对齐。但是,在目标域上的错误类别预测中产生的伪标签不准确以及由源域的过度录制引起的分发偏差存在未探明的问题。在本文中,我们提出了一种模型 - 不可知的两阶段学习框架,这大大减少了使用软伪标签策略的缺陷模型预测,并避免了课程学习策略的源域上的过度拟合。从理论上讲,它成功降低了目标域上预期误差的上限的综合风险。在第一阶段,我们用分布对齐的UDA方法训练一个模型,以获得具有相当高的置位目标域上的软语义标签。为了避免在源域上的过度拟合,在第二阶段,我们提出了一种课程学习策略,以自适应地控制来自两个域的损失之间的加权,以便训练阶段的焦点从源分布逐渐移位到目标分布,以预测信心提升了目标分布在目标领域。对两个知名基准数据集的广泛实验验证了我们提出框架促进促进顶级UDA算法的性能的普遍效果,并展示其一致的卓越性能。
translated by 谷歌翻译
与其他类别(称为少数族裔或尾巴类)相比,很少的类或类别(称为多数或头等类别的类别)具有更高的数据样本数量,在现实世界中,长尾数据集经常遇到。在此类数据集上培训深层神经网络会给质量级别带来偏见。到目前为止,研究人员提出了多种加权损失和数据重新采样技术,以减少偏见。但是,大多数此类技术都认为,尾巴类始终是最难学习的类,因此需要更多的重量或注意力。在这里,我们认为该假设可能并不总是成立的。因此,我们提出了一种新颖的方法,可以在模型的训练阶段动态测量每个类别的瞬时难度。此外,我们使用每个班级的难度度量来设计一种新型的加权损失技术,称为“基于阶级难度的加权(CDB-W)损失”和一种新型的数据采样技术,称为“基于类别难度的采样)(CDB-S )'。为了验证CDB方法的广泛可用性,我们对多个任务进行了广泛的实验,例如图像分类,对象检测,实例分割和视频操作分类。结果验证了CDB-W损失和CDB-S可以在许多类似于现实世界中用例的类别不平衡数据集(例如Imagenet-LT,LVIS和EGTEA)上实现最先进的结果。
translated by 谷歌翻译
来自X射线图像的近端股骨骨折的足够分类对于治疗选择和患者的临床结果至关重要。我们依赖于常用的AO系统,该系统描述了将图像分类为类型和亚型的分层知识树根据裂缝的位置和复杂性。在本文中,我们提出了一种基于卷积神经网络(CNN)自动分类近端股骨骨折的近端骨折分类为3和7 AO类。如已知所知,CNNS需要具有可靠标签的大型和代表性数据集,这很难收集手头的应用。在本文中,我们设计了一个课程学习(CL)方法,在这种情况下通过基本的CNNS性能提高。我们的小说配方团结了三个课程策略:单独加权培训样本,重新排序培训集,以及数据采样子集。这些策略的核心是评分函数排名训练样本。我们定义了两种小说评分函数:一个来自域的特定于域的先前知识和原始的自我节奏的不确定性分数。我们对近端股骨射线照片的临床数据集进行实验。课程改善了近端股骨骨折分类,达到了经验丰富的创伤外科医生的性能。最佳课程方法根据现有知识重新排列培训集,从而达到15%的分类提高。使用公开可用的MNIST DataSet,我们进一步讨论并展示了我们统一的CL配方对三个受控和具有挑战性的数字识别方案的好处:具有有限的数据,在类别 - 不平衡下以及在标签噪声存在下。我们的工作代码可在:https://github.com/ameliajimenez/curriculum-learning-prior -unctainty。
translated by 谷歌翻译
有效的医疗图像细分旨在通过轻量级实施框架为医学图像提供准确的像素预测。然而,轻量级框架通常无法实现高性能,并且遭受了跨域任务的可概括能力。在本文中,我们提出了一种可推广的知识蒸馏方法,用于良好,有效地分割跨域医学图像。主要是,我们提出了模型特异性的对准网络(MSAN),以提供由预训练的语义自动编码器(P-SAE)正规化的域不变表示。同时,定制的一致性培训(ACT)策略旨在促进MSAN培训。在MSAN中的域不变代表矢量中,我们提出了两个可推广的知识蒸馏方案,双对比度图蒸馏(DCGD)和域不变的交叉蒸馏(DICD)。具体而言,在DCGD中,设计了两种类型的隐式对比图,以从数据分布的角度来表示耦合和耦合语义相关性。在DICD中,来自MSAN的标题交换将两个模型(即教师和学生)的域语义向量(即教师和学生)借给了跨重建功能,这可以在学生模型中实现编码器和解码器的可推广改进。此外,定制了一个名为FR \'Echet语义距离(FSD)的度量,以验证正则化域不变特征的有效性。在肝和视网膜血管分割数据集上进行的广泛实验证明了我们方法的优先级,就轻量级框架的性能和概括而言。
translated by 谷歌翻译
The real-world data tends to be heavily imbalanced and severely skew the data-driven deep neural networks, which makes Long-Tailed Recognition (LTR) a massive challenging task. Existing LTR methods seldom train Vision Transformers (ViTs) with Long-Tailed (LT) data, while the off-the-shelf pretrain weight of ViTs always leads to unfair comparisons. In this paper, we systematically investigate the ViTs' performance in LTR and propose LiVT to train ViTs from scratch only with LT data. With the observation that ViTs suffer more severe LTR problems, we conduct Masked Generative Pretraining (MGP) to learn generalized features. With ample and solid evidence, we show that MGP is more robust than supervised manners. In addition, Binary Cross Entropy (BCE) loss, which shows conspicuous performance with ViTs, encounters predicaments in LTR. We further propose the balanced BCE to ameliorate it with strong theoretical groundings. Specially, we derive the unbiased extension of Sigmoid and compensate extra logit margins to deploy it. Our Bal-BCE contributes to the quick convergence of ViTs in just a few epochs. Extensive experiments demonstrate that with MGP and Bal-BCE, LiVT successfully trains ViTs well without any additional data and outperforms comparable state-of-the-art methods significantly, e.g., our ViT-B achieves 81.0% Top-1 accuracy in iNaturalist 2018 without bells and whistles. Code is available at https://github.com/XuZhengzhuo/LiVT.
translated by 谷歌翻译
长尾数据集(Head Class)组成的培训样本比尾巴类别多得多,这会导致识别模型对头等舱有偏见。加权损失是缓解此问题的最受欢迎的方法之一,最近的一项工作表明,班级难度可能比常规使用的类频率更好地决定了权重的分布。在先前的工作中使用了一种启发式公式来量化难度,但是我们从经验上发现,最佳公式取决于数据集的特征。因此,我们提出了困难网络,该难题学习在元学习框架中使用模型的性能来预测类的难度。为了使其在其他班级的背景下学习班级的合理难度,我们新介绍了两个关键概念,即相对难度和驾驶员损失。前者有助于困难网络在计算班级难度时考虑其他课程,而后者对于将学习指向有意义的方向是必不可少的。对流行的长尾数据集进行了广泛的实验证明了该方法的有效性,并且在多个长尾数据集上实现了最先进的性能。
translated by 谷歌翻译
标记医学图像取决于专业知识,因此很难在短时间内以高质量获取大量注释的医学图像。因此,在小型数据集中充分利用有限标记的样品来构建高性能模型是医疗图像分类问题的关键。在本文中,我们提出了一个深入监督的层选择性注意网络(LSANET),该网络全面使用功能级和预测级监督中的标签信息。对于特征级别的监督,为了更好地融合低级功能和高级功能,我们提出了一个新颖的视觉注意模块,层选择性注意(LSA),以专注于不同层的特征选择。 LSA引入了一种权重分配方案,该方案可以在整个训练过程中动态调整每个辅助分支的加权因子,以进一步增强深入监督的学习并确保其概括。对于预测级的监督,我们采用知识协同策略,通过成对知识匹配来促进所有监督分支之间的层次信息互动。使用公共数据集MedMnist,这是用于涵盖多种医学专业的生物医学图像分类的大规模基准,我们评估了LSANET在多个主流CNN体系结构和各种视觉注意模块上评估。实验结果表明,我们所提出的方法对其相应的对应物进行了实质性改进,这表明LSANET可以为医学图像分类领域的标签有效学习提供有希望的解决方案。
translated by 谷歌翻译
在现实世界中,医疗数据集通常表现出长尾数据分布(即,一些类占据大多数数据,而大多数类都很少有一些样本),这导致挑战的不平衡学习场景。例如,估计有超过40种不同的视网膜疾病,无论发生了多种发病率,然而,来自全球患者队列的超过30多种条件非常罕见,这导致基于深度学习的筛选典型的长尾学习问题楷模。此外,视网膜中可能存在多种疾病,这导致多标签情景并为重新采样策略带来标签共生问题。在这项工作中,我们提出了一种新颖的框架,利用了视网膜疾病的先验知识,以便在等级 - 明智的约束下培训模型的更强大的代表。然后,首先引入了一个实例 - 明智的类平衡的采样策略和混合知识蒸馏方式,以从长尾的多标签分布中学习。我们的实验培训超过一百万个样品的视网膜数据集展示了我们所提出的方法的优越性,这些方法优于所有竞争对手,并显着提高大多数疾病的识别准确性,特别是那些罕见的疾病。
translated by 谷歌翻译
B扫描超声模式中图像的精确和快速分类对于诊断眼部疾病至关重要。然而,在超声波中区分各种疾病仍然挑战经验丰富的眼科医生。因此,在这项工作中开发了一个新颖的对比度截面网络(CDNET),旨在应对超声图像中眼异常的细粒度图像分类(FGIC)挑战,包括眼内肿瘤(IOT),视网膜脱离(RD),后堆肥葡萄球菌(PSS)和玻璃体出血(VH)。 CDNET的三个基本组成部分分别是弱监督的病变定位模块(WSLL),对比度多Zoom(CMZ)策略和超级性对比度分解损失(HCD-LOSS)。这些组件促进了在输入和输出方面的细粒度识别的特征分离。所提出的CDNET在我们的ZJU Ocular Ultrasound数据集(Zjuuld)上进行了验证,该数据集由5213个样品组成。此外,在两个公共且广泛使用的胸部X射线FGIC基准上验证了CDNET的概括能力。定量和定性结果证明了我们提出的CDNET的功效,该CDNET在FGIC任务中实现了最新的性能。代码可在以下网址获得:https://github.com/zeroonegame/cdnet-for-ous-fgic。
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
基于深度学习的组织病理学图像分类是帮助医生提高癌症诊断的准确性和迅速性的关键技术。然而,在复杂的手动注释过程中,嘈杂的标签通常是不可避免的,因此误导了分类模型的培训。在这项工作中,我们介绍了一种用于组织病理学图像分类的新型硬样本感知噪声稳健学习方法。为了区分来自有害嘈杂的内容漏洞,我们通过使用样本培训历史来构建一个简单/硬/噪声(EHN)检测模型。然后,我们将EHN集成到自动训练架构中,通过逐渐校正降低噪声速率。通过获得的几乎干净的数据集,我们进一步提出了一种噪声抑制和硬增强(NSHE)方案来训练噪声鲁棒模型。与以前的作品相比,我们的方法可以节省更多清洁样本,并且可以直接应用于实际嘈杂的数据集场景,而无需使用清洁子集。实验结果表明,该方案在合成和现实世界嘈杂的数据集中优于当前最先进的方法。源代码和数据可在https://github.com/bupt-ai-cz/hsa-nrl/处获得。
translated by 谷歌翻译
在本文中,我们提出了一个新颖的端到端集团协作学习网络,称为GCONET+,该网络可以有效,有效地(250 fps)识别自然场景中的共呈含量对象。提出的GCONET+基于以下两个基本标准,通过采矿共识表示,实现了共同降低对象检测(COSOD)的新最新性能:1)组内紧凑型,以更好地提高共同空位之间的一致性通过使用我们的新颖组亲和力模块(GAM)捕获其固有共享属性的对象; 2)组间可分离性通过引入我们的新组协作模块(GCM)条件对不一致的共识进行调理,从而有效抑制嘈杂对象对输出的影响。为了进一步提高准确性,我们设计了一系列简单但有效的组件,如下所示:i)在语义级别促进模型学习的经常性辅助分类模块(RACM); ii)一个置信度增强模块(CEM)帮助模型提高最终预测的质量; iii)基于小组的对称三重态(GST)损失指导模型以学习更多的判别特征。对三个具有挑战性的基准测试(即可口可乐,COSOD3K和COSAL2015)进行了广泛的实验,这表明我们的GCONET+优于现有的12个尖端模型。代码已在https://github.com/zhengpeng7/gconet_plus上发布。
translated by 谷歌翻译
Diabetic Retinopathy (DR) is a leading cause of vision loss in the world, and early DR detection is necessary to prevent vision loss and support an appropriate treatment. In this work, we leverage interactive machine learning and introduce a joint learning framework, termed DRG-Net, to effectively learn both disease grading and multi-lesion segmentation. Our DRG-Net consists of two modules: (i) DRG-AI-System to classify DR Grading, localize lesion areas, and provide visual explanations; (ii) DRG-Expert-Interaction to receive feedback from user-expert and improve the DRG-AI-System. To deal with sparse data, we utilize transfer learning mechanisms to extract invariant feature representations by using Wasserstein distance and adversarial learning-based entropy minimization. Besides, we propose a novel attention strategy at both low- and high-level features to automatically select the most significant lesion information and provide explainable properties. In terms of human interaction, we further develop DRG-Net as a tool that enables expert users to correct the system's predictions, which may then be used to update the system as a whole. Moreover, thanks to the attention mechanism and loss functions constraint between lesion features and classification features, our approach can be robust given a certain level of noise in the feedback of users. We have benchmarked DRG-Net on the two largest DR datasets, i.e., IDRID and FGADR, and compared it to various state-of-the-art deep learning networks. In addition to outperforming other SOTA approaches, DRG-Net is effectively updated using user feedback, even in a weakly-supervised manner.
translated by 谷歌翻译
本文研究了几种皮肤疾病分类问题。基于至关重要的观察,即皮肤病图像通常存在于一类中的多个子群体(即,一类疾病中图像的外观变化并形成多个不同的子组),我们设计了一种新型的亚群集感知网络,即扫描,以提高准确性以稀有皮肤疾病诊断。由于几次学习的性能很大程度上取决于学习特征编码器的质量,因此指导扫描设计的主要原理是每个类的内在子簇表示学习,以便更好地描述特征分布。具体而言,扫描遵循双分支框架,第一个分支是学习范围的特征以区分不同的皮肤疾病,第二个分支是学习可以有效地将每个班级划分为几个组的特征,以保留子 - 每个类中的聚集结构。为了实现第二个分支的目标,我们提出了一个集群损失,可以通过无监督的聚类学习图像相似性。为了确保每个子集群中的样品来自同一类,我们进一步设计了纯度损失,以完善无监督的聚类结果。我们在两个公共数据集上评估了拟议方法,以进行几次皮肤疾病分类。实验结果验证了我们的框架在SD-198和DERM7PT数据集​​上优于其他最先进方法约为2%至4%。
translated by 谷歌翻译
医疗保健自动化的机会可以改善临床医生的吞吐量。一个这样的例子是辅助工具记录诊断代码时,当临床医生写笔记时。我们使用课程学习研究了医学法规预测的自动化,这是机器学习模型的培训策略,可逐渐将学习任务的硬度从易于到困难提高。课程学习的挑战之一是课程的设计 - 即,在逐渐增加难度的任务设计中。我们提出了分层课程学习(HICU),这是一种在输出空间中使用图形结构的算法,以设计用于多标签分类的课程。我们为多标签分类模型创建课程,以预测患者自然语言描述的ICD诊断和程序代码。通过利用ICD代码的层次结构,该层次基于人体的各种器官系统进行诊断代码,我们发现我们的建议课程改善了基于反复,卷积和基于变压器的体系结构的基于神经网络的预测模型的概括。我们的代码可在https://github.com/wren93/hicu-icd上找到。
translated by 谷歌翻译
给定标签噪声的数据(即数据不正确),深神经网络将逐渐记住标签噪声和损害模型性能。为了减轻此问题,提出了课程学习,以通过在有意义的(例如,易于硬)序列中订购培训样本来提高模型性能和概括。先前的工作将错误的样本作为通用的硬性样本,而无需区分硬样品(即正确数据中的硬样品)和不正确的样本。确实,模型应该从硬样本中学习,以促进概括而不是过度拟合错误。在本文中,我们通过在现有的任务损失之外附加新颖的损失函数Indimloss来解决此问题。它的主要影响是在训练的早期阶段自动,稳定地估计简易样品和困难样本(包括硬和不正确的样品)的重要性,以改善模型性能。然后,在以下阶段中,歧视专门用于区分硬性和不正确样本以改善模型的概括。这种培训策略可以以自我监督的方式动态制定,从而有效地模仿课程学习的主要原则。关于图像分类,图像回归,文本序列回归和事件关系推理的实验证明了我们方法的多功能性和有效性,尤其是在存在多样化的噪声水平的情况下。
translated by 谷歌翻译
神经网络通常使预测依赖于数据集的虚假相关性,而不是感兴趣的任务的内在特性,面对分布外(OOD)测试数据的急剧下降。现有的De-Bias学习框架尝试通过偏置注释捕获特定的DataSet偏差,它们无法处理复杂的“ood方案”。其他人在低能力偏置模型或损失上隐含地识别数据集偏置,但在训练和测试数据来自相同分布时,它们会降低。在本文中,我们提出了一般的贪婪去偏见学习框架(GGD),它贪婪地训练偏置模型和基础模型,如功能空间中的梯度下降。它鼓励基础模型专注于用偏置模型难以解决的示例,从而仍然在测试阶段中的杂散相关性稳健。 GGD在很大程度上提高了各种任务的模型的泛化能力,但有时会过度估计偏置水平并降低在分配测试。我们进一步重新分析了GGD的集合过程,并将课程正规化为由课程学习启发的GGD,这取得了良好的分配和分发性能之间的权衡。对图像分类的广泛实验,对抗问题应答和视觉问题应答展示了我们方法的有效性。 GGD可以在特定于特定于任务的偏置模型的设置下学习更强大的基础模型,其中具有现有知识和自组合偏置模型而无需先验知识。
translated by 谷歌翻译