图像分类是计算机视觉中最重要的领域之一。当根据层次结构或分类学排列多级图像分类问题时,层次多标签分类适用于较小的图像分类问题。因此,分层分类模式通常在每个实例上提供多个类预测,从而期望这些模式反映图像类的结构相互关联。在本文中,我们提出了用于分层分类的多标签胶囊网络(ML-CAPSNET)。我们的ML-CAPSNET根据分层类标签树结构预测多个图像类。为此,我们提出了一个损失函数,该函数考虑了网络的多标签预测。结果,我们的ML-CAPSNET的训练方法使用粗到细的范式,同时与标签层次结构中的分类水平保持一致。我们还使用广泛可用的数据集执行实验,并将模型与文献其他地方的替代方案进行比较。在我们的实验中,我们的ML capsnet在这些替代方法方面产生了改善的余地。
translated by 谷歌翻译
A capsule is a group of neurons whose activity vector represents the instantiation parameters of a specific type of entity such as an object or an object part. We use the length of the activity vector to represent the probability that the entity exists and its orientation to represent the instantiation parameters. Active capsules at one level make predictions, via transformation matrices, for the instantiation parameters of higher-level capsules. When multiple predictions agree, a higher level capsule becomes active. We show that a discrimininatively trained, multi-layer capsule system achieves state-of-the-art performance on MNIST and is considerably better than a convolutional net at recognizing highly overlapping digits. To achieve these results we use an iterative routing-by-agreement mechanism: A lower-level capsule prefers to send its output to higher level capsules whose activity vectors have a big scalar product with the prediction coming from the lower-level capsule.
translated by 谷歌翻译
胶囊网络是一类神经网络,可在许多计算机视觉任务上取得有希望的结果。但是,由于高计算和内存要求,基线胶囊网络未能在更复杂的数据集上达到最新结果。我们通过提出一种称为动量胶囊网络(Mocapsnet)的新网络体系结构来解决这个问题。Mocapsnets的灵感来自动量Resnets,这是一种应用可逆残留构建块的网络。可逆的网络允许重新计算后反向传播算法中正向通行的激活,因此可以大大减少这些内存要求。在本文中,我们提供了一个框架,介绍如何将可逆的残留构建块应用于胶囊网络。我们将证明Mocapsnet在MNIST,SVHN,CIFAR-10和CIFAR-100上击败基线胶囊网络的准确性,同时使用的内存较少。源代码可在https://github.com/moejoe95/mocapsnet上找到。
translated by 谷歌翻译
在过去十年中,深度神经网络已经证明是擅长图像分类任务,通常在准确性方面超越人类。然而,标准神经网络通常无法理解不同类别的分层结构的概念和相关的视觉相关任务。另一方面,人类似乎在概念上学习类别,从理解高级概念下降到粒度的类别。由于神经网络无法编码其学习结构中的这种依赖性而产生的一个问题是亚泊素班次 - 其中包含从训练集类别的移位群体中获取的新型看不见的课程。由于神经网络将每个类视为独立于所有其他课程,因此它努力对依赖于等级较高的依赖的转移群体进行分类。在这项工作中,我们通过新颖的条件监督培训框架的镜头研究上述问题。我们通过结构化的学习过程来解决亚泊位偏移,通过标签将分层信息包含在一起。此外,我们介绍了图形距离的概念,以模拟错误预测的灾难性影响。我们展示了这种结构化的分层方式的学习导致对亚泊素换档更加稳健的网络,在准确度和大约8.5±8.5°的图形距离上的标准换档基准上的标准模型的速度约为8.5%。
translated by 谷歌翻译
胶囊网络(CAPSNET)旨在将图像解析为由对象,部分及其关系组成的层次组件结构。尽管它们具有潜力,但它们在计算上还是很昂贵的,并且构成了一个主要的缺点,这限制了在更复杂的数据集中有效利用这些网络的限制。当前的CAPSNET模型仅将其性能与胶囊基线进行比较,并且在复杂任务上的基于CNN的DEEP基于DEEP基于CNN的级别的性能。本文提出了一种学习胶囊的有效方法,该胶囊通过一组子封装来检测输入图像的原子部分,并在其上投射输入向量。随后,我们提出了Wasserstein嵌入模块,该模块首先测量由子胶囊建模的输入和组件之间的差异,然后根据学习的最佳运输找到它们的对齐程度。该策略利用基于其各自的组件分布之间的相似性来定义输入和子胶囊之间的一致性的新见解。我们提出的模型(i)是轻量级的,允许将胶囊应用于更复杂的视觉任务; (ii)在这些具有挑战性的任务上的表现要好于或与基于CNN的模型相提并论。我们的实验结果表明,Wasserstein嵌入胶囊(Wecapsules)在仿射转换方面更加强大,有效地扩展到较大的数据集,并且在几个视觉任务中胜过CNN和CAPSNET模型。
translated by 谷歌翻译
标签层次结构通常作为生物分类法或语言数据集的一部分可用。几项作品利用这些作品来学习层次结构意识到功能,以改善分类器,以在维持或减少总体错误的同时犯有语义有意义的错误。在本文中,我们提出了一种学习层次结构意识特征(HAF)的新方法,该方法利用分类器在每个层次结构级别上的分类器受到约束,以生成与标签层次结构一致的预测。分类器的训练是通过最大程度地减少从细粒分类器获​​得的目标软标签的Jensen Shannon差异来训练。此外,我们采用了简单的几何损失,该损失限制了特征空间几何形状以捕获标签空间的语义结构。 HAF是一种训练时间方法,可以改善错误,同时保持TOP-1错误,从而解决了跨凝性损失的问题,该问题将所有错误视为平等。我们在三个层次数据集上评估HAF,并在Inaturalist-19和Cifar-100数据集上实现最新结果。源代码可从https://github.com/07agarg/haf获得
translated by 谷歌翻译
我们提出了一个通过信息瓶颈约束来学习CAPSNET的学习框架的框架,该框架将信息提炼成紧凑的形式,并激励学习可解释的分解化胶囊。在我们的$ \ beta $ -capsnet框架中,使用超参数$ \ beta $用于权衡解开和其他任务,使用变异推理将信息瓶颈术语转换为kl divergence,以近似为约束胶囊。为了进行监督学习,使用类独立掩码矢量来理解合成的变化类型,无论图像类别类别,我们通过调整参数$ \ beta $来进行大量的定量和定性实验,以找出分离,重建和细节之间的关系表现。此外,提出了无监督的$ \ beta $ -capsnet和相应的动态路由算法,以学习范围的方式,以一种无监督的方式学习解散胶囊,广泛的经验评估表明我们的$ \ beta $ -CAPPAPSNET可实现的是先进的分离性截止性性能比较在监督和无监督场景中的几个复杂数据集上的CAPSNET和各种基线。
translated by 谷歌翻译
深神经网络(DNN)和决策树(DTS)都是最先进的分类器。DNN由于其表示性学习能力而表现良好,而DTS在计算上是有效的,因为它们沿着一条途径(根到叶子)进行推理,该推理取决于输入数据。在本文中,我们介绍了二元树结构化神经网络的决策者(DN)。我们提出了一种系统的方法,将现有DNN转换为DN,以创建原始模型的轻量级版本。Decisionet竭尽全力 - 它使用神经模块来执行代表性学习,并利用其树结构仅执行一部分计算。我们评估了各种DN体系结构,以及他们在FashionMnist,CIFAR10和CIFAR100数据集上的相应基线模型。我们表明,DN变体具有相似的精度,同时显着降低了原始网络的计算成本。
translated by 谷歌翻译
使用卷积神经网络(CNN)已经显着改善了几种图像处理任务,例如图像分类和对象检测。与Reset和Abseralnet一样,许多架构在创建时至少在一个数据集中实现了出色的结果。培训的一个关键因素涉及网络的正规化,这可以防止结构过度装备。这项工作分析了在过去几年中开发的几种正规化方法,显示了不同CNN模型的显着改进。该作品分为三个主要区域:第一个称为“数据增强”,其中所有技术都侧重于执行输入数据的更改。第二个,命名为“内部更改”,旨在描述修改神经网络或内核生成的特征映射的过程。最后一个称为“标签”,涉及转换给定输入的标签。这项工作提出了与关于正则化的其他可用调查相比的两个主要差异:(i)第一个涉及在稿件中收集的论文并非超过五年,并第二个区别是关于可重复性,即所有作品此处推荐在公共存储库中可用的代码,或者它们已直接在某些框架中实现,例如Tensorflow或Torch。
translated by 谷歌翻译
深度卷积神经网络在各种计算机视觉任务上表现出色,但是它们容易从训练信号中拾取虚假相关性。所谓的“快捷方式”可以在学习过程中发生,例如,当图像数据中存在特定频率与输出预测相关的特定频率时。高频和低频都可以是由图像采集引起的潜在噪声分布的特征,而不是与有关图像内容的任务相关信息。学习与此特征噪声相关的功能的模型不会很好地推广到新数据。在这项工作中,我们提出了一种简单而有效的训练策略,频率辍学,以防止卷积神经网络从学习频率特异性成像功能中。我们在训练过程中采用了特征图的随机过滤,该特征地图充当特征级别的正则化。在这项研究中,我们考虑了常见的图像处理过滤器,例如高斯平滑,高斯(Gaussian)的拉普拉斯(Laplacian)和Gabor过滤。我们的培训策略是模型不合时宜的,可用于任何计算机视觉任务。我们证明了使用计算机视觉和医学成像数据集在一系列流行架构和多个任务中的频率辍学的有效性。我们的结果表明,所提出的方法不仅提高了预测准确性,而且还提高了针对领域转移的鲁棒性。
translated by 谷歌翻译
半监督学习方法已成为对打击获得大量注释数据的挑战的活跃研究领域。为了提高半监督学习方法表现的目标,我们提出了一种新颖的框架,Hiematch,一种半监督方法,利用分层信息来降低标签成本并表现以及vanilla半监督学习方法。分层信息通常是具有细粒标签的粗标签(例如,啄木鸟)的粗标签(例如,啄木鸟)的现有知识(例如,柔软的啄木鸟或金朝啄木鸟)。但是,尚未探讨使用使用粗类标签来改进半监督技术的监督。在没有细粒度的标签的情况下,Himatch利用标签层次结构,并使用粗级标签作为弱监控信号。此外,Himatch是一种改进任何半熟的学习框架的通用方法,我们使用我们的结果在最近的最先进的技术Mixmatch和Fixmatch上展示了这一点。我们评估了在两个基准数据集,即CiFar-100和Nabirds上的Himatch疗效。与MixMatch相比,HOMACHACT可以在CIFAR-100上减少50%的粒度标签50%的用量,仅在前1个精度的边缘下降0.59%。代码:https://github.com/07agarg/hiermatch.
translated by 谷歌翻译
分层分类旨在将对象对类别的层次进行。例如,可以根据订单,家庭和物种的三级层次分类来分类鸟类。现有方法通过将其解耦为几个多级分类任务来常见地解决分层分类。但是,这种多任务学习策略未能充分利用不同层次结构的各种类别之间的相关性。在本文中,我们提出了基于深度学习的统一概率框架的标签层次转换,以解决层次分类。具体地,我们明确地学习标签层次转换矩阵,其列向量表示两个相邻层次结构之间的类的条件标签分布,并且可以能够编码嵌入类层次结构中的相关性。我们进一步提出了混淆损失,这鼓励分类网络在训练期间学习不同标签层次结构的相关性。所提出的框架可以适用于任何现有的深网络,只有轻微的修改。我们尝试具有各种层次结构的三个公共基准数据集,结果证明了我们的方法超出现有技术的优势。源代码将公开可用。
translated by 谷歌翻译
当然,细粒度的识别,例如车辆识别或鸟类分类,具有特定的分层标签,其中精细类别总是难以分类而不是粗作品。然而,最近的大多数基于深度学习的方法都忽略了细粒物体的语义结构,并且不利用传统的细粒度识别技术(例如,粗致细的分类)。在本文中,我们提出了一种具有双分支网络(粗分支和细枝)的新颖框架,即语义双线性汇集,用于使用分级标签树进行细粒度识别。该框架可以自适应地从层级中学习语义信息。具体而言,我们设计了通过考虑相邻水平与不同粗级别的样本之间的距离来完全利用语义前导者来充分利用语义前导者的训练的广义交叉熵损失。此外,我们的方法在测试时仅利用细分分支,以便在测试时间内增加开销。实验结果表明,我们的提出方法在四个公共数据集上实现了最先进的性能。
translated by 谷歌翻译
Image Classification中的无监督域适应(UDA)仍然是一个很大的挑战。在现有的UDA图像数据集中,通常以扁平的方式组织类,其中可以训练普通分类器。然而在某些情况下,平面类来自一些基本类。例如,Buggies属于类鸟。我们定义类别的分类任务,其中类具有上述特征,并且平面类和基类被分级地组织为分层图像分类。直观地,利用这种分层结构将受益分层图像分类,例如,两个容易混淆的类可以属于完全不同的基类。在本文中,我们通过从标签层次结构中学到的融合功能来改善分类的性能。具体而言,我们训练由分层标签和UDA技术监督的特征提取器,它将输出输入图像的多个功能。随后将该特征连接以预测最优质的粒度。本研究与名为Lego-15的新数据集进行。由乐高砖的合成图像和真实图像组成,乐高 - 15数据集包含15级砖块。每个类源自粗级标签和中级标签。例如,类别“85080”与砖(粗略)和砖(中间)相关联。在此数据集中,我们证明我们的方法在分层图像分类中对UDA的基线进行了一致的改进。广泛的消融和变体研究提供了进入新数据集的见解和研究算法。
translated by 谷歌翻译
In this study, we systematically investigate the impact of class imbalance on classification performance of convolutional neural networks (CNNs) and compare frequently used methods to address the issue. Class imbalance is a common problem that has been comprehensively studied in classical machine learning, yet very limited systematic research is available in the context of deep learning. In our study, we use three benchmark datasets of increasing complexity, MNIST, CIFAR-10 and ImageNet, to investigate the effects of imbalance on classification and perform an extensive comparison of several methods to address the issue: oversampling, undersampling, two-phase training, and thresholding that compensates for prior class probabilities. Our main evaluation metric is area under the receiver operating characteristic curve (ROC AUC) adjusted to multi-class tasks since overall accuracy metric is associated with notable difficulties in the context of imbalanced data. Based on results from our experiments we conclude that (i) the effect of class imbalance on classification performance is detrimental; (ii) the method of addressing class imbalance that emerged as dominant in almost all analyzed scenarios was oversampling; (iii) oversampling should be applied to the level that completely eliminates the imbalance, whereas the optimal undersampling ratio depends on the extent of imbalance; (iv) as opposed to some classical machine learning models, oversampling does not cause overfitting of CNNs; (v) thresholding should be applied to compensate for prior class probabilities when overall number of properly classified cases is of interest.
translated by 谷歌翻译
We propose deeply-supervised nets (DSN), a method that simultaneously minimizes classification error and improves the directness and transparency of the hidden layer learning process. We focus our attention on three aspects of traditional convolutional-neuralnetwork-type (CNN-type) architectures: (1) transparency in the effect intermediate layers have on overall classification; (2) discriminativeness and robustness of learned features, especially in early layers; (3) training effectiveness in the face of "vanishing" gradients. To combat these issues, we introduce "companion" objective functions at each hidden layer, in addition to the overall objective function at the output layer (an integrated strategy distinct from layer-wise pretraining). We also analyze our algorithm using techniques extended from stochastic gradient methods. The advantages provided by our method are evident in our experimental results, showing state-of-the-art performance on MNIST, CIFAR-10, CIFAR-100, and SVHN.
translated by 谷歌翻译
卷积神经网络(CNN)已在医学图像分割方面取得了有希望的结果。但是,CNN需要大量的培训数据,并且无法处理姿势和对象的变形。此外,它们的合并层倾向于丢弃重要信息,例如位置以及CNN对旋转和仿射转化敏感。胶囊网络是一种最新的新体系结构,通过用动态路由和卷积步伐替换池层来实现零件整体表示学习的更好的鲁棒性,这在流行任务(例如数字分类和对象细分)上显示了潜在的结果。在本文中,我们提出了一个带有卷积胶囊编码器(称为3DConvCaps)的3D编码器网络,以学习具有卷积层的低级特征(短距离注意),同时用胶囊建模更高级别的特征(远程依赖)层。我们在包括ISEG-2017,Hippocampus和Cardiac在内的多个数据集上进行的实验表明,我们的3D 3DConvcaps网络的表现非常优于先前的胶囊网络和3D-UNET。我们进一步进行了在卷积层和胶囊层的各种配置下在合同和扩展路径的各种配置下进行网络效率和分割性能的消融研究。
translated by 谷歌翻译
Transformers are becoming increasingly popular due to their superior performance over conventional convolutional neural networks(CNNs). However, transformers usually require a much larger amount of memory to train than CNNs, which prevents their application in many low resource settings. Local learning, which divides the network into several distinct modules and trains them individually, is a promising alternative to the end-to-end (E2E) training approach to reduce the amount of memory for training and to increase parallelism. This paper is the first to apply Local Learning on transformers for this purpose. The standard CNN-based local learning method, InfoPro [32], reconstructs the input images for each module in a CNN. However, reconstructing the entire image does not generalize well. In this paper, we propose a new mechanism for each local module, where instead of reconstructing the entire image, we reconstruct its input features, generated from previous modules. We evaluate our approach on 4 commonly used datasets and 3 commonly used decoder structures on Swin-Tiny. The experiments show that our approach outperforms InfoPro-Transformer, the InfoPro with Transfomer backbone we introduced, by at up to 0.58% on CIFAR-10, CIFAR-100, STL-10 and SVHN datasets, while using up to 12% less memory. Compared to the E2E approach, we require 36% less GPU memory when the network is divided into 2 modules and 45% less GPU memory when the network is divided into 4 modules.
translated by 谷歌翻译
我们为深度残留网络(RESNETS)提出了一种全球收敛的多级训练方法。设计的方法可以看作是递归多级信任区域(RMTR)方法的新型变体,该方法通过在训练过程中自适应调节迷你批量,在混合(随机确定性)设置中运行。多级层次结构和传输运算符是通过利用动力学系统的观点来构建的,该观点通过重新连接来解释远期传播作为对初始值问题的正向Euler离散化。与传统的培训方法相反,我们的新型RMTR方法还通过有限的内存SR1方法结合了有关多级层次结构各个级别的曲率信息。使用分类和回归领域的示例,对我们的多级训练方法的总体性能和收敛属性进行了数值研究。
translated by 谷歌翻译
如今,基于CNN的架构在学习和提取功能方面的图像分类成功使它们如此受欢迎,但是当我们使用最先进的模型对嘈杂和低质量的图像进行分类时,图像分类的任务变得更加具有挑战性。为了解决这个问题,我们提出了一种新颖的图像分类体系结构,该体系结构以模糊和嘈杂的低分辨率图像学习细节。为了构建我们的新块,我们使用了RES连接和Inception模块想法的想法。使用MNIST数据集,我们进行了广泛的实验,表明引入的体系结构比其他最先进的卷积神经网络更准确,更快。由于我们的模型的特殊特征,它可以通过更少的参数获得更好的结果。
translated by 谷歌翻译