在计算机视觉中,多标签分类(包括零击的多标签分类)是具有许多真实应用程序的重要任务。在本文中,我们提出了一种新颖的算法,对齐双模态分类器(ADDS),其中包括一个双模式解码器(DM-DECODER),具有视觉和文本特征之间的对齐方式,用于多标签分类任务。此外,我们设计了一种简单但有效的方法,称为金字塔 - 福音,以提高分辨率高的输入的性能。在标准的多标签基准数据集(MS-Coco和NUS范围内)进行的广泛实验表明,我们的方法显着胜过以前的方法,并为常规多标签分类,零发射的多标签提供最先进的性能分类和一种称为单一标签分类的极端情况,其中在单标签数据集(Imagenet-1K,Imagenet-21K)上训练的模型在多标签的模型(MS-Coco和NUS范围内)进行了测试。我们还分析了视觉文本一致性如何有助于提出的方法,验证DM码头的重要性,并证明了金字塔 - 反向视觉变压器的有效性。
translated by 谷歌翻译
How to effectively leverage the plentiful existing datasets to train a robust and high-performance model is of great significance for many practical applications. However, a model trained on a naive merge of different datasets tends to obtain poor performance due to annotation conflicts and domain divergence.In this paper, we attempt to train a unified model that is expected to perform well across domains on several popularity segmentation datasets.We conduct a detailed analysis of the impact on model generalization from three aspects of data augmentation, training strategies, and model capacity.Based on the analysis, we propose a robust solution that is able to improve model generalization across domains.Our solution ranks 2nd on RVC 2022 semantic segmentation task, with a dataset only 1/3 size of the 1st model used.
translated by 谷歌翻译
Recent methods for deep metric learning have been focusing on designing different contrastive loss functions between positive and negative pairs of samples so that the learned feature embedding is able to pull positive samples of the same class closer and push negative samples from different classes away from each other. In this work, we recognize that there is a significant semantic gap between features at the intermediate feature layer and class labels at the final output layer. To bridge this gap, we develop a contrastive Bayesian analysis to characterize and model the posterior probabilities of image labels conditioned by their features similarity in a contrastive learning setting. This contrastive Bayesian analysis leads to a new loss function for deep metric learning. To improve the generalization capability of the proposed method onto new classes, we further extend the contrastive Bayesian loss with a metric variance constraint. Our experimental results and ablation studies demonstrate that the proposed contrastive Bayesian metric learning method significantly improves the performance of deep metric learning in both supervised and pseudo-supervised scenarios, outperforming existing methods by a large margin.
translated by 谷歌翻译
我们介绍了第一个机器学习引力波搜索模拟数据挑战(MLGWSC-1)的结果。在这一挑战中,参与的小组必须从二进制黑洞合并中识别出复杂性和持续时间逐渐嵌入在逐渐更现实的噪声中的引力波信号。 4个提供的数据集中的决赛包含O3A观察的真实噪声,并发出了20秒的持续时间,其中包含进动效应和高阶模式。我们介绍了在提交前从参与者未知的1个月的测试数据中得出的6个输入算法的平均灵敏度距离和运行时。其中4个是机器学习算法。我们发现,最好的基于机器学习的算法能够以每月1个的错误警报率(FAR)的速度(FAR)实现基于匹配过滤的生产分析的敏感距离的95%。相反,对于真实的噪音,领先的机器学习搜索获得了70%。为了更高的范围,敏感距离缩小的差异缩小到某些数据集上选择机器学习提交的范围$ \ geq 200 $以优于传统搜索算法的程度。我们的结果表明,当前的机器学习搜索算法可能已经在有限的参数区域中对某些生产设置有用。为了改善最新的技术,机器学习算法需要降低他们能够检测信号并将其有效性扩展到参数空间区域的虚假警报率,在这些区域中,建模的搜索在计算上很昂贵。根据我们的发现,我们汇编了我们认为,将机器学习搜索提升到重力波信号检测中的宝贵工具,我们认为这是最重要的研究领域。
translated by 谷歌翻译
由于其广泛的应用,尤其是在现场理解领域,因此在3D点云上进行的实例细分一直在吸引越来越多的关注。但是,大多数现有方法都需要完全注释培训数据。在点级的手动准备地面真相标签非常繁琐且劳动密集型。为了解决这个问题,我们提出了一种新颖的弱监督方法RWSEG,该方法仅需要用一个点标记一个对象。有了这些稀疏的标签,我们使用自我注意事项和随机步行引入了一个带有两个分支的统一框架,分别将语义和实例信息分别传播到未知区域。此外,我们提出了一个跨画竞争的随机步行(CGCRW)算法,该算法鼓励不同实例图之间的竞争以解决紧密放置对象中的歧义并改善实例分配的性能。 RWSEG可以生成定性实例级伪标签。 Scannet-V2和S3DIS数据集的实验结果表明,我们的方法通过完全监督的方法实现了可比的性能,并且通过大幅度优于先前的弱监督方法。这是弥合该地区弱和全面监督之间差距的第一项工作。
translated by 谷歌翻译
本文旨在解释刚被二进制标签监督时,深泡检测模型如何学习图像的人工制品特征。为此,从图像匹配的角度提出了三个假设,如下所示。 1. DeepFake检测模型指出了基于既不是与源相关又不相关的视觉概念的真实/假图像,也就是说,考虑到与伪影这样的视觉概念。 2.除了对二进制标签的监督外,DeepFake检测模型还通过训练集中的FST匹配(即匹配的伪造,源,目标图像)隐含地学习与伪影相关的视觉概念。 3.通过原始训练集中的FST匹配,隐式学习的人工构图概念容易受到视频压缩的影响。在实验中,在各种DNN中验证了上述假设。此外,基于这种理解,我们提出了FST匹配的DeepFake检测模型,以提高压缩视频中伪造检测的性能。实验结果表明,我们的方法实现了出色的性能,尤其是在高度压缩的(例如C40)视频上。
translated by 谷歌翻译
自我注意机制是机器学习的重要组成部分,在量子机学习领域的研究相对较少。灵感来自量子算法(VQA)框架和经典的自我意识机制,提出了可以在近期量子计算机上实施的量子自我发项网络(QSAN)。从理论上讲,定义了量子自我注意机制(QSAM),这是对线性化和逻辑化后经典自我注意机制的一种新解释。量子逻辑相似性(QLS)是QSAM的核心之一,它用逻辑操作代替了内部产品的相似性操作,从而可以更好地在量子计算机上执行QSAM。量子位自发项评分矩阵(QBSASM)是另一个核心,它是用于表示输出分布的基于QLS的密度矩阵。实际上,QSAN是根据QSAM框架实现的,并引入了量子坐标的概念以简化电路设计。最后,QSAN在带有少量数据样本的量子计算机上进行了测试,为量子自然语言处理(QNLP)奠定了基础。
translated by 谷歌翻译
在异质图上的自我监督学习(尤其是对比度学习)方法可以有效地摆脱对监督数据的依赖。同时,大多数现有的表示学习方法将异质图嵌入到欧几里得或双曲线的单个几何空间中。这种单个几何视图通常不足以观察由于其丰富的语义和复杂结构而观察到异质图的完整图片。在这些观察结果下,本文提出了一种新型的自我监督学习方法,称为几何对比度学习(GCL),以更好地表示监督数据是不可用时的异质图。 GCL同时观察了从欧几里得和双曲线观点的异质图,旨在强烈合并建模丰富的语义和复杂结构的能力,这有望为下游任务带来更多好处。 GCL通过在局部局部和局部全球语义水平上对比表示两种几何视图之间的相互信息。在四个基准数据集上进行的广泛实验表明,在三个任务上,所提出的方法在包括节点分类,节点群集和相似性搜索在内的三个任务上都超过了强基础,包括无监督的方法和监督方法。
translated by 谷歌翻译
为了以计算有效的方式部署深层模型,经常使用模型量化方法。此外,由于新的硬件支持混合的位算术操作,最近对混合精度量化(MPQ)的研究开始通过搜索网络中不同层和模块的优化位低宽,从而完全利用表示的能力。但是,先前的研究主要是在使用强化学习,神经体系结构搜索等的昂贵方案中搜索MPQ策略,或者简单地利用部分先验知识来进行位于刻度分配,这可能是有偏见和优势的。在这项工作中,我们提出了一种新颖的随机量化量化(SDQ)方法,该方法可以在更灵活,更全球优化的空间中自动学习MPQ策略,并具有更平滑的梯度近似。特别是,可区分的位宽参数(DBP)被用作相邻位意选择之间随机量化的概率因素。在获取最佳MPQ策略之后,我们将进一步训练网络使用熵感知的bin正则化和知识蒸馏。我们广泛评估了不同硬件(GPU和FPGA)和数据集的多个网络的方法。 SDQ的表现优于所有最先进的混合或单个精度量化,甚至比较低的位置量化,甚至比各种重新网络和Mobilenet家族的全精度对应物更好,这表明了我们方法的有效性和优势。
translated by 谷歌翻译
已经开发了许多本体论,即描述逻辑(DL)知识库,以提供有关各个领域的丰富知识。本体论由一个ABOX,即两个实体之间或一个概念与实体之间的断言公理组成,以及Tbox,即两个概念之间的术语公理。神经逻辑推理(NLR)是探索此类知识库的基本任务,该任务旨在根据查询和答案的分布式表示,以逻辑操作来回答多跳的查询。尽管以前的NLR方法可以给出特定的实体级答案,即ABOX答案,但它们无法提供描述性概念级答案,即Tbox答案,其中每个概念都是对一组实体的描述。换句话说,以前的NLR方法在忽略Tbox时唯一的原因是本体论的Abox。特别是,提供Tbox答案可以通过描述性概念来推断每个查询的解释,这使用户可以理解答案,并且在应用本体论领域具有极大的有用性。在这项工作中,我们提出了整个Tbox和Abox(TA-NLR)的神经逻辑推理的问题,该问题解决了需要解决在概念上纳入,代表和操作时需要解决的挑战。我们提出了一种原始解决方案,名为Ta-nlr的TAR。首先,我们合并了基于本体论公理的描述以提供概念的来源。然后,我们将概念和查询表示为模糊集,即其元素具有成员程度的集合,以与实体桥接概念和查询。此外,我们设计了涉及概念的概念的概念和查询以进行优化和推理的概念的设计操作员。两个现实世界数据集的广泛实验结果证明了TAR对TA-NLR的有效性。
translated by 谷歌翻译