Semantic segmentation based on sparse annotation has advanced in recent years. It labels only part of each object in the image, leaving the remainder unlabeled. Most of the existing approaches are time-consuming and often necessitate a multi-stage training strategy. In this work, we propose a simple yet effective sparse annotated semantic segmentation framework based on segformer, dubbed SASFormer, that achieves remarkable performance. Specifically, the framework first generates hierarchical patch attention maps, which are then multiplied by the network predictions to produce correlated regions separated by valid labels. Besides, we also introduce the affinity loss to ensure consistency between the features of correlation results and network predictions. Extensive experiments showcase that our proposed approach is superior to existing methods and achieves cutting-edge performance. The source code is available at \url{https://github.com/su-hui-zz/SASFormer}.
translated by 谷歌翻译
Despite high global prevalence of hepatic steatosis, no automated diagnostics demonstrated generalizability in detecting steatosis on multiple international datasets. Traditionally, hepatic steatosis detection relies on clinicians selecting the region of interest (ROI) on computed tomography (CT) to measure liver attenuation. ROI selection demands time and expertise, and therefore is not routinely performed in populations. To automate the process, we validated an existing artificial intelligence (AI) system for 3D liver segmentation and used it to purpose a novel method: AI-ROI, which could automatically select the ROI for attenuation measurements. AI segmentation and AI-ROI method were evaluated on 1,014 non-contrast enhanced chest CT images from eight international datasets: LIDC-IDRI, NSCLC-Lung1, RIDER, VESSEL12, RICORD-1A, RICORD-1B, COVID-19-Italy, and COVID-19-China. AI segmentation achieved a mean dice coefficient of 0.957. Attenuations measured by AI-ROI showed no significant differences (p = 0.545) and a reduction of 71% time compared to expert measurements. The area under the curve (AUC) of the steatosis classification of AI-ROI is 0.921 (95% CI: 0.883 - 0.959). If performed as a routine screening method, our AI protocol could potentially allow early non-invasive, non-pharmacological preventative interventions for hepatic steatosis. 1,014 expert-annotated liver segmentations of patients with hepatic steatosis annotations can be downloaded here: https://drive.google.com/drive/folders/1-g_zJeAaZXYXGqL1OeF6pUjr6KB0igJX.
translated by 谷歌翻译
Generative Knowledge Graph Construction (KGC) refers to those methods that leverage the sequence-to-sequence framework for building knowledge graphs, which is flexible and can be adapted to widespread tasks. In this study, we summarize the recent compelling progress in generative knowledge graph construction. We present the advantages and weaknesses of each paradigm in terms of different generation targets and provide theoretical insight and empirical analysis. Based on the review, we suggest promising research directions for the future. Our contributions are threefold: (1) We present a detailed, complete taxonomy for the generative KGC methods; (2) We provide a theoretical and empirical analysis of the generative KGC methods; (3) We propose several research directions that can be developed in the future.
translated by 谷歌翻译
回答有关知识图(KG)的复杂查询是一项重要但具有挑战性的任务,因为在推理过程中存在KG不完整问题和级联错误。最近的查询嵌入(QE)方法将实体和关系嵌入kg中,并将一阶逻辑(fol)查询纳入一个低维空间,从而通过密集的相似性搜索来回答查询。但是,以前的作品主要集中在目标答案上,忽略了中间实体的实用性,这对于缓解逻辑查询答案中的级联错误问题至关重要。此外,这些方法通常是用自己的几何或分配嵌入设计的,以处理逻辑运算符,例如联合,交叉路口和否定,并牺牲了基本操作员的准确性 - 投影,他们无法吸收其他嵌入方法,以使其吸收其他嵌入方法楷模。在这项工作中,我们提出了一个神经和象征性的纠缠框架(ENESY),以进行复杂的查询答案,这使神经和象征性推理可以相互增强以减轻级联错误和kg不完整。 Enesy中的投影操作员可以是具有链接预测能力的任何嵌入方法,并且其他FOL操作员无需参数处理。随着神经和象征性推理的结果,合奏中的Enesy答案查询。 Enesy在几个基准上实现了SOTA性能,尤其是在培训模型的设置中,仅具有链接预测任务。
translated by 谷歌翻译
对抗性训练(AT)通常被认为是防御对抗性例子的最有效的方法之一,可能会在很大程度上损害标准绩效,因此对工业规模的生产和应用的有用性有限。令人惊讶的是,这种现象在自然语言处理(NLP)任务中完全相反,在该任务中甚至可以从中受益。我们注意到NLP任务中AT的优点可能来自离散和符号输入空间。为了借用NLP风格的优势,我们提出了离散的对抗训练(DAT)。 DAT利用VQGAN改革图像数据以离散类似文本的输入,即视觉单词。然后,它可以最大程度地减少这种离散图像的最大风险,并具有符号对抗扰动。我们从分布的角度进一步提供了解释,以证明DAT的有效性。作为增强视觉表示的插件技术,DAT可以在多个任务上取得重大改进,包括图像分类,对象检测和自我监督学习。尤其是,该模型通过胶带自动编码(MAE)预先训练并由我们的DAT进行微调,而没有额外的数据可以在Imagenet-C上获得31.40 MCE,并且在Stylized-Imagenet上进行了32.77%的TOP-1准确性,建立了新的状态 - 艺术。该代码将在https://github.com/alibaba/easyrobust上找到。
translated by 谷歌翻译
弱监督的对象本地化是一项具有挑战性的任务,旨在将对象定位具有粗糙注释(例如图像类别)。现有的深网方法主要基于类激活图,该图的重点是突出显示歧视性局部区域,同时忽略了整个对象。此外,基于变压器的技术不断地重点放在阻碍识别完整对象的能力的背景上。为了解决这些问题,我们提出了一种称为令牌改进变压器(TRT)的重新注意事项机制,该机制捕获了对象级语义,以很好地指导本地化。具体而言,TRT引入了一个名为令牌优先级评分模块(TPSM)的新型模块,以抑制背景噪声的效果,同时重点放在目标对象上。然后,我们将类激活图作为语义意识的输入合并,以将注意力图限制为目标对象。在两个基准测试上进行的广泛实验展示了我们提出的方法与现有方法的优势,该方法具有带有图像类别注释的现有方法。源代码可在\ url {https://github.com/su-hui-zz/reattentiontransformer}中获得。
translated by 谷歌翻译
最近的研究表明,在将图神经网络应用于多元时间序列预测中,其中时间序列的相互作用被描述为图形结构,并且变量表示为图节点。沿着这一行,现有方法通常假定确定图神经网络的聚合方式的图形结构(或邻接矩阵)是根据定义或自学来固定的。但是,变量的相互作用在现实情况下可以是动态的和进化的。此外,如果在不同的时间尺度上观察到时间序列的相互作用序列的相互作用大不相同。为了使图形神经网络具有灵活而实用的图结构,在本文中,我们研究了如何对时间序列的进化和多尺度相互作用进行建模。特别是,我们首先提供与扩张的卷积配合的层次图结构,以捕获时间序列之间的比例特定相关性。然后,以经常性的方式构建了一系列邻接矩阵,以表示每一层的不断发展的相关性。此外,提供了一个统一的神经网络来集成上述组件以获得最终预测。这样,我们可以同时捕获成对的相关性和时间依赖性。最后,对单步和多步骤预测任务的实验证明了我们方法比最新方法的优越性。
translated by 谷歌翻译
步骤函数是深神经网络(DNN)最简单,最自然的激活函数之一。由于它计算为1的正变量,而对于其他变量为0,因此其内在特征(例如不连续性,没有可行的亚级别信息)阻碍了其几十年的发展。即使在设计具有连续激活功能的DNN方面有令人印象深刻的工作,可以被视为步骤功能的替代物,它仍然具有某些优势属性,例如对异常值的完全稳健性并能够达到能力预测准确性的最佳学习理论保证。因此,在本文中,我们的目标是用用作激活函数的步骤函数训练DNN(称为0/1 DNNS)。我们首先将0/1 dnns重新加密为不受约束的优化问题,然后通过块坐标下降(BCD)方法解决它。此外,我们为BCD的子问题及其收敛性获得了封闭式解决方案。此外,我们还将$ \ ell_ {2,0} $ - 正则化整合到0/1 DNN中,以加速培训过程并压缩网络量表。结果,所提出的算法在分类MNIST和时尚数据集方面具有高性能。
translated by 谷歌翻译
手写数学表达识别(HMER)是具有许多潜在应用的挑战性任务。 HMER的最新方法通过编码器架构实现了出色的性能。但是,这些方法符合“从一个字符到另一个字符”进行预测的范式,由于数学表达式或厌恶的手写的复杂结构,这不可避免地会产生预测错误。在本文中,我们为HMER提出了一种简单有效的方法,该方法是第一个将语法信息纳入编码器编码器网络的方法。具体而言,我们提出了一组语法规则,用于将每个表达式的乳胶标记序列转换为一个解析树。然后,我们将标记序列预测建模为具有深神经网络的树遍布过程。通过这种方式,提出的方法可以有效地描述表达式的语法上下文,从而减轻HMER的结构预测错误。在三个基准数据集上的实验表明,与先前的艺术相比,我们的方法实现了更好的识别性能。为了进一步验证我们方法的有效性,我们创建了一个大规模数据集,该数据集由从一万个作家中获取的100k手写数学表达图像组成。该工作的源代码,新数据集和预培训的模型将公开可用。
translated by 谷歌翻译
知识图表(kg)的表示学习模型已被证明是有效地编码结构信息并在kgs上进行推理。在本文中,我们提出了一种用于知识图表表示学习的新型预训练 - 然后微调框架,其中kg模型首先用三重分类任务预先培训,然后在特定的下游任务上进行判别微调作为实体类型预测和实体对齐。借鉴典型的预训练语言模型学习深层语境化词表示的一般思想,我们提出了学习预先训练的kg表示与目标三重编码的结构和上下文三元组。实验结果表明,微调SCOP不仅优于下游任务组合的基线的结果,而且还避免了特定于特定的特定模型设计和参数培训。
translated by 谷歌翻译