大多数知识图(kgs)是不完整的,这激发了一个重要的研究主题,以自动补充知识图。但是,对知识图完成(KGC)模型的评估通常会忽略不完整性 - 测试集中的事实对所有未知三重态进行了排名,这些三胞胎可能包含大量不包括KG中的丢失事实。将所有未知的三胞胎视为false被称为封闭世界的假设。这种封闭世界的假设可能会对评估指标的公平性和一致性产生负面影响。在本文中,我们研究了在更现实的环境下的KGC评估,即开放世界的假设,其中未知的三胞胎被认为包括许多未包含在培训或测试集中的缺失事实。对于当前最常用的指标,例如平均值等级(MRR)和HITS@K,我们指出,在开放世界假设下,它们的行为可能是出乎意料的。具体而言,由于没有太多缺失的事实,它们的数字就模型的真实强度显示出对数趋势,因此,在反映真正的模型改进方面,度量增加可能微不足道。此外,考虑到这一方差,我们表明报告数字中的降解可能会导致不同模型之间的不正确比较,因为更强的模型可能具有较低的度量。我们在理论上和实验上都验证了现象。最后,我们建议解决此问题的可能原因和解决方案。我们的代码和数据可在https://github.com/graphpku/open-world-kg上找到。
translated by 谷歌翻译
多跳跃逻辑推理是在知识图(KGS)上学习领域的一个已建立问题。它涵盖了单跳连接预测以及其他更复杂的逻辑查询类型。现有的算法仅在经典的三重基图上运行,而现代KG经常采用超相关的建模范式。在此范式中,键入的边缘可能具有几对键值对,称为限定符,可为事实提供细粒度的环境。在查询中,此上下文修改了关系的含义,通常会减少答案集。经常在现实世界中的应用程序中观察到超相关的查询,并且现有的近似查询答案方法无法使用预选赛对。在这项工作中,我们弥合了这一差距,并将多跳的推理问题扩展到了超级关系的KG,允许解决这一新类型的复杂查询。在图形神经网络和查询嵌入技术的最新进展之下,我们研究了如何嵌入和回答超相关的连词查询。除此之外,我们还提出了一种回答此类查询并在我们的实验中证明的方法,即预选赛可以改善对各种查询模式的查询回答。
translated by 谷歌翻译
在大规模不完整的知识图(kgs)上回答复杂的一阶逻辑(fol)查询是一项重要但挑战性的任务。最近的进步将逻辑查询和KG实体嵌入了相同的空间,并通过密集的相似性搜索进行查询。但是,先前研究中设计的大多数逻辑运算符不满足经典逻辑的公理系统,从而限制了其性能。此外,这些逻辑运算符被参数化,因此需要许多复杂的查询作为训练数据,在大多数现实世界中,这些数据通常很难收集甚至无法访问。因此,我们提出了Fuzzqe,这是一种基于模糊逻辑的逻辑查询嵌入框架,用于回答KGS上的查询。 Fuzzqe遵循模糊逻辑以原则性和无学习的方式定义逻辑运算符,在这种方式中,只有实体和关系嵌入才需要学习。 Fuzzqe可以从标记为训练的复杂逻辑查询中进一步受益。在两个基准数据集上进行的广泛实验表明,与最先进的方法相比,Fuzzqe在回答FOL查询方面提供了明显更好的性能。此外,只有KG链接预测训练的Fuzzqe可以实现与经过额外复杂查询数据训练的人的可比性能。
translated by 谷歌翻译
Answering complex logical queries on incomplete knowledge graphs is a challenging task, and has been widely studied. Embedding-based methods require training on complex queries, and cannot generalize well to out-of-distribution query structures. Recent work frames this task as an end-to-end optimization problem, and it only requires a pretrained link predictor. However, due to the exponentially large combinatorial search space, the optimal solution can only be approximated, limiting the final accuracy. In this work, we propose QTO (Query Tree Optimization) that can efficiently find the exact optimal solution. QTO finds the optimal solution by a forward-backward propagation on the tree-like computation graph, i.e., query tree. In particular, QTO utilizes the independence encoded in the query tree to reduce the search space, where only local computations are involved during the optimization procedure. Experiments on 3 datasets show that QTO obtains state-of-the-art performance on complex query answering, outperforming previous best results by an average of 22%. Moreover, QTO can interpret the intermediate solutions for each of the one-hop atoms in the query with over 90% accuracy.
translated by 谷歌翻译
当前的最佳性能模型用于知识图推理(KGR)将几何学对象或概率分布引入嵌入实体,并将一阶逻辑(fol)查询引入低维矢量空间。它们可以总结为中心尺寸框架(点/框/锥,β/高斯分布等)。但是,它们具有有限的逻辑推理能力。而且很难概括到各种功能,因为中心和大小是一对一的约束,无法具有多个中心或尺寸。为了应对这些挑战,我们相反提出了一个名为“特征逻辑嵌入框架Flex”的新颖的KGR框架,这是第一个KGR框架,它不仅可以真正处理所有运营,包括连词,析取,否定,否定等等,而且还支持各种操作特征空间。具体而言,特征逻辑框架的逻辑部分是基于向量逻辑的,它自然地对所有FOL操作进行了建模。实验表明,FLEX在基准数据集上明显优于现有的最新方法。
translated by 谷歌翻译
知识图表(kgs)以头部关系的形式捕获知识 - 尾部三元组,是许多AI系统中的重要组成部分。 KGS上有两个重要的推理任务:(1)单跳知识图完成,涉及预测公斤中的各个环节; (2),多跳推理,目标是预测哪个kg实体满足给定的逻辑查询。基于嵌入的方法通过首先计算每个实体和关系的嵌入来解决两个任务,然后使用它们形成预测。但是,现有可扩展的KG嵌入框架仅支持单跳知识图完成,并且不能应用于更具挑战性的多跳推理任务。在这里,我们呈现可扩展的多跳推理(SMORE),这是KGS中单跳和多跳推理的第一个总框架。使用单机略微闪烁可以在FreeBase KG(86米实体,338M边缘)中执行多跳推理,比以前考虑的KGs大1,500倍。粉刷运行时性能的关键是一种新的双向抑制采样,实现了在线培训数据生成的复杂性的平方根降低。此外,SMORE利用异步调度,基于CPU的数据采样,基于GPU的嵌入计算和频繁CPU - GPU IO。 Smore通过2.2倍提高了82倍的吞吐量(即,训练速度),以最小的GPU存储器要求(2GB用于训练86M节点FreeBase上的400微米嵌入),并达到与GPU的数量接近线性加速。此外,在更简单的单跳知识图形完成任务中,Smore实现了对单个GPU和多GPU设置的最先进框架的可比或更好的运行时间性能。
translated by 谷歌翻译
在知识图上回答复杂的一阶逻辑(FOL)查询是多跳推理的基本任务。传统的符号方法穿越完整的知识图来提取答案,从而为每个步骤提供良好的解释。最近的神经方法学习复杂查询的几何嵌入。这些方法可以推广到不完整的知识图,但是它们的推理过程很难解释。在本文中,我们提出了图形神经网络查询执行器(GNN-QE),这是一种神经符号模型,享有两全其美的优势。 GNN-QE将复杂的数据分解为模糊集的关系预测和逻辑操作,这为中间变量提供了解释性。为了理解丢失的链接,GNN-QE从知识图完成中调整了图神经网络以执行关系预测,并使用产品模糊逻辑对逻辑操作进行建模。 3个数据集的实验表明,GNN-QE在回答FOL查询时显着改善了先前的最新模型。同时,GNN-QE可以在没有明确监督的情况下预测答案的数量,并为中间变量提供可视化。
translated by 谷歌翻译
大型知识图(KGS)提供人类知识的结构化表示。然而,由于不可能包含所有知识,KGs通常不完整。基于现有事实的推理铺平了一种发现缺失事实的方法。在本文中,我们研究了了解完成缺失事实三胞胎的知识图表的推理的学习逻辑规则问题。学习逻辑规则将具有很强的解释性的模型以及概括到类似任务的能力。我们提出了一种称为MPLR的模型,可以改进现有模型以完全使用培训数据,并且考虑多目标方案。此外,考虑到缺乏评估模型表现和开采规则的质量,我们进一步提出了两名新颖的指标来帮助解决问题。实验结果证明我们的MPLR模型在五个基准数据集中优于最先进的方法。结果还证明了指标的有效性。
translated by 谷歌翻译
Formulating and answering logical queries is a standard communication interface for knowledge graphs (KGs). Alleviating the notorious incompleteness of real-world KGs, neural methods achieved impressive results in link prediction and complex query answering tasks by learning representations of entities, relations, and queries. Still, most existing query answering methods rely on transductive entity embeddings and cannot generalize to KGs containing new entities without retraining the entity embeddings. In this work, we study the inductive query answering task where inference is performed on a graph containing new entities with queries over both seen and unseen entities. To this end, we devise two mechanisms leveraging inductive node and relational structure representations powered by graph neural networks (GNNs). Experimentally, we show that inductive models are able to perform logical reasoning at inference time over unseen nodes generalizing to graphs up to 500% larger than training ones. Exploring the efficiency--effectiveness trade-off, we find the inductive relational structure representation method generally achieves higher performance, while the inductive node representation method is able to answer complex queries in the inference-only regime without any training on queries and scales to graphs of millions of nodes. Code is available at https://github.com/DeepGraphLearning/InductiveQE.
translated by 谷歌翻译
知识图(kg)嵌入是一种主流方法,用于推理不完整的kg。但是,受其固有浅层和静态体系结构的限制,它们几乎无法处理对复杂逻辑查询的不断上升,这些查询包括逻辑运算符,估算的边缘,多个源实体和未知的中间实体。在这项工作中,我们通过掩盖的预训练和微调策略介绍了知识图变压器(kgtransformer)。我们设计了一种kg三重变换方法,以使变压器能够处理kg,这是通过稀疏(MOE)稀疏激活的混合物进一步增强的。然后,我们将复杂的逻辑查询作为掩盖预测提出,并引入了两阶段掩盖的预训练策略,以提高可转移性和概括性。在两个基准上进行的广泛实验表明,KGTRANSFORMER可以始终超过基于KG的基准和九个内域和室外推理任务的高级编码。此外,KGTRANSFORMER可以通过提供解释给定答案的完整推理路径来解释性。
translated by 谷歌翻译
最近公布的知识图形嵌入模型的实施,培训和评估的异质性已经公平和彻底的比较困难。为了评估先前公布的结果的再现性,我们在Pykeen软件包中重新实施和评估了21个交互模型。在这里,我们概述了哪些结果可以通过其报告的超参数再现,这只能以备用的超参数再现,并且无法再现,并且可以提供洞察力,以及为什么会有这种情况。然后,我们在四个数据集上进行了大规模的基准测试,其中数千个实验和24,804 GPU的计算时间。我们展示了最佳实践,每个模型的最佳配置以及可以通过先前发布的最佳配置进行改进的洞察。我们的结果强调了模型架构,训练方法,丢失功能和逆关系显式建模的组合对于模型的性能来说至关重要,而不仅由模型架构决定。我们提供了证据表明,在仔细配置时,若干架构可以获得对最先进的结果。我们制定了所有代码,实验配置,结果和分析,导致我们在https://github.com/pykeen/pykeen和https://github.com/pykeen/benchmarking中获得的解释
translated by 谷歌翻译
多年来,旨在从已知事实中推断出新结论的知识图(KGS)的推理主要集中在静态KG上。现实生活中知识的不断增长提出了使能够扩大KGS的归纳推理能力的必要性。现有的归纳工作假设新实体都在批处理中一次出现,这过度简化了新实体不断出现的实际情况。这项研究探讨了一个更现实,更具挑战性的环境,新实体分为多批次。我们提出了一个基于步行的归纳推理模型来解决新环境。具体而言,具有自适应关系聚合的图形卷积网络旨在使用其邻近关系编码和更新实体。为了捕捉不同的邻居的重要性,我们在聚合过程中采用了一种查询反馈注意机制。此外,为了减轻新实体的稀疏链接问题,我们提出了一种链接增强策略,以将可信赖的事实添加到KGS中。我们构建了三个新数据集,用于模拟此多批次出现方案。实验结果表明,我们所提出的模型优于基于最先进的基于嵌入的,基于步行的基于步行和基于规则的模型。
translated by 谷歌翻译
知识图(kgs)在许多应用程序中越来越重要的基础架构,同时患有不完整问题。 KG完成任务(KGC)自动根据不完整的KG预测缺失的事实。但是,现有方法在现实情况下表现不佳。一方面,他们的性能将巨大的降解,而kg的稀疏性越来越大。另一方面,预测的推理过程是一个不可信的黑匣子。本文提出了一个稀疏kgc的新型可解释模型,将高阶推理组合到图形卷积网络中,即HOGRN。它不仅可以提高减轻信息不足问题的概括能力,而且还可以在保持模型的有效性和效率的同时提供可解释性。有两个主要组件无缝集成以进行关节优化。首先,高阶推理成分通过捕获关系之间的内源性相关性来学习高质量的关系表示。这可以反映逻辑规则,以证明更广泛的事实是合理的。其次,更新组件的实体利用无重量的图形卷积网络(GCN)有效地模拟具有可解释性的KG结构。与常规方法不同,我们在没有其他参数的情况下在关系空间中进行实体聚合和基于设计组成的注意。轻巧的设计使HOGRN更适合稀疏设置。为了进行评估,我们进行了广泛的实验 - HOGRN对几个稀疏KG的结果表现出了令人印象深刻的改善(平均为9%的MRR增益)。进一步的消融和案例研究证明了主要成分的有效性。我们的代码将在接受后发布。
translated by 谷歌翻译
对于知识图形完成,存在两种主要类型的预测模型:基于图形嵌入的一个,以及基于关系路径规则诱导。它们具有不同的优缺点。为了利用这两种类型,最近提出了混合模型。其中一个混合模型,uniker,交替通过关系路径规则增强培训数据并列进嵌入模型。尽管其预测准确性很高,但它不充分利用关系路径规则,因为它忽略了低置信度规则,以保持增强数据的质量。为了缓解此限制,我们通过关系路径规则和基于置信性的增强数据提出转换数据增强。结果和分析表明,我们所提出的方法通过增强包括与它们类似的真实答案或实体的数据来有效提高嵌入模型的性能。
translated by 谷歌翻译
捕获关系的构图模式是知识图表完成中的重要任务。它还是迈向多跳推理的基本步骤,以了解学到的知识。以前,已经开发了几种基于旋转的翻译方法来使用一系列复值对角线矩阵的产品来模拟复合关系。然而,这些方法倾向于对复合关系进行几种超薄假设,例如,强迫他们独立于实体和缺乏语义等级的交换。为了系统地解决这些问题,我们开发了一种新颖的知识图形嵌入方法,命名为密集,为复杂的关系模式提供改进的建模方案。特别地,我们的方法将每个关系分解成SO(3)基于基于组的旋转操作员和三维(3-D)欧几里德空间中的缩放操作员。这种设计原理导致我们的方法的几个优点:(1)对于复合关系,相应的对角线关系矩阵可以是非换向的,反映了现实世界应用中的主要情景; (2)我们的模型保留了关系运营和实体嵌入之间的自然互动; (3)缩放操作为实体的内在语义层次结构提供建模电力; (4)在参数大小和培训时间方面,以高计算效率实现致密的增强效果; (5)欧几里德空间中的建模实体而不是四元数空间,保持关系模式的直接几何解释。多个基准知识图上的实验结果表明,密集优于当前最先进的模型,以缺少链路预测,尤其是对复合关系。
translated by 谷歌翻译
基于强化学习(RL)的图表行走在导航代理人通过探索多跳关系路径来导航代理以通过不完整的知识图(kg)来自动完成各种推理任务。然而,现有的多跳推理方法仅在短路推理路径上工作,并且倾向于利用增加的路径长度错过目标实体。这对于实际情况中的许多理由任务是不可取的,其中连接源实体的短路不完整的公斤,因此,除非代理能够寻求更多的线索,否则推理性能急剧下降路径。为了解决上述挑战,在本文中,我们提出了一种双代理强化学习框架,该框架列举了两个代理(巨型和矮人),共同走过了公斤,并协同寻找答案。我们的方法通过将其中一个代理(巨型)进行了快速寻找群集路径并为另一代理(DWARF)提供阶段明智的提示来解决长途路径中的推理挑战。最后,对几千克推理基准测试的实验结果表明,我们的方法可以更准确,高效地搜索答案,并且优于大型余量的长路径查询的基于RL的基于RL的方法。
translated by 谷歌翻译
查询嵌入(QE) - 旨在嵌入实体和一阶逻辑(FOL)查询在低维空间中 - 在知识图表中的多跳推理中显示出强大的功率。最近,嵌入实体和具有几何形状的查询成为有希望的方向,因为几何形状可以自然地代表它们之间的答案和逻辑关系。然而,现有的基于几何的模型难以建模否定查询,这显着限制了它们的适用性。为了解决这一挑战,我们提出了一种新型查询嵌入模型,即锥形嵌入式(锥形),即锥形嵌入式(锥形),它是可以处理所有的基于几何的QE模型,包括所有FOL操作,包括结合,分离和否定。具体而言,锥形代表实体和查询作为二维锥体的笛卡尔产品,其中锥体的交叉和联合自然地模拟了结合和分离操作。通过进一步注意到,锥体的补充仍然存在锥体,我们在嵌入空间中设计几何补充运算符进行否定操作。实验表明,锥体在基准数据集上显着优于现有的现有技术。
translated by 谷歌翻译
虽然知识图表包含各种实体的丰富语义知识和它们之间的关系信息,但时间知识图(TKG)进一步表明实体随时间的相互作用。为了研究如何更好地模范TKG,自动时间知识图完成(TKGC)已经获得了很大的兴趣。最近的TKGC方法旨在整合先进的深度学习技术,例如注意机制和变压器,提高模型性能。然而,我们发现与采用各种复杂模块相比,更有利的是更好地利用沿时间轴的全部时间信息。在本文中,我们为TKGC提出了一个简单但强大的图形编码器Targcn。 targcn是参数效率,它广泛利用了整个时间上下文的信息。我们在三个基准数据集执行实验。与最先进的模型相比,我们的模型可以在GDELT数据集中实现42%以上的相对改善。同时,它优于ICEWS05-15数据集的最强大的基线,参数减少约为18.5%。
translated by 谷歌翻译
推理是计算机的基本问题,并且在人工智能中深入研究。在本文中,我们专门针对回答知识图(KGS)的多跳逻辑查询。这是一项复杂的任务,因为在实际情况下,图形往往很大且不完整。以前的大多数作品都无法创建模型,这些模型接受了完整的一阶逻辑(fol)查询,其中包括负查询,并且只能处理有限的查询结构集。此外,大多数方法都呈现只能执行其制作的逻辑操作的逻辑运算符。我们介绍了一组模型,这些模型使用神经网络来创建单点矢量嵌入以回答查询。神经网络的多功能性允许该框架处理连词($ \ wedge $),脱节($ \ vee $)和否定($ \ neg $)运算符的框架查询。我们通过对众所周知的基准数据集进行了广泛的实验,通过实验证明了模型的性能。除了拥有更多多功能运营商外,模型还获得了10 \%的相对增加,而基于单点矢量嵌入的最佳性能状态和比原始方法的相对增加了30 \%。
translated by 谷歌翻译
Knowledge graph (KG) embedding is to embed components of a KG including entities and relations into continuous vector spaces, so as to simplify the manipulation while preserving the inherent structure of the KG. It can benefit a variety of downstream tasks such as KG completion and relation extraction, and hence has quickly gained massive attention. In this article, we provide a systematic review of existing techniques, including not only the state-of-the-arts but also those with latest trends. Particularly, we make the review based on the type of information used in the embedding task. Techniques that conduct embedding using only facts observed in the KG are first introduced. We describe the overall framework, specific model design, typical training procedures, as well as pros and cons of such techniques. After that, we discuss techniques that further incorporate additional information besides facts. We focus specifically on the use of entity types, relation paths, textual descriptions, and logical rules. Finally, we briefly introduce how KG embedding can be applied to and benefit a wide variety of downstream tasks such as KG completion, relation extraction, question answering, and so forth.
translated by 谷歌翻译