Over the past few years, large knowledge bases have been constructed to store massive amounts of knowledge. However, these knowledge bases are highly incomplete, for example, over 70% of people in Freebase have no known place of birth. To solve this problem, we propose a query-driven knowledge base completion system with multimodal fusion of unstructured and structured information. To effectively fuse unstructured information from the Web and structured information in knowledge bases to achieve good performance, our system builds multimodal knowledge graphs based on question answering and rule inference. We propose a multimodal path fusion algorithm to rank candidate answers based on different paths in the multimodal knowledge graphs, achieving much better performance than question answering, rule inference and a baseline fusion algorithm. To improve system efficiency, query-driven techniques are utilized to reduce the runtime of our system, providing fast responses to user queries. Extensive experiments have been conducted to demonstrate the effectiveness and efficiency of our system.
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译
对于知识图形完成,存在两种主要类型的预测模型:基于图形嵌入的一个,以及基于关系路径规则诱导。它们具有不同的优缺点。为了利用这两种类型,最近提出了混合模型。其中一个混合模型,uniker,交替通过关系路径规则增强培训数据并列进嵌入模型。尽管其预测准确性很高,但它不充分利用关系路径规则,因为它忽略了低置信度规则,以保持增强数据的质量。为了缓解此限制,我们通过关系路径规则和基于置信性的增强数据提出转换数据增强。结果和分析表明,我们所提出的方法通过增强包括与它们类似的真实答案或实体的数据来有效提高嵌入模型的性能。
translated by 谷歌翻译
全球DataSphere快速增加,预计将达到20251年的175个Zettabytes。但是,大多数内容都是非结构化的,并且无法通过机器可以理解。将此数据构建到知识图中,使得智能应用程序具有诸如深度问题的智能应用,推荐系统,语义搜索等。知识图是一种新兴技术,允许使用内容与上下文一起逻辑推理和揭示新的洞察。因此,它提供了必要的语法和推理语义,使得能够解决复杂的医疗保健,安全,金融机构,经济学和业务问题。作为一项结果,企业正在努力建设和维护知识图表,以支持各种下游应用。手动方法太贵了。自动化方案可以降低建设知识图的成本,高达15-250次。本文批评了最先进的自动化技术,以自主地生成近乎人类的近乎人类的质量。此外,它突出了需要解决的不同研究问题,以提供高质量的知识图表
translated by 谷歌翻译
大型知识图(KGS)提供人类知识的结构化表示。然而,由于不可能包含所有知识,KGs通常不完整。基于现有事实的推理铺平了一种发现缺失事实的方法。在本文中,我们研究了了解完成缺失事实三胞胎的知识图表的推理的学习逻辑规则问题。学习逻辑规则将具有很强的解释性的模型以及概括到类似任务的能力。我们提出了一种称为MPLR的模型,可以改进现有模型以完全使用培训数据,并且考虑多目标方案。此外,考虑到缺乏评估模型表现和开采规则的质量,我们进一步提出了两名新颖的指标来帮助解决问题。实验结果证明我们的MPLR模型在五个基准数据集中优于最先进的方法。结果还证明了指标的有效性。
translated by 谷歌翻译
Relational machine learning studies methods for the statistical analysis of relational, or graph-structured, data. In this paper, we provide a review of how such statistical models can be "trained" on large knowledge graphs, and then used to predict new facts about the world (which is equivalent to predicting new edges in the graph). In particular, we discuss two fundamentally different kinds of statistical relational models, both of which can scale to massive datasets. The first is based on latent feature models such as tensor factorization and multiway neural networks. The second is based on mining observable patterns in the graph. We also show how to combine these latent and observable models to get improved modeling power at decreased computational cost. Finally, we discuss how such statistical models of graphs can be combined with text-based information extraction methods for automatically constructing knowledge graphs from the Web. To this end, we also discuss Google's Knowledge Vault project as an example of such combination.
translated by 谷歌翻译
由于关键字相关互联网页面的返回,根据关键字检索的搜索引擎不再适应智能互联网时代的信息获取方式。如何快速,准确和有效地获取来自大规模互联网数据的用户所需的信息已成为迫切需要解决的关键问题之一。我们提出了一个基于结构化KB和非结构化数据的智能质疑答案系统,称为OpenQA,其中用户可以提供查询问题,并且模型可以快速向用户提供准确的答案。我们基于语义解析和深度表示学习的KBQA结构化问题回答,以及基于检索和神经机阅读理解的两级非结构化问题回答,并通过OpenQA中的变压器应答选择模块回归最高概率的最终答案。我们对我们构建的数据集进行了初步实验,实验结果证明了提出的智能问题应答系统的有效性。与此同时,OpenQA平台的每个模块的核心技术仍处于学术热点的最前沿,并基于这些学术热点进一步探索了OpenQA的理论本质和富集。
translated by 谷歌翻译
在商业航空域中,有大量文件,例如事故报告(NTSB,ASRS)和监管指令(ADS)。有必要有效地访问这些多样化的存储库,以便在航空业中的服务需求,例如维护,合规性和安全性。在本文中,我们提出了一个基于深度学习的知识图(kg)基于深度学习(DL)的问题答案(QA)航空安全系统。我们从飞机事故报告中构建了知识图,并向研究人员社区贡献了这一资源。该资源的功效由上述质量保证系统测试和证明。根据上述文档构建的自然语言查询将转换为SPARQL(RDF图数据库的接口语言)查询并回答。在DL方面,我们有两个不同的质量检查模型:(i)BERT QA,它是通道检索(基于句子的)和问题答案(基于BERT)的管道,以及(ii)最近发布的GPT-3。我们根据事故报告创建的一系列查询评估系统。我们组合的QA系统在GPT-3上的准确性增长了9.3%,比Bert QA增加了40.3%。因此,我们推断出KG-DL的性能比单一表现更好。
translated by 谷歌翻译
知识基础问题回答(KBQA)旨在通过知识库(KB)回答问题。早期研究主要集中于回答有关KB的简单问题,并取得了巨大的成功。但是,他们在复杂问题上的表现远非令人满意。因此,近年来,研究人员提出了许多新颖的方法,研究了回答复杂问题的挑战。在这项调查中,我们回顾了KBQA的最新进展,重点是解决复杂问题,这些问题通常包含多个主题,表达复合关系或涉及数值操作。详细说明,我们从介绍复杂的KBQA任务和相关背景开始。然后,我们描述用于复杂KBQA任务的基准数据集,并介绍这些数据集的构建过程。接下来,我们提出两个复杂KBQA方法的主流类别,即基于语义解析的方法(基于SP)的方法和基于信息检索的方法(基于IR)。具体而言,我们通过流程设计说明了他们的程序,并讨论了它们的主要差异和相似性。之后,我们总结了这两类方法在回答复杂问题时会遇到的挑战,并解释了现有工作中使用的高级解决方案和技术。最后,我们结论并讨论了与复杂的KBQA有关的几个有希望的方向,以进行未来的研究。
translated by 谷歌翻译
Knowledge graph (KG) embedding is to embed components of a KG including entities and relations into continuous vector spaces, so as to simplify the manipulation while preserving the inherent structure of the KG. It can benefit a variety of downstream tasks such as KG completion and relation extraction, and hence has quickly gained massive attention. In this article, we provide a systematic review of existing techniques, including not only the state-of-the-arts but also those with latest trends. Particularly, we make the review based on the type of information used in the embedding task. Techniques that conduct embedding using only facts observed in the KG are first introduced. We describe the overall framework, specific model design, typical training procedures, as well as pros and cons of such techniques. After that, we discuss techniques that further incorporate additional information besides facts. We focus specifically on the use of entity types, relation paths, textual descriptions, and logical rules. Finally, we briefly introduce how KG embedding can be applied to and benefit a wide variety of downstream tasks such as KG completion, relation extraction, question answering, and so forth.
translated by 谷歌翻译
知识图表(kg)作为从大型自然语言文本语料库中举行蒸馏信息的伟大工具。查询知识图表的自然语言问题对于这些信息的人类消费至关重要。通常通过将自然语言查询转换为结构化查询,然后在kg上触发结构化查询来解决此问题。在文献中的知识图中直接回答模型很少。查询转换模型和直接模型都需要与知识图表的域有关的特定培训数据。在这项工作中,我们将通过知识图表的自然语言问题转换为前提假设对的推理问题。使用培训的深度学习模型进行转换后的代理推理问题,我们为原始自然语言查询问题提供了解决方案。我们的方法在MetaQA数据集中实现了超过90%的准确性,击败现有的最先进。我们还提出了一种推论称为分层复发路径编码器(HRPE)的模型。可以微调推断模型以跨越跨越培训数据的域使用。我们的方法不需要大型域特定的培训数据来查询来自不同域的新知识图表。
translated by 谷歌翻译
Recent years have witnessed the resurgence of knowledge engineering which is featured by the fast growth of knowledge graphs. However, most of existing knowledge graphs are represented with pure symbols, which hurts the machine's capability to understand the real world. The multi-modalization of knowledge graphs is an inevitable key step towards the realization of human-level machine intelligence. The results of this endeavor are Multi-modal Knowledge Graphs (MMKGs). In this survey on MMKGs constructed by texts and images, we first give definitions of MMKGs, followed with the preliminaries on multi-modal tasks and techniques. We then systematically review the challenges, progresses and opportunities on the construction and application of MMKGs respectively, with detailed analyses of the strength and weakness of different solutions. We finalize this survey with open research problems relevant to MMKGs.
translated by 谷歌翻译
在过去的几年中,临床笔记中的问题回答(QA)引起了很多关注。临床领域中现有的机器阅读理解方法只能处理有关单个临床文本的问题,并且无法检索有关多个患者及其临床笔记的信息。为了处理更复杂的问题,我们旨在从临床注释中创建知识库,以将不同的患者和临床笔记联系起来,并进行知识基础问题答案(KBQA)。根据N2C2数据集中可用的专家注释,我们首先创建了ClinicalKBQA数据集,其中包括大约9K QA对,并使用300多个问题模板涵盖了有关七个医学主题的问题。然后,我们研究了KBQA的一种基于注意力的方面推理(AAR)方法,并分析了答案的不同方面(例如,实体,类型,路径和上下文)对预测的影响。由于设计精良的编码器和注意力机制,AAR方法可实现更好的性能。从我们的实验中,我们发现这两个方面,类型和路径都使模型能够识别满足一般条件的答案,并产生较低的精度和更高的回忆。另一方面,各个方面,实体和上下文通过特定于节点的信息限制答案,并导致更高的精度和较低的回忆。
translated by 谷歌翻译
机器学习方法尤其是深度神经网络取得了巨大的成功,但其中许多往往依赖于一些标记的样品进行训练。在真实世界的应用中,我们经常需要通过例如具有新兴预测目标和昂贵的样本注释的动态上下文来解决样本短缺。因此,低资源学习,旨在学习具有足够资源(特别是培训样本)的强大预测模型,现在正在被广泛调查。在所有低资源学习研究中,许多人更喜欢以知识图(kg)的形式利用一些辅助信息,这对于知识表示变得越来越受欢迎,以减少对标记样本的依赖。在这项调查中,我们非常全面地审查了90美元的报纸关于两个主要的低资源学习设置 - 零射击学习(ZSL)的预测,从未出现过训练,而且很少拍摄的学习(FSL)预测的新类仅具有可用的少量标记样本。我们首先介绍了ZSL和FSL研究中使用的KGS以及现有的和潜在的KG施工解决方案,然后系统地分类和总结了KG感知ZSL和FSL方法,将它们划分为不同的范例,例如基于映射的映射,数据增强,基于传播和基于优化的。我们接下来呈现了不同的应用程序,包括计算机视觉和自然语言处理中的kg增强预测任务,还包括kg完成的任务,以及每个任务的一些典型评估资源。我们最终讨论了一些关于新学习和推理范式的方面的一些挑战和未来方向,以及高质量的KGs的建设。
translated by 谷歌翻译
知识图表(KGS)是真实世界事实的结构化表示,是融合人类知识的智能数据库,可以帮助机器模仿人类问题的方法。然而,由于快速迭代的性质以及数据的不完整,KGs通常是巨大的,并且在公斤上有不可避免的事实。对于知识图链接的预测是针对基于现有的知识推理来完成缺少事实的任务。广泛研究了两个主要的研究流:一个学习可以捕获潜在模式的实体和关系的低维嵌入,以及通过采矿逻辑规则的良好解释性。不幸的是,以前的研究很少关注异质的KG。在本文中,我们提出了一种将基于嵌入的学习和逻辑规则挖掘结合的模型,以推断在KG上。具体地,我们研究了从节点程度的角度涉及各种类型的实体和关系的异构kg中的缺失链接的问题。在实验中,我们证明了我们的DegreEmbed模型优于对现实世界的数据集的国家的最先进的方法。同时,我们模型开采的规则具有高质量和可解释性。
translated by 谷歌翻译
外部知识(A.K.A.侧面信息)在零拍摄学习(ZSL)中起着关键作用,该角色旨在预测从未出现在训练数据中的看不见的类。已被广泛调查了几种外部知识,例如文本和属性,但他们独自受到不完整的语义。因此,一些最近的研究提出了由于其高度富有效力和代表知识的兼容性而使用知识图表(千克)。但是,ZSL社区仍然缺乏用于学习和比较不同外部知识设置和基于不同的KG的ZSL方法的标准基准。在本文中,我们提出了六个资源,涵盖了三个任务,即零拍摄图像分类(ZS-IMGC),零拍摄关系提取(ZS-RE)和零拍KG完成(ZS-KGC)。每个资源都有一个正常的zsl基准标记和包含从文本到属性的kg的kg,从关系知识到逻辑表达式。我们已清楚地介绍了这些资源,包括其建设,统计数据格式和使用情况W.r.t.不同的ZSL方法。更重要的是,我们进行了一项全面的基准研究,具有两个通用和最先进的方法,两种特定方法和一种可解释方法。我们讨论并比较了不同的ZSL范式W.R.T.不同的外部知识设置,并发现我们的资源具有开发更高级ZSL方法的巨大潜力,并为应用KGS进行增强机学习的更多解决方案。所有资源都可以在https://github.com/china-uk-zsl/resources_for_kzsl上获得。
translated by 谷歌翻译
推理是计算机的基本问题,并且在人工智能中深入研究。在本文中,我们专门针对回答知识图(KGS)的多跳逻辑查询。这是一项复杂的任务,因为在实际情况下,图形往往很大且不完整。以前的大多数作品都无法创建模型,这些模型接受了完整的一阶逻辑(fol)查询,其中包括负查询,并且只能处理有限的查询结构集。此外,大多数方法都呈现只能执行其制作的逻辑操作的逻辑运算符。我们介绍了一组模型,这些模型使用神经网络来创建单点矢量嵌入以回答查询。神经网络的多功能性允许该框架处理连词($ \ wedge $),脱节($ \ vee $)和否定($ \ neg $)运算符的框架查询。我们通过对众所周知的基准数据集进行了广泛的实验,通过实验证明了模型的性能。除了拥有更多多功能运营商外,模型还获得了10 \%的相对增加,而基于单点矢量嵌入的最佳性能状态和比原始方法的相对增加了30 \%。
translated by 谷歌翻译
各种网络的部署(例如,事物互联网(IOT)和移动网络),数据库(例如,营养表和食品组成数据库)和社交媒体(例如,Instagram和Twitter)产生大量的多型食品数据,这在食品科学和工业中起着关键作用。然而,由于众所周知的数据协调问题,这些多源食品数据显示为信息孤岛,导致难以充分利用这些食物数据。食物知识图表提供了统一和标准化的概念术语及其结构形式的关系,因此可以将食物信息孤单转换为更可重复使用的全球数量数字连接的食物互联网以使各种应用有益。据我们所知,这是食品科学与工业中食品知识图表的第一个全面审查。我们首先提供知识图表的简要介绍,然后主要从食物分类,食品本体到食品知识图表的进展。粮食知识图表的代表性应用将在新的配方开发,食品可追溯性,食物数据可视化,个性化饮食推荐,食品搜索和质询回答,视觉食品对象识别,食品机械智能制造方面来概述。我们还讨论了该领域的未来方向,例如食品供应链系统和人类健康的食品知识图,这应该得到进一步的研究。他们的巨大潜力将吸引更多的研究努力,将食物知识图形应用于食品科学和工业领域。
translated by 谷歌翻译
Knowledge graph reasoning (KGR), aiming to deduce new facts from existing facts based on mined logic rules underlying knowledge graphs (KGs), has become a fast-growing research direction. It has been proven to significantly benefit the usage of KGs in many AI applications, such as question answering and recommendation systems, etc. According to the graph types, the existing KGR models can be roughly divided into three categories, \textit{i.e.,} static models, temporal models, and multi-modal models. The early works in this domain mainly focus on static KGR and tend to directly apply general knowledge graph embedding models to the reasoning task. However, these models are not suitable for more complex but practical tasks, such as inductive static KGR, temporal KGR, and multi-modal KGR. To this end, multiple works have been developed recently, but no survey papers and open-source repositories comprehensively summarize and discuss models in this important direction. To fill the gap, we conduct a survey for knowledge graph reasoning tracing from static to temporal and then to multi-modal KGs. Concretely, the preliminaries, summaries of KGR models, and typical datasets are introduced and discussed consequently. Moreover, we discuss the challenges and potential opportunities. The corresponding open-source repository is shared on GitHub: https://github.com/LIANGKE23/Awesome-Knowledge-Graph-Reasoning.
translated by 谷歌翻译
Multi-modal and multi-hop question answering aims to answer a question based on multiple input sources from different modalities. Previous methods retrieve the evidence separately and feed the retrieved evidence to a language model to generate the corresponding answer. However, these methods fail to build connections between candidates and thus cannot model the inter-dependent relation during retrieval. Moreover, the reasoning process over multi-modality candidates can be unbalanced without building alignments between different modalities. To address this limitation, we propose a Structured Knowledge and Unified Retrieval Generation based method (SKURG). We align the sources from different modalities via the shared entities and map them into a shared semantic space via structured knowledge. Then, we utilize a unified retrieval-generation decoder to integrate intermediate retrieval results for answer generation and adaptively determine the number of retrieval steps. We perform experiments on two multi-modal and multi-hop datasets: WebQA and MultimodalQA. The results demonstrate that SKURG achieves state-of-the-art performance on both retrieval and answer generation.
translated by 谷歌翻译