基于本体的自然语言理解方法(NLU)处理允许改进对话系统中质量的问题。我们描述了我们的NLU发动机架构并评估其实施。该发动机将用户输入转换为SPARQL选择,询问或将查询插入由基于本体的数据虚拟化平台提供的知识图表。转型基于根据OntoLEX本体构建的知识图表的词汇水平。所描述的方法可以应用于图形数据群体任务和问题应答系统实现,包括聊天机器人。我们描述了聊天机器人的对话引擎,可以保持对话背景并提出澄清问题,模拟人类逻辑思维的一些方面。我们的方法使用基于图形的算法来避免在基于神经网络的方法中所需的数据集,并提供更好的可解释模型。使用问题应答引擎与公司数据源相结合的数据虚拟化层允许从结构化数据中提取事实以在会话中使用。
translated by 谷歌翻译
Answering complex questions over textual resources remains a challenging problem$\unicode{x2013}$especially when interpreting the fine-grained relationships among multiple entities that occur within a natural-language question or clue. Curated knowledge bases (KBs), such as YAGO, DBpedia, Freebase and Wikidata, have been widely used in this context and gained great acceptance for question-answering (QA) applications in the past decade. While current KBs offer a concise representation of structured knowledge, they lack the variety of formulations and semantic nuances as well as the context of information provided by the natural-language sources. With BigText-QA, we aim to develop an integrated QA system which is able to answer questions based on a more redundant form of a knowledge graph (KG) that organizes both structured and unstructured (i.e., "hybrid") knowledge in a unified graphical representation. BigText-QA thereby is able to combine the best of both worlds$\unicode{x2013}$a canonical set of named entities, mapped to a structured background KB (such as YAGO or Wikidata), as well as an open set of textual clauses providing highly diversified relational paraphrases with rich context information.
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译
在商业航空域中,有大量文件,例如事故报告(NTSB,ASRS)和监管指令(ADS)。有必要有效地访问这些多样化的存储库,以便在航空业中的服务需求,例如维护,合规性和安全性。在本文中,我们提出了一个基于深度学习的知识图(kg)基于深度学习(DL)的问题答案(QA)航空安全系统。我们从飞机事故报告中构建了知识图,并向研究人员社区贡献了这一资源。该资源的功效由上述质量保证系统测试和证明。根据上述文档构建的自然语言查询将转换为SPARQL(RDF图数据库的接口语言)查询并回答。在DL方面,我们有两个不同的质量检查模型:(i)BERT QA,它是通道检索(基于句子的)和问题答案(基于BERT)的管道,以及(ii)最近发布的GPT-3。我们根据事故报告创建的一系列查询评估系统。我们组合的QA系统在GPT-3上的准确性增长了9.3%,比Bert QA增加了40.3%。因此,我们推断出KG-DL的性能比单一表现更好。
translated by 谷歌翻译
各种网络的部署(例如,事物互联网(IOT)和移动网络),数据库(例如,营养表和食品组成数据库)和社交媒体(例如,Instagram和Twitter)产生大量的多型食品数据,这在食品科学和工业中起着关键作用。然而,由于众所周知的数据协调问题,这些多源食品数据显示为信息孤岛,导致难以充分利用这些食物数据。食物知识图表提供了统一和标准化的概念术语及其结构形式的关系,因此可以将食物信息孤单转换为更可重复使用的全球数量数字连接的食物互联网以使各种应用有益。据我们所知,这是食品科学与工业中食品知识图表的第一个全面审查。我们首先提供知识图表的简要介绍,然后主要从食物分类,食品本体到食品知识图表的进展。粮食知识图表的代表性应用将在新的配方开发,食品可追溯性,食物数据可视化,个性化饮食推荐,食品搜索和质询回答,视觉食品对象识别,食品机械智能制造方面来概述。我们还讨论了该领域的未来方向,例如食品供应链系统和人类健康的食品知识图,这应该得到进一步的研究。他们的巨大潜力将吸引更多的研究努力,将食物知识图形应用于食品科学和工业领域。
translated by 谷歌翻译
Wikidata是一个经常更新,社区驱动和多语言知识图形。因此,Wikidata是实体联系的一个有吸引力的基础,这是最近发表论文的增加显而易见的。该调查侧重于四个主题:(1)存在哪些Wikidata实体链接数据集,它们是多么广泛使用,它们是如何构建的? (2)对实体联系数据集的设计进行Wikidata的特点,如果是的话,怎么样? (3)当前实体链接方法如何利用Wikidata的特定特征? (4)现有实体链接方法未开发哪种Wikidata特征?本次调查显示,当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此,没有提升多语言和时间依赖数据集的可能性,是自然适合维基帽的数据集。此外,我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式,因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性,有时是描述,而是忽略超关系结构等特征。因此,例如,通过包括超关系图嵌入或类型信息,仍有改进的余地。许多方法还包括来自维基百科的信息,这些信息很容易与Wikidata组合并提供有价值的文本信息,Wikidata缺乏。
translated by 谷歌翻译
本文提出了一种基于答案设置编程(ASP)的方法,用于代表自然语言文本生成的知识。文本中的知识是使用Neo Davidsonian的形式主义建模的,然后将其表示为答案集计划。相关的致辞知识另外导入Wordnet等资源,并在ASP中表示。然后可以使用所产生的知识库来在ASP系统的帮助下执行推理。这种方法可以促进许多自然语言任务,如自动问题应答,文本摘要和自动化问题。基于ASP的技术表示,例如默认推理,分层知识组织,默认值等的首选项,用于模拟完成这些任务所需的致辞推理方法。在本文中,我们描述了我们开发的CaspR系统,以自动解决在给出英语文本时回答自然语言问题的任务。 CASPR可以被视为一个系统,通过“了解”文本并已在队列数据集上进行了测试,具有有希望的结果。
translated by 谷歌翻译
问答系统被认为是流行且经常有效的信息在网络上寻求信息的手段。在这样的系统中,寻求信息者可以通过自然语言提出问题来获得对他们的查询的简短回应。交互式问题回答是一种最近提出且日益流行的解决方案,它位于问答和对话系统的交集。一方面,用户可以以普通语言提出问题,并找到对她的询问的实际回答;另一方面,如果在初始请求中有多个可能的答复,很少或歧义,则系统可以将问题交通会话延长到对话中。通过允许用户提出更多问题,交互式问题回答使用户能够与系统动态互动并获得更精确的结果。这项调查提供了有关当前文献中普遍存在的交互式提问方法的详细概述。它首先要解释提问系统的基本原理,从而定义新的符号和分类法,以将所有已确定的作品结合在统一框架内。然后,根据提出的方法,评估方法和数据集/应用程序域来介绍和检查有关交互式问题解答系统的审查已发表的工作。我们还描述了围绕社区提出的特定任务和问题的趋势,从而阐明了学者的未来利益。 GitHub页面的综合综合了本文献研究中涵盖的所有主要主题,我们的工作得到了进一步的支持。 https://sisinflab.github.io/interactive-question-answering-systems-survey/
translated by 谷歌翻译
全球DataSphere快速增加,预计将达到20251年的175个Zettabytes。但是,大多数内容都是非结构化的,并且无法通过机器可以理解。将此数据构建到知识图中,使得智能应用程序具有诸如深度问题的智能应用,推荐系统,语义搜索等。知识图是一种新兴技术,允许使用内容与上下文一起逻辑推理和揭示新的洞察。因此,它提供了必要的语法和推理语义,使得能够解决复杂的医疗保健,安全,金融机构,经济学和业务问题。作为一项结果,企业正在努力建设和维护知识图表,以支持各种下游应用。手动方法太贵了。自动化方案可以降低建设知识图的成本,高达15-250次。本文批评了最先进的自动化技术,以自主地生成近乎人类的近乎人类的质量。此外,它突出了需要解决的不同研究问题,以提供高质量的知识图表
translated by 谷歌翻译
This paper aims to provide a radical rundown on Conversation Search (ConvSearch), an approach to enhance the information retrieval method where users engage in a dialogue for the information-seeking tasks. In this survey, we predominantly focused on the human interactive characteristics of the ConvSearch systems, highlighting the operations of the action modules, likely the Retrieval system, Question-Answering, and Recommender system. We labeled various ConvSearch research problems in knowledge bases, natural language processing, and dialogue management systems along with the action modules. We further categorized the framework to ConvSearch and the application is directed toward biomedical and healthcare fields for the utilization of clinical social technology. Finally, we conclude by talking through the challenges and issues of ConvSearch, particularly in Bio-Medicine. Our main aim is to provide an integrated and unified vision of the ConvSearch components from different fields, which benefit the information-seeking process in healthcare systems.
translated by 谷歌翻译
访问公共知识库中可用的大量信息可能对那些不熟悉的SPARQL查询语言的用户可能很复杂。SPARQL中自然语言提出的问题的自动翻译有可能克服这个问题。基于神经机翻译的现有系统非常有效,但在识别出识别出训练集的词汇(OOV)的单词中很容易失败。查询大型本体的时,这是一个严重的问题。在本文中,我们将命名实体链接,命名实体识别和神经计算机翻译相结合,以将自然语言问题的自动转换为SPARQL查询。我们凭经验证明,我们的方法比在纪念碑,QALD-9和LC-QUAD V1上运行实验,我们的方法比现有方法更有效,并且对OOV单词进行了更有效的,并且是现有的方法,这些方法是众所周知的DBPedia的相关数据集。
translated by 谷歌翻译
叙事制图是一项学科,研究了故事和地图的交织性质。然而,叙述的传统地理化技术经常遇到几个突出的挑战,包括数据采集和一体化挑战和语义挑战。为了解决这些挑战,在本文中,我们提出了具有知识图表(KGS)的叙事制图的想法。首先,要解决数据采集和集成挑战,我们开发了一组基于KG的地理学工具箱,以允许用户从GISYstem内搜索和检索来自集成跨域知识图中的相关数据以获得来自GISYSTEM的叙述映射。在此工具的帮助下,来自KG的检索数据以GIS格式直接实现,该格式已准备好用于空间分析和映射。两种用例 - 麦哲伦的远征和第二次世界大战 - 被提出展示了这种方法的有效性。与此同时,从这种方法中确定了几个限制,例如数据不完整,语义不相容,以及地理化的语义挑战。对于后面的两个限制,我们为叙事制图提出了一个模块化本体,它将地图内容(地图内容模块)和地理化过程(制图模块)正式化。我们证明,通过代表KGS(本体)中的地图内容和地理化过程,我们可以实现数据可重用性和叙事制图的地图再现性。
translated by 谷歌翻译
自然语言处理(NLP)是一个人工智能领域,它应用信息技术来处理人类语言,在一定程度上理解并在各种应用中使用它。在过去的几年中,该领域已经迅速发展,现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样,NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用,从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别,以调查现代NLP方法论,常见的任务,相关的文本数据,知识库和有用的编程库。我们将这五个类别分为适当的子类别,描述其主要属性和想法,并以表格形式进行总结。最终的调查介绍了该领域的全面概述,对从业者和感兴趣的观察者有用。
translated by 谷歌翻译
机器学习方法尤其是深度神经网络取得了巨大的成功,但其中许多往往依赖于一些标记的样品进行训练。在真实世界的应用中,我们经常需要通过例如具有新兴预测目标和昂贵的样本注释的动态上下文来解决样本短缺。因此,低资源学习,旨在学习具有足够资源(特别是培训样本)的强大预测模型,现在正在被广泛调查。在所有低资源学习研究中,许多人更喜欢以知识图(kg)的形式利用一些辅助信息,这对于知识表示变得越来越受欢迎,以减少对标记样本的依赖。在这项调查中,我们非常全面地审查了90美元的报纸关于两个主要的低资源学习设置 - 零射击学习(ZSL)的预测,从未出现过训练,而且很少拍摄的学习(FSL)预测的新类仅具有可用的少量标记样本。我们首先介绍了ZSL和FSL研究中使用的KGS以及现有的和潜在的KG施工解决方案,然后系统地分类和总结了KG感知ZSL和FSL方法,将它们划分为不同的范例,例如基于映射的映射,数据增强,基于传播和基于优化的。我们接下来呈现了不同的应用程序,包括计算机视觉和自然语言处理中的kg增强预测任务,还包括kg完成的任务,以及每个任务的一些典型评估资源。我们最终讨论了一些关于新学习和推理范式的方面的一些挑战和未来方向,以及高质量的KGs的建设。
translated by 谷歌翻译
庞大的科学出版物呈现出越来越大的挑战,找到与给定的研究问题相关的那些,并在其基础上做出明智的决定。如果不使用自动化工具,这变得非常困难。在这里,一个可能的改进区域是根据其主题自动分类出版物摘要。这项工作介绍了一种新颖的知识基础的出色出版物分类器。该方法侧重于实现可扩展性和对其他域的容易适应性。在非常苛刻的食品安全领域,分类速度和准确度被证明是令人满意的。需要进一步发展和评估该方法,因为所提出的方法显示出很大的潜力。
translated by 谷歌翻译
外部知识(A.K.A.侧面信息)在零拍摄学习(ZSL)中起着关键作用,该角色旨在预测从未出现在训练数据中的看不见的类。已被广泛调查了几种外部知识,例如文本和属性,但他们独自受到不完整的语义。因此,一些最近的研究提出了由于其高度富有效力和代表知识的兼容性而使用知识图表(千克)。但是,ZSL社区仍然缺乏用于学习和比较不同外部知识设置和基于不同的KG的ZSL方法的标准基准。在本文中,我们提出了六个资源,涵盖了三个任务,即零拍摄图像分类(ZS-IMGC),零拍摄关系提取(ZS-RE)和零拍KG完成(ZS-KGC)。每个资源都有一个正常的zsl基准标记和包含从文本到属性的kg的kg,从关系知识到逻辑表达式。我们已清楚地介绍了这些资源,包括其建设,统计数据格式和使用情况W.r.t.不同的ZSL方法。更重要的是,我们进行了一项全面的基准研究,具有两个通用和最先进的方法,两种特定方法和一种可解释方法。我们讨论并比较了不同的ZSL范式W.R.T.不同的外部知识设置,并发现我们的资源具有开发更高级ZSL方法的巨大潜力,并为应用KGS进行增强机学习的更多解决方案。所有资源都可以在https://github.com/china-uk-zsl/resources_for_kzsl上获得。
translated by 谷歌翻译
知识基础问题回答(KBQA)旨在通过知识库(KB)回答问题。早期研究主要集中于回答有关KB的简单问题,并取得了巨大的成功。但是,他们在复杂问题上的表现远非令人满意。因此,近年来,研究人员提出了许多新颖的方法,研究了回答复杂问题的挑战。在这项调查中,我们回顾了KBQA的最新进展,重点是解决复杂问题,这些问题通常包含多个主题,表达复合关系或涉及数值操作。详细说明,我们从介绍复杂的KBQA任务和相关背景开始。然后,我们描述用于复杂KBQA任务的基准数据集,并介绍这些数据集的构建过程。接下来,我们提出两个复杂KBQA方法的主流类别,即基于语义解析的方法(基于SP)的方法和基于信息检索的方法(基于IR)。具体而言,我们通过流程设计说明了他们的程序,并讨论了它们的主要差异和相似性。之后,我们总结了这两类方法在回答复杂问题时会遇到的挑战,并解释了现有工作中使用的高级解决方案和技术。最后,我们结论并讨论了与复杂的KBQA有关的几个有希望的方向,以进行未来的研究。
translated by 谷歌翻译
知识图是一个必不可少的和趋势技术,具有在实体识别,搜索或问题应答中的优势。在执行命名实体识别任务的自然语言处理中有一种方法;但是,有很少的方法可以为特定于域的文本提供三元组。在本文中,已经努力开发一个可以将文本从给定教科书转换为可以用于可视化的三元组的系统,以便为知识图形和用于进一步应用程序的系统。初步评估和评估给出了有希望的结果,F1得分为82%。
translated by 谷歌翻译
我们展示了一个基于逻辑推理的新型对话管理方法的聊天栏。除了帧对话一系列响应生成任务,我们将对话作为协作推断过程,其中扬声器共享信息以实时地合成新知识。我们的Chatbot管道在三个广泛的阶段完成了这种建模。第一阶段将用户话语转换为符号谓词表示。然后,第二阶段与更大的知识库结合使用这种结构化表示来合成使用有效的图形匹配来扫描新谓词。在第三阶段和最后阶段,我们的机器人选择一个小的谓词子集并将它们转化为英语响应。这种方法为了解用户输入的潜在语义,灵活的主动措施以及与对话背景相干的响应。
translated by 谷歌翻译
具有自然语言用户界面的软件具有越来越重要的重要性。但是,所包含的问题的质量答案(QA)功能仍然没有足够的问题才能正确回答。在我们的工作中,我们通过评估自然语言输入(即,用户的问题)和输出(即,系统的答案)来解决如何改进给定系统的QA质量的研究问题。我们的主要贡献是一种能够识别QA系统提供的错误答案的方法。因此,从答案候选列表中过滤不正确的答案导致高度提高的QA质量。特别是,我们的方法在许多情况下消除了它的潜力,大部分不正确的答案,与系统的未过滤输出相比,显着提高了QA质量。
translated by 谷歌翻译