数字来源比以往更普遍但有效地使用它们可能是挑战性的。一个核心挑战是数字化来源通常是分布式的,因此强迫研究人员花费时间收集,解释和对齐不同的来源。知识图可以通过提供人类和机器可以查询的单一连接的真理来加速研究。在两个设计 - 测试周期中,我们将四个数据集转换为历史海域域中的四个数据集成知识图。在这些周期期间的重点是创造可持续和可用的方法,可以在其他联系数据转换工作中采用。此外,我们的知识图表可用于海事历史学家和其他感兴趣的用户,以通过统一的门户调查荷兰东印度公司的日常业务。
translated by 谷歌翻译
叙事制图是一项学科,研究了故事和地图的交织性质。然而,叙述的传统地理化技术经常遇到几个突出的挑战,包括数据采集和一体化挑战和语义挑战。为了解决这些挑战,在本文中,我们提出了具有知识图表(KGS)的叙事制图的想法。首先,要解决数据采集和集成挑战,我们开发了一组基于KG的地理学工具箱,以允许用户从GISYstem内搜索和检索来自集成跨域知识图中的相关数据以获得来自GISYSTEM的叙述映射。在此工具的帮助下,来自KG的检索数据以GIS格式直接实现,该格式已准备好用于空间分析和映射。两种用例 - 麦哲伦的远征和第二次世界大战 - 被提出展示了这种方法的有效性。与此同时,从这种方法中确定了几个限制,例如数据不完整,语义不相容,以及地理化的语义挑战。对于后面的两个限制,我们为叙事制图提出了一个模块化本体,它将地图内容(地图内容模块)和地理化过程(制图模块)正式化。我们证明,通过代表KGS(本体)中的地图内容和地理化过程,我们可以实现数据可重用性和叙事制图的地图再现性。
translated by 谷歌翻译
各种网络的部署(例如,事物互联网(IOT)和移动网络),数据库(例如,营养表和食品组成数据库)和社交媒体(例如,Instagram和Twitter)产生大量的多型食品数据,这在食品科学和工业中起着关键作用。然而,由于众所周知的数据协调问题,这些多源食品数据显示为信息孤岛,导致难以充分利用这些食物数据。食物知识图表提供了统一和标准化的概念术语及其结构形式的关系,因此可以将食物信息孤单转换为更可重复使用的全球数量数字连接的食物互联网以使各种应用有益。据我们所知,这是食品科学与工业中食品知识图表的第一个全面审查。我们首先提供知识图表的简要介绍,然后主要从食物分类,食品本体到食品知识图表的进展。粮食知识图表的代表性应用将在新的配方开发,食品可追溯性,食物数据可视化,个性化饮食推荐,食品搜索和质询回答,视觉食品对象识别,食品机械智能制造方面来概述。我们还讨论了该领域的未来方向,例如食品供应链系统和人类健康的食品知识图,这应该得到进一步的研究。他们的巨大潜力将吸引更多的研究努力,将食物知识图形应用于食品科学和工业领域。
translated by 谷歌翻译
研究部门在组织中推动创新的重要作用。随着速度和量的信息增长,绘制见解,跟随趋势,保持新的研究以及制定策略的配制策略越来越越来越具有挑战性。在本文中,我们介绍了一个用例,即公司研究界如何利用语义网络技术来诱导从结构化和文本数据中诱导统一的知识图,通过整合与研究项目相关的社区使用的各种应用程序,学术论文,学术论文,数据集,成就和认可。为了使应用程序开发人员更容易访问知识图,我们确定了一组通用模式,用于利用诱导的知识并将其视为API。这些模式是从用户研究中诞生的,这些模式确定了最有价值的用例或用户疼痛点要缓解。我们概述了两个不同的方案:用于业务使用的建议和分析。我们将详细讨论这些方案,并针对实体建议提供经验评估。所使用的方法和从这项工作中学到的教训可以应用于面临类似挑战的其他组织。
translated by 谷歌翻译
在由家用电器,电动汽车和太阳能电池板等各种设备组成的分散家庭能源系统中,最终用户可以更深入地研究该系统的细节,并进一步实现能源可持续性,如果向它们提供了有关电能消耗的数据和设备粒度的生产。但是,该领域中的许多数据库都是从其他域中孤立的,包括仅与能源有关的信息。这可能会导致每个设备能源使用的信息损失(\ textit {例如{例如}天气)。同时,许多这些数据集已在计算建模技术(例如机器学习模型)中广泛使用。尽管这种计算方法仅通过仅专注于数据集的局部视图来实现极高的准确性和性能,但不能保证模型可靠性,因为当考虑到信息遗漏时,此类模型非常容易受到数据输入波动的影响。本文通过在家庭能源系统的基础上检查语义Web方法来解决智能能源系统领域的数据隔离问题。我们提供了一种基于本体的方法,用于在系统中的设备级分辨率下管理分散数据。结果,与每个设备相关的数据的范围可以在整个网络中以可互操作的方式轻松扩展,并且只要根据W3C标准组织数据,就可以从网络中获得其他信息,例如天气。 。
translated by 谷歌翻译
Diversity Searcher is a tool originally developed to help analyse diversity in news media texts. It relies on a form of automated content analysis and thus rests on prior assumptions and depends on certain design choices related to diversity and fairness. One such design choice is the external knowledge source(s) used. In this article, we discuss implications that these sources can have on the results of content analysis. We compare two data sources that Diversity Searcher has worked with - DBpedia and Wikidata - with respect to their ontological coverage and diversity, and describe implications for the resulting analyses of text corpora. We describe a case study of the relative over- or under-representation of Belgian political parties between 1990 and 2020 in the English-language DBpedia, the Dutch-language DBpedia, and Wikidata, and highlight the many decisions needed with regard to the design of this data analysis and the assumptions behind it, as well as implications from the results. In particular, we came across a staggering over-representation of the political right in the English-language DBpedia.
translated by 谷歌翻译
由于对高效有效的大数据分析解决方案的需求,医疗保健行业中数据分析的合并已取得了重大进展。知识图(KGS)已在该领域证明了效用,并且植根于许多医疗保健应用程序,以提供更好的数据表示和知识推断。但是,由于缺乏代表性的kg施工分类法,该指定领域中的几种现有方法不足和劣等。本文是第一个提供综合分类法和鸟类对医疗kg建筑的眼光的看法。此外,还对与各种医疗保健背景相关的学术工作中最新的技术进行了彻底的检查。这些技术是根据用于知识提取的方法,知识库和来源的类型以及合并评估协议的方法进行了严格评估的。最后,报道和讨论了文献中的一些研究发现和现有问题,为这个充满活力的地区开放了未来研究的视野。
translated by 谷歌翻译
科学家在寻找最佳的输入资源来解决目标预测任务的最佳输入资源方面的困难是在知识图图图上训练算法的主要障碍之一。除此之外,一个关键的挑战是确定如何操纵(和嵌入)这些数据,这些数据通常以特定的三元组(即主题,谓词,对象)的形式来启用学习过程。在本文中,我们描述了Liveschema倡议,即一个门户,该网关提供了一个服务家庭,可以轻松访问,分析,转换和利用知识图模式,其主要目标是促进这些资源在机器学习用例中的重复使用。作为该计划的早期实施,我们还推进了一个在线目录,该目录依赖于800多个资源,并提供了第一组示例服务。
translated by 谷歌翻译
负责任的AI被广泛认为是我们时代最大的科学挑战之一,也是释放AI市场并增加采用率的关键。为了应对负责任的AI挑战,最近已经发布了许多AI伦理原则框架,AI系统应该符合这些框架。但是,没有进一步的最佳实践指导,从业者除了真实性之外没有什么。同样,在算法级别而不是系统级的算法上进行了重大努力,主要集中于数学无关的道德原则(例如隐私和公平)的一部分。然而,道德问题在开发生命周期的任何步骤中都可能发生,从而超过AI算法和模型以外的系统的许多AI,非AI和数据组件。为了从系统的角度操作负责任的AI,在本文中,我们采用了一种面向模式的方法,并根据系统的多媒体文献综述(MLR)的结果提出了负责任的AI模式目录。与其呆在道德原则层面或算法层面上,我们专注于AI系统利益相关者可以在实践中采取的模式,以确保开发的AI系统在整个治理和工程生命周期中负责。负责的AI模式编目将模式分为三组:多层次治理模式,可信赖的过程模式和负责任的逐设计产品模式。这些模式为利益相关者实施负责任的AI提供了系统性和可行的指导。
translated by 谷歌翻译
实践中的本体论仍然非常具有挑战性,尤其是在涉及多个本体论的情况下。此外,尽管最近进步,系统本体论质量保证的实现仍然是一个困难的问题。在这项工作中,从实际用例的角度研究了30个生物医学本体论和计算机科学本体论的质量。对交叉主体论的参考进行了特殊审查,这对于结合本体论至关重要。提出了检测潜在问题的多种方法,包括自然语言处理和网络分析。此外,提出了一些改善本体论及其质量保证过程的建议。有人认为,尽管前进的自动工具用于本体质量保证对于本体论的改善至关重要,但它们并不能完全解决该问题。本体论重用是连续验证和改善本体质量以及指导其未来发展的最终方法。具体而言,可以通过实用和多样化的本体论点方案找到多个问题和修复。
translated by 谷歌翻译
如今有大量在线文档数据源。缺乏结构和格式之间的差异是自动​​从中提取信息的主要困难,这也对其使用和重复使用产生负面影响。在生物医学领域中,出现了DISNET平台,以通过大规模的异质来源为研究人员提供资源,以获取人类疾病网络范围的信息。具体来说,在该领域中,不仅提供从不同来源提取的信息,而且提供支持它的证据至关重要。本文提出了Eboca,该本体论描述了(i)生物医学领域概念及其之间的关联,以及(ii)支持这些关联的证据;目的是提供一个模式来改善该领域中的证据和生物医学关联的出版和描述。已成功评估了本体论,以确保没有错误,建模陷阱,并符合先前定义的功能要求。来自文本的一部分和自动关联提取子集的测试数据已根据所提出的本体论进行了转换,以创建可用于实际场景中的知识图,并且还用于评估所述本体论。
translated by 谷歌翻译
背景:获得医疗服务在很大程度上取决于资源分配,例如医疗设施的地理分布。然而,这些数据通常仅限于国家官方文件,不可公开提供。尽管某些医疗设施的数据可以作为网络上的语义资源访问,但它的建模并不一致,并且尚未集成到完整,开放和专业的存储库中。这项工作着重于生成全球医疗设施的全面语义数据集,其中包含有关此类设施地理位置的广泛信息。结果:为此,我们收集,对齐并链接了可能存在医疗设施信息的各种开源数据库。这项工作使我们能够沿着各个方面评估每个数据源,例如完整性,正确性和与其他来源相互联系,当前知识表示技术的所有关键方面。结论:我们的贡献直接受益于生物医学和健康领域(患者,医疗保健专业人员,公司,监管机构和研究人员)的利益相关者,他们现在将更好地概述获得医疗设施的访问和分配。
translated by 谷歌翻译
在这项工作中,我们在文化象征主义的背景下填补了语义网络中的差距。建立早期的工作,我们介绍了模拟本体,这是一种模拟象征意义的背景知识,通过组合从Simulacra的权威理论和Jean Baudrillard的象征性和符号中所采取的符号结构和内容的象征性理论和象征性的象征性和内容来制定象征意义的背景知识。史蒂文古老的旧版典型的字典。我们通过将其转换为在我们的本体模式中来重新设计已经存在于异质资源中以产生溢流的象征性,这是完全致力于文化象征主义的第一个知识图。提出了在知识图上运行的第一个实验,以显示对象征主义定量研究的潜力。
translated by 谷歌翻译
社交媒体有可能提供有关紧急情况和突然事件的及时信息。但是,在每天发布的数百万帖子中找到相关信息可能很困难,并且开发数据分析项目通常需要时间和技术技能。这项研究提出了一种为分析社交媒体的灵活支持的方法,尤其是在紧急情况下。引入了可以采用社交媒体分析的不同用例,并讨论了从大量帖子中检索信息的挑战。重点是分析社交媒体帖子中包含的图像和文本,以及一组自动数据处理工具,用于过滤,分类和使用人类的方法来支持数据分析师的内容。这种支持包括配置自动化工具的反馈和建议,以及众包收集公民的投入。通过讨论Crowd4SDG H2020欧洲项目中开发的三个案例研究来验证结果。
translated by 谷歌翻译
Digital media have enabled the access to unprecedented literary knowledge. Authors, readers, and scholars are now able to discover and share an increasing amount of information about books and their authors. Notwithstanding, digital archives are still unbalanced: writers from non-Western countries are less represented, and such a condition leads to the perpetration of old forms of discrimination. In this paper, we present the Under-Represented Writers Knowledge Graph (URW-KG), a resource designed to explore and possibly amend this lack of representation by gathering and mapping information about works and authors from Wikidata and three other sources: Open Library, Goodreads, and Google Books. The experiments based on KG embeddings showed that the integrated information encoded in the graph allows scholars and users to be more easily exposed to non-Western literary works and authors with respect to Wikidata alone. This opens to the development of fairer and effective tools for author discovery and exploration.
translated by 谷歌翻译
近年来,数据科学已经显着发展。数据分析和采矿过程成为可用数据集的所有行业的常规。已收集,策划,存储和用于提取知识的大量数据存储库。这变得司空见惯。随后,我们直接从数据或通过给定域中的专家提取大量知识。现在的挑战是如何利用以前因高效决策过程而闻名的所有这些知识。直到最近,通过多年的研究获得的许多知识都存储在静态知识库或本体中,而从数据挖掘研究中获得的更多样化和动态知识并没有集中和始终如一地管理。在这项研究中,我们提出了一个称为基于本体的知识图的新型模型,以代表和存储农作物耕作中数据挖掘的结果(知识),以建立,维护和丰富知识发现过程。提出的模型包括六个主要集合:概念,属性,关系,转换,实例和状态。该模型是动态的,可以随时促进知识的访问,更新和开发。本文还提出了用于处理这种基于知识模型的体系结构。系统体系结构包括知识建模,提取,评估,发布和开发。该系统已被实施并用于农业管理和监测。事实证明,它非常有效,并且有望扩展到其他领域。
translated by 谷歌翻译
药物发现和发展是一个复杂和昂贵的过程。正在研究机器学习方法,以帮助提高药物发现管道多个阶段的有效性和速度。其中,使用知识图表(kg)的那些在许多任务中具有承诺,包括药物修复,药物毒性预测和靶基因疾病优先级。在药物发现kg中,包括基因,疾病和药物在内的关键因素被认为是实体,而它们之间的关系表示相互作用。但是,为了构建高质量的KG,需要合适的数据。在这篇综述中,我们详细介绍了适用于构建聚焦KGS的药物发现的公开使用来源。我们的目标是帮助引导机器学习和kg从业者对吸毒者发现领域应用新技术,但是谁可能不熟悉相关的数据来源。通过严格的标准选择数据集,根据包含内部包含的主要信息类型,并基于可以提取的信息来进行分类以构建kg。然后,我们对现有的公共药物发现KGS进行了比较分析,并评估了文献中所选择的激励案例研究。此外,我们还提出了众多和与域及其数据集相关的众多挑战和问题,同时突出了关键的未来研究方向。我们希望本综述将激励KGS在药物发现领域的关键和新兴问题中使用。
translated by 谷歌翻译
The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.
translated by 谷歌翻译
问答系统被认为是流行且经常有效的信息在网络上寻求信息的手段。在这样的系统中,寻求信息者可以通过自然语言提出问题来获得对他们的查询的简短回应。交互式问题回答是一种最近提出且日益流行的解决方案,它位于问答和对话系统的交集。一方面,用户可以以普通语言提出问题,并找到对她的询问的实际回答;另一方面,如果在初始请求中有多个可能的答复,很少或歧义,则系统可以将问题交通会话延长到对话中。通过允许用户提出更多问题,交互式问题回答使用户能够与系统动态互动并获得更精确的结果。这项调查提供了有关当前文献中普遍存在的交互式提问方法的详细概述。它首先要解释提问系统的基本原理,从而定义新的符号和分类法,以将所有已确定的作品结合在统一框架内。然后,根据提出的方法,评估方法和数据集/应用程序域来介绍和检查有关交互式问题解答系统的审查已发表的工作。我们还描述了围绕社区提出的特定任务和问题的趋势,从而阐明了学者的未来利益。 GitHub页面的综合综合了本文献研究中涵盖的所有主要主题,我们的工作得到了进一步的支持。 https://sisinflab.github.io/interactive-question-answering-systems-survey/
translated by 谷歌翻译
本文介绍了有关开发的原型的研究,以服务公共政策设计的定量研究。政治学的这种子学科着重于确定参与者,之间的关系以及在健康,环境,经济和其他政策方面可以使用的工具。我们的系统旨在自动化收集法律文件,用机构语法注释它们的过程,并使用超图来分析关键实体之间的相互关系。我们的系统经过了《联合国教科文组织公约》的保护,以保护2003年的无形文化遗产,这是一份法律文件,该文件规定了确保文化遗产的国际关系的基本方面。
translated by 谷歌翻译