安全分析师在调查攻击,新兴的网络威胁或最近发现的漏洞后准备威胁分析。关于恶意软件攻击和广告系列的威胁情报在博客文章,报告,分析和推文上分享,并具有不同的技术细节。其他安全分析师使用这种情报来告知他们新兴威胁,妥协指标,攻击方法和预防措施。它统称为威胁智能,通常是一种非结构化格式,因此,无缝集成到现有的IDPS系统中,具有挑战性。在本文中,我们提出了一个汇总并结合CTI的框架 - 公开可用的网络威胁智能信息。使用知识图以结构化的格式提取并存储该信息,以便可以与其他安全分析师进行大规模保留威胁智能的语义。我们建议第一个半监督的开源知识图(KG)框架Tinker捕获网络威胁信息及其上下文。在修补匠之后,我们生成一个网络智能知识图(CTI-KG)。我们使用不同的用例及其应用于安全分析师的应用来证明CTI-KG的功效。
translated by 谷歌翻译
许多开放的在线资料中,有关网络相关犯罪,事件和冲突的信息大量提供。但是,对分析师和专家来说,处理大量数据和数据流是一项具有挑战性的任务,并且需要对较新的方法和技术的需求。在本文中,我们介绍并实施了一个新颖的知识图和知识挖掘框架,以从有关网络域中事件的自由形式文本中提取相关信息。该框架包括基于机器学习的管道,用于生成具有非技术网络主页的组织,国家,行业,产品和攻击者的图形。提取的知识图用于估计给定图配置上的网络攻击的发生率。我们使用公开可用的实际网络材料报告收集来测试我们方法的功效。发现知识提取足够准确,基于图的威胁估计证明了与攻击实际记录的一定程度。在实际使用中,利用介绍框架的分析师可以从当前的网络景观中推断出各种实体的风险以及行业和国家之间风险启发式的风险。
translated by 谷歌翻译
网络世界中的信息安全是令人关切的主要原因,攻击表面的数量显着增加。网络上可用的漏洞,攻击,控件和建议的现有信息提供了代表知识并执行安全分析以减轻一些问题的机会。代表本体形式的安全知识有助于异常检测,威胁情报,推理和相关攻击的相关性归因等。这需要动态和自动丰富信息安全本体。然而,基于自然语言处理和ML模型的现有本体富集算法具有语文提取词,短语和句子的上下文提取问题。这激励了对遍历文本中的依赖路径的顺序深度学习架构的需求,并提取嵌入漏洞,威胁,控件,产品和其他安全相关概念和来自学习的路径表示的实例。在所提出的方法中,部署了在大型DBPedia数据集和Wikipedia语料库上培训的双向LSTMS与Universal Stank编码器一起培训,以丰富基于ISO 27001的信息安全本体。该模型在高性能计算(HPC)环境上进行培训并测试,以处理Wiki文本维度。当从本体论和网页实例的敲除概念测试以验证稳健性时,该方法产生了超过80%的测试精度。
translated by 谷歌翻译
网络威胁智能(CTI)是描述威胁媒介,漏洞和攻击的信息,通常用作基于AI的网络防御系统(例如网络安全知识图(CKG))的培训数据。非常需要开发可访问社区的数据集来培训现有的基于AI的网络安全管道,以有效,准确地从CTI中提取有意义的见解。我们已经从各种开放源中创建了一个初始的非结构化CTI语料库,我们使用SPACY框架并探索自学习方法来自动识别网络安全实体,用于训练和测试网络安全实体模型。我们还描述了应用网络安全域实体与Wikidata现有世界知识联系起来的方法。我们未来的工作将调查和测试Spacy NLP工具,并创建方法,以连续整合从文本中提取的新信息。
translated by 谷歌翻译
学术知识图(KGS)提供了代表科学出版物编码的知识的丰富的结构化信息来源。随着出版的科学文学的庞大,包括描述科学概念的过多的非均匀实体和关系,这些公斤本质上是不完整的。我们呈现Exbert,一种利用预先训练的变压器语言模型来执行学术知识图形完成的方法。我们将知识图形的三元组模型为文本并执行三重分类(即,属于KG或不属于KG)。评估表明,在三重分类,链路预测和关系预测的任务中,Exbert在三个学术kg完成数据集中表现出其他基线。此外,我们将两个学术数据集作为研究界的资源,从公共公共公报和在线资源中收集。
translated by 谷歌翻译
积极的安全方法,例如对手仿真,利用有关威胁行为者及其技术的信息(网络威胁智能,CTI)。但是,大多数CTI仍然以非结构化的形式(即自然语言),例如事件报告和泄漏的文件。为了支持主动的安全工作,我们介绍了一项有关使用机器学习(ML)自动将非结构化CTI自动分类为攻击技术的实验研究。我们为CTI分析的两个新数据集做出了贡献,并评估了几种ML模型,包括传统和深度学习模型。我们介绍了几个课程,了解了ML在此任务中的执行方式,哪些分类器在哪些条件下(这是分类错误的主要原因)以及CTI分析的未来挑战。
translated by 谷歌翻译
事实证明,信息提取方法可有效从结构化或非结构化数据中提取三重。以(头部实体,关系,尾部实体)形式组织这样的三元组的组织称为知识图(kgs)。当前的大多数知识图都是不完整的。为了在下游任务中使用kgs,希望预测kgs中缺少链接。最近,通过将实体和关系嵌入到低维的矢量空间中,旨在根据先前访问的三元组来预测三元组,从而对KGS表示不同的方法。根据如何独立或依赖对三元组进行处理,我们将知识图完成的任务分为传统和图形神经网络表示学习,并更详细地讨论它们。在传统的方法中,每个三重三倍将独立处理,并在基于GNN的方法中进行处理,三倍也考虑了他们的当地社区。查看全文
translated by 谷歌翻译
在商业航空域中,有大量文件,例如事故报告(NTSB,ASRS)和监管指令(ADS)。有必要有效地访问这些多样化的存储库,以便在航空业中的服务需求,例如维护,合规性和安全性。在本文中,我们提出了一个基于深度学习的知识图(kg)基于深度学习(DL)的问题答案(QA)航空安全系统。我们从飞机事故报告中构建了知识图,并向研究人员社区贡献了这一资源。该资源的功效由上述质量保证系统测试和证明。根据上述文档构建的自然语言查询将转换为SPARQL(RDF图数据库的接口语言)查询并回答。在DL方面,我们有两个不同的质量检查模型:(i)BERT QA,它是通道检索(基于句子的)和问题答案(基于BERT)的管道,以及(ii)最近发布的GPT-3。我们根据事故报告创建的一系列查询评估系统。我们组合的QA系统在GPT-3上的准确性增长了9.3%,比Bert QA增加了40.3%。因此,我们推断出KG-DL的性能比单一表现更好。
translated by 谷歌翻译
Wikidata是一个经常更新,社区驱动和多语言知识图形。因此,Wikidata是实体联系的一个有吸引力的基础,这是最近发表论文的增加显而易见的。该调查侧重于四个主题:(1)存在哪些Wikidata实体链接数据集,它们是多么广泛使用,它们是如何构建的? (2)对实体联系数据集的设计进行Wikidata的特点,如果是的话,怎么样? (3)当前实体链接方法如何利用Wikidata的特定特征? (4)现有实体链接方法未开发哪种Wikidata特征?本次调查显示,当前的Wikidata特定实体链接数据集在其他知识图表中的方案中的注释方案中没有不同。因此,没有提升多语言和时间依赖数据集的可能性,是自然适合维基帽的数据集。此外,我们表明大多数实体链接方法使用Wikidata以与任何其他知识图相同的方式,因为任何其他知识图都缺少了利用Wikidata特定特征来提高质量的机会。几乎所有方法都使用标签等特定属性,有时是描述,而是忽略超关系结构等特征。因此,例如,通过包括超关系图嵌入或类型信息,仍有改进的余地。许多方法还包括来自维基百科的信息,这些信息很容易与Wikidata组合并提供有价值的文本信息,Wikidata缺乏。
translated by 谷歌翻译
知识图是一个必不可少的和趋势技术,具有在实体识别,搜索或问题应答中的优势。在执行命名实体识别任务的自然语言处理中有一种方法;但是,有很少的方法可以为特定于域的文本提供三元组。在本文中,已经努力开发一个可以将文本从给定教科书转换为可以用于可视化的三元组的系统,以便为知识图形和用于进一步应用程序的系统。初步评估和评估给出了有希望的结果,F1得分为82%。
translated by 谷歌翻译
外部知识(A.K.A.侧面信息)在零拍摄学习(ZSL)中起着关键作用,该角色旨在预测从未出现在训练数据中的看不见的类。已被广泛调查了几种外部知识,例如文本和属性,但他们独自受到不完整的语义。因此,一些最近的研究提出了由于其高度富有效力和代表知识的兼容性而使用知识图表(千克)。但是,ZSL社区仍然缺乏用于学习和比较不同外部知识设置和基于不同的KG的ZSL方法的标准基准。在本文中,我们提出了六个资源,涵盖了三个任务,即零拍摄图像分类(ZS-IMGC),零拍摄关系提取(ZS-RE)和零拍KG完成(ZS-KGC)。每个资源都有一个正常的zsl基准标记和包含从文本到属性的kg的kg,从关系知识到逻辑表达式。我们已清楚地介绍了这些资源,包括其建设,统计数据格式和使用情况W.r.t.不同的ZSL方法。更重要的是,我们进行了一项全面的基准研究,具有两个通用和最先进的方法,两种特定方法和一种可解释方法。我们讨论并比较了不同的ZSL范式W.R.T.不同的外部知识设置,并发现我们的资源具有开发更高级ZSL方法的巨大潜力,并为应用KGS进行增强机学习的更多解决方案。所有资源都可以在https://github.com/china-uk-zsl/resources_for_kzsl上获得。
translated by 谷歌翻译
由于对高效有效的大数据分析解决方案的需求,医疗保健行业中数据分析的合并已取得了重大进展。知识图(KGS)已在该领域证明了效用,并且植根于许多医疗保健应用程序,以提供更好的数据表示和知识推断。但是,由于缺乏代表性的kg施工分类法,该指定领域中的几种现有方法不足和劣等。本文是第一个提供综合分类法和鸟类对医疗kg建筑的眼光的看法。此外,还对与各种医疗保健背景相关的学术工作中最新的技术进行了彻底的检查。这些技术是根据用于知识提取的方法,知识库和来源的类型以及合并评估协议的方法进行了严格评估的。最后,报道和讨论了文献中的一些研究发现和现有问题,为这个充满活力的地区开放了未来研究的视野。
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译
最近公布的知识图形嵌入模型的实施,培训和评估的异质性已经公平和彻底的比较困难。为了评估先前公布的结果的再现性,我们在Pykeen软件包中重新实施和评估了21个交互模型。在这里,我们概述了哪些结果可以通过其报告的超参数再现,这只能以备用的超参数再现,并且无法再现,并且可以提供洞察力,以及为什么会有这种情况。然后,我们在四个数据集上进行了大规模的基准测试,其中数千个实验和24,804 GPU的计算时间。我们展示了最佳实践,每个模型的最佳配置以及可以通过先前发布的最佳配置进行改进的洞察。我们的结果强调了模型架构,训练方法,丢失功能和逆关系显式建模的组合对于模型的性能来说至关重要,而不仅由模型架构决定。我们提供了证据表明,在仔细配置时,若干架构可以获得对最先进的结果。我们制定了所有代码,实验配置,结果和分析,导致我们在https://github.com/pykeen/pykeen和https://github.com/pykeen/benchmarking中获得的解释
translated by 谷歌翻译
Practices in the built environment have become more digitalized with the rapid development of modern design and construction technologies. However, the requirement of practitioners or scholars to gather complicated professional knowledge in the built environment has not been satisfied yet. In this paper, more than 80,000 paper abstracts in the built environment field were obtained to build a knowledge graph, a knowledge base storing entities and their connective relations in a graph-structured data model. To ensure the retrieval accuracy of the entities and relations in the knowledge graph, two well-annotated datasets have been created, containing 2,000 instances and 1,450 instances each in 29 relations for the named entity recognition task and relation extraction task respectively. These two tasks were solved by two BERT-based models trained on the proposed dataset. Both models attained an accuracy above 85% on these two tasks. More than 200,000 high-quality relations and entities were obtained using these models to extract all abstract data. Finally, this knowledge graph is presented as a self-developed visualization system to reveal relations between various entities in the domain. Both the source code and the annotated dataset can be found here: https://github.com/HKUST-KnowComp/BEKG.
translated by 谷歌翻译
知识图完成(又称〜链接预测),即〜从知识图推断缺失信息的任务是许多应用程序中广泛使用的任务,例如产品建议和问题答案。知识图嵌入和/或规则挖掘和推理的最新方法是数据驱动的,因此仅基于输入知识图所包含的信息。这导致了不令人满意的预测结果,这使得这种解决方案不适用于关键领域,例如医疗保健。为了进一步提高知识图完成的准确性,我们建议将知识图嵌入的数据驱动的能力与专家或累积制度(例如OWL2)引起的域特定于域的推理。通过这种方式,我们不仅使用可能不包含在输入知识图中的域知识增强了预测准确性,而且还允许用户插入自己的知识图嵌入和推理方法。我们的最初结果表明,我们通过最多3倍和优于混合解决方案来增强香草知识图嵌入的MRR准确性,这些溶液将知识图嵌入与规则挖掘和推理高达3.5倍MRR相结合。
translated by 谷歌翻译
机器学习方法尤其是深度神经网络取得了巨大的成功,但其中许多往往依赖于一些标记的样品进行训练。在真实世界的应用中,我们经常需要通过例如具有新兴预测目标和昂贵的样本注释的动态上下文来解决样本短缺。因此,低资源学习,旨在学习具有足够资源(特别是培训样本)的强大预测模型,现在正在被广泛调查。在所有低资源学习研究中,许多人更喜欢以知识图(kg)的形式利用一些辅助信息,这对于知识表示变得越来越受欢迎,以减少对标记样本的依赖。在这项调查中,我们非常全面地审查了90美元的报纸关于两个主要的低资源学习设置 - 零射击学习(ZSL)的预测,从未出现过训练,而且很少拍摄的学习(FSL)预测的新类仅具有可用的少量标记样本。我们首先介绍了ZSL和FSL研究中使用的KGS以及现有的和潜在的KG施工解决方案,然后系统地分类和总结了KG感知ZSL和FSL方法,将它们划分为不同的范例,例如基于映射的映射,数据增强,基于传播和基于优化的。我们接下来呈现了不同的应用程序,包括计算机视觉和自然语言处理中的kg增强预测任务,还包括kg完成的任务,以及每个任务的一些典型评估资源。我们最终讨论了一些关于新学习和推理范式的方面的一些挑战和未来方向,以及高质量的KGs的建设。
translated by 谷歌翻译
我们研究了对知识图中链路预测任务的知识图形嵌入(KGE)模型产生数据中毒攻击的问题。为了毒害KGE模型,我们建议利用他们通过知识图中的对称性,反演和构图等关系模式捕获的归纳能力。具体而言,为了降低模型对目标事实的预测信心,建议改善模型对一系列诱饵事实的预测信心。因此,我们通过不同的推理模式来制作对逆势的添加能够改善模型对诱饵事实上的预测信心。我们的实验表明,拟议的中毒攻击在四个KGE模型上倾斜的最先进的基座,用于两个公共数据集。我们还发现基于对称模式的攻击遍历了所有模型 - 数据集合,指示KGE模型对此模式的灵敏度。
translated by 谷歌翻译
Recent years have witnessed the resurgence of knowledge engineering which is featured by the fast growth of knowledge graphs. However, most of existing knowledge graphs are represented with pure symbols, which hurts the machine's capability to understand the real world. The multi-modalization of knowledge graphs is an inevitable key step towards the realization of human-level machine intelligence. The results of this endeavor are Multi-modal Knowledge Graphs (MMKGs). In this survey on MMKGs constructed by texts and images, we first give definitions of MMKGs, followed with the preliminaries on multi-modal tasks and techniques. We then systematically review the challenges, progresses and opportunities on the construction and application of MMKGs respectively, with detailed analyses of the strength and weakness of different solutions. We finalize this survey with open research problems relevant to MMKGs.
translated by 谷歌翻译
我们根据生态毒理学风险评估中使用的主要数据来源创建了知识图表。我们已经将这种知识图表应用于风险评估中的重要任务,即化学效果预测。我们已经评估了在该预测任务的各种几何,分解和卷积模型中嵌入模型的九个知识图形嵌入模型。我们表明,使用知识图形嵌入可以提高与神经网络的效果预测的准确性。此外,我们已经实现了一种微调架构,它将知识图形嵌入到效果预测任务中,并导致更好的性能。最后,我们评估知识图形嵌入模型的某些特征,以阐明各个模型性能。
translated by 谷歌翻译