近年来,高吞吐量筛选的进步,对更复杂的化学设计空间的可访问性以及准确的分子建模框架的发展,近年来快速发现了新的反应和分子。因此,对不断增长的化学文献进行的整体研究是必需的,该研究重点是理解最近的趋势并将其推断到可能的未来轨迹中。为此,已经报道了几项基于网络理论的研究,该研究使用了化学反应的定向图表示。在这里,我们根据代表化学反应作为超图表的研究进行了一项研究,其中超蛋白代表化学反应,节点代表参与分子。我们使用标准反应数据集来构建超网络,并报告其统计数据,例如学位分布,平均路径长度,分类性或程度相关性,pagerank中心性和基于图的集群(或社区)。我们还计算了每个统计量的反应的等效的有向图表示,以绘制相似之处并突出两者之间的差异。为了证明超图反应表示的AI适用性,我们生成致密的超透明嵌入,并将其用于反应分类问题。我们得出的结论是,超网络表示是灵活的,可以保留反应环境,并发现了隐藏的见解,这些洞察力在传统的化学反应的传统图形表示中却不明显。
translated by 谷歌翻译
许多复杂网络的结构包括其拓扑顶部的边缘方向性和权重。可以无缝考虑这些属性组合的网络分析是可取的。在本文中,我们研究了两个重要的这样的网络分析技术,即中心和聚类。采用信息流基于集群的模型,该模型本身就是在计算中心的信息定理措施时构建。我们的主要捐款包括马尔可夫熵中心的广义模型,灵活地调整节点度,边缘权重和方向的重要性,具有闭合形式的渐近分析。它导致一种新颖的两级图形聚类算法。中心分析有助于推理我们对给定图形的方法的适用性,并确定探索当地社区结构的“查询”节点,从而导致群集聚类机制。熵中心计算由我们的聚类算法摊销,使其计算得高效:与使用马尔可夫熵中心为聚类的先前方法相比,我们的实验表明了多个速度的速度。我们的聚类算法自然地继承了适应边缘方向性的灵活性,以及​​边缘权重和节点度之间的不同解释和相互作用。总的来说,本文不仅具有显着的理论和概念贡献,还转化为实际相关性的文物,产生新的,有效和可扩展的中心计算和图形聚类算法,其有效通过广泛的基准测试进行了验证。
translated by 谷歌翻译
在过去十年中,图形内核引起了很多关注,并在结构化数据上发展成为一种快速发展的学习分支。在过去的20年中,该领域发生的相当大的研究活动导致开发数十个图形内核,每个图形内核都对焦于图形的特定结构性质。图形内核已成功地成功地在广泛的域中,从社交网络到生物信息学。本调查的目标是提供图形内核的文献的统一视图。特别是,我们概述了各种图形内核。此外,我们对公共数据集的几个内核进行了实验评估,并提供了比较研究。最后,我们讨论图形内核的关键应用,并概述了一些仍有待解决的挑战。
translated by 谷歌翻译
这篇综述的目的是将读者介绍到图表内,以将其应用于化学信息学中的分类问题。图内核是使我们能够推断分子的化学特性的功能,可以帮助您完成诸如寻找适合药物设计的化合物等任务。内核方法的使用只是一种特殊的两种方式量化了图之间的相似性。我们将讨论限制在这种方法上,尽管近年来已经出现了流行的替代方法,但最著名的是图形神经网络。
translated by 谷歌翻译
图形嵌入是图形节点到一组向量的转换。良好的嵌入应捕获图形拓扑,节点与节点的关系以及有关图,其子图和节点的其他相关信息。如果实现了这些目标,则嵌入是网络中有意义的,可理解的,可理解的压缩表示形式,可用于其他机器学习工具,例如节点分类,社区检测或链接预测。主要的挑战是,需要确保嵌入很好地描述图形的属性。结果,选择最佳嵌入是一项具有挑战性的任务,并且通常需要领域专家。在本文中,我们在现实世界网络和人为生成的网络上进行了一系列广泛的实验,并使用选定的图嵌入算法进行了一系列的实验。根据这些实验,我们制定了两个一般结论。首先,如果需要在运行实验之前选择一种嵌入算法,则Node2Vec是最佳选择,因为它在我们的测试中表现最好。话虽如此,在所有测试中都没有单一的赢家,此外,大多数嵌入算法都具有应该调整并随机分配的超参数。因此,如果可能的话,我们对从业者的主要建议是生成几个问题的嵌入,然后使用一个通用框架,该框架为无监督的图形嵌入比较提供了工具。该框架(最近在文献中引入并在GitHub存储库中很容易获得)将分歧分数分配给嵌入,以帮助区分好的分数和不良的分数。
translated by 谷歌翻译
局部内在维度(LID)的概念是数据维度分析的重要进步,并在数据挖掘,机器学习和相似性搜索问题中应用了。现有的基于距离的盖估计器设计用于包含欧几里得空间中向量的数据点的表格数据集。在讨论了考虑图嵌入和图形距离的图形结构数据的局限性之后,我们提出了NC-lid,这是一种与盖子相关的新型措施,用于量化最短路径距离相对于自然群落的固有区域的歧视能力。它显示了如何使用该度量来设计嵌入算法的图形图,并通过根据NC-LID值调整了Node2VEC的两个LID弹性变体。我们对NC-LID对大量实际图表的经验分析表明,该措施能够指向Node2VEC嵌入中具有高链路重建错误的节点,而不是节点中心度指标。实验评估还表明,通过在生成的嵌入中更好地保​​留图形结构,提出的盖 - 弹性节点2VEC扩展可以改善节点2VEC。
translated by 谷歌翻译
近年来,基于Weisfeiler-Leman算法的算法和神经架构,是一个众所周知的Graph同构问题的启发式问题,它成为具有图形和关系数据的机器学习的强大工具。在这里,我们全面概述了机器学习设置中的算法的使用,专注于监督的制度。我们讨论了理论背景,展示了如何将其用于监督的图形和节点表示学习,讨论最近的扩展,并概述算法的连接(置换 - )方面的神经结构。此外,我们概述了当前的应用和未来方向,以刺激进一步的研究。
translated by 谷歌翻译
Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
translated by 谷歌翻译
The local optima network model has proved useful in the past in connection with combinatorial optimization problems. Here we examine its extension to the real continuous function domain. Through a sampling process, the model builds a weighted directed graph which captures the function's minima basin structure and its interconnection and which can be easily manipulated with the help of complex networks metrics. We show that the model provides a complementary view of function spaces that is easier to analyze and visualize, especially at higher dimension. In particular, we show that function hardness as represented by algorithm performance, is strongly related to several graph properties of the corresponding local optima network, opening the way for a classification of problem difficulty according to the corresponding graph structure and with possible extensions in the design of better metaheuristic approaches.
translated by 谷歌翻译
生物医学网络是与疾病网络的蛋白质相互作用的普遍描述符,从蛋白质相互作用,一直到医疗保健系统和科学知识。随着代表学习提供强大的预测和洞察的显着成功,我们目睹了表现形式学习技术的快速扩展,进入了这些网络的建模,分析和学习。在这篇综述中,我们提出了一个观察到生物学和医学中的网络长期原则 - 而在机器学习研究中经常出口 - 可以为代表学习提供概念基础,解释其当前的成功和限制,并告知未来进步。我们综合了一系列算法方法,即在其核心利用图形拓扑到将网络嵌入到紧凑的向量空间中,并捕获表示陈述学习证明有用的方式的广度。深远的影响包括鉴定复杂性状的变异性,单细胞的异心行为及其对健康的影响,协助患者的诊断和治疗以及制定安全有效的药物。
translated by 谷歌翻译
大多数人类活动都需要在正式或非正式团队内部和跨部队进行合作。我们对团队所花费的合作努力与他们的表现有何关系的理解仍然是一个辩论问题。团队合作导致了一个高度相互联系的生态系统,这些生态系统可能是重叠的组件,其中与团队成员和其他团队进行互动执行任务。为了解决这个问题,我们提出了一个图形神经网络模型,旨在预测团队的性能,同时确定确定这种结果的驱动程序。特别是,该模型基于三个架构渠道:拓扑,中心性和上下文,它们捕获了不同因素可能塑造了团队的成功。我们赋予该模型具有两种注意机制,以提高模型性能并允许解释性。第一种机制允许查明团队内部的关键成员。第二种机制使我们能够量化三个驱动程序在确定结果绩效方面的贡献。我们在广泛的域上测试模型性能,其表现优于所考虑的大多数经典和神经基准。此外,我们包括专门设计的合成数据集,以验证该模型如何删除我们的模型胜过基线的预期属性。
translated by 谷歌翻译
尽管人们对叛乱团体结构对冲突结果的重要性越来越多,但那里的实证研究很少。尽管此问题源于激进群体结构的数据的无法获取性,但叛乱分子经常在Internet上发布大量图像数据。在本文中,我开发了一种新的方法,该方法通过自动化基于在照片中使用深度学习的照片中的共同出现的社交网络图来自动创建社交网络图,从而利用了这种丰富但未充分利用的数据来源。我使用库尔德人武装组织在土耳其的库尔德人激进组织在线发布的1915张ob告图像,我证明了个人在由此产生的共同出现网络中的中心地位与他们在叛乱组织中的排名密切相关。
translated by 谷歌翻译
Clustering is a fundamental problem in network analysis that finds closely connected groups of nodes and separates them from other nodes in the graph, while link prediction is to predict whether two nodes in a network are likely to have a link. The definition of both naturally determines that clustering must play a positive role in obtaining accurate link prediction tasks. Yet researchers have long ignored or used inappropriate ways to undermine this positive relationship. In this article, We construct a simple but efficient clustering-driven link prediction framework(ClusterLP), with the goal of directly exploiting the cluster structures to obtain connections between nodes as accurately as possible in both undirected graphs and directed graphs. Specifically, we propose that it is easier to establish links between nodes with similar representation vectors and cluster tendencies in undirected graphs, while nodes in a directed graphs can more easily point to nodes similar to their representation vectors and have greater influence in their own cluster. We customized the implementation of ClusterLP for undirected and directed graphs, respectively, and the experimental results using multiple real-world networks on the link prediction task showed that our models is highly competitive with existing baseline models. The code implementation of ClusterLP and baselines we use are available at https://github.com/ZINUX1998/ClusterLP.
translated by 谷歌翻译
在过去的二十年中,我们目睹了以图形或网络形式构建的有价值的大数据的大幅增长。为了将传统的机器学习和数据分析技术应用于此类数据,有必要将图形转换为基于矢量的表示,以保留图形最重要的结构属性。为此,文献中已经提出了大量的图形嵌入方法。它们中的大多数产生了适用于各种应用的通用嵌入,例如节点聚类,节点分类,图形可视化和链接预测。在本文中,我们提出了两个新的图形嵌入算法,这些算法是基于专门为节点分类问题设计的随机步道。已设计算法的随机步行采样策略旨在特别注意集线器 - 高度节点,这些节点在大规模图中具有最关键的作用。通过分析对现实世界网络嵌入的三种分类算法的分类性能,对所提出的方法进行实验评估。获得的结果表明,与当前最流行的随机步行方法相比,我们的方法可大大提高所检查分类器的预测能力(NODE2VEC)。
translated by 谷歌翻译
Machine learning on graphs is an important and ubiquitous task with applications ranging from drug design to friendship recommendation in social networks. The primary challenge in this domain is finding a way to represent, or encode, graph structure so that it can be easily exploited by machine learning models. Traditionally, machine learning approaches relied on user-defined heuristics to extract features encoding structural information about a graph (e.g., degree statistics or kernel functions). However, recent years have seen a surge in approaches that automatically learn to encode graph structure into low-dimensional embeddings, using techniques based on deep learning and nonlinear dimensionality reduction. Here we provide a conceptual review of key advancements in this area of representation learning on graphs, including matrix factorization-based methods, random-walk based algorithms, and graph neural networks. We review methods to embed individual nodes as well as approaches to embed entire (sub)graphs. In doing so, we develop a unified framework to describe these recent approaches, and we highlight a number of important applications and directions for future work.
translated by 谷歌翻译
In this article, we propose a family of efficient kernels for large graphs with discrete node labels. Key to our method is a rapid feature extraction scheme based on the Weisfeiler-Lehman test of isomorphism on graphs. It maps the original graph to a sequence of graphs, whose node attributes capture topological and label information. A family of kernels can be defined based on this Weisfeiler-Lehman sequence of graphs, including a highly efficient kernel comparing subtree-like patterns. Its runtime scales only linearly in the number of edges of the graphs and the length of the Weisfeiler-Lehman graph sequence. In our experimental evaluation, our kernels outperform state-of-the-art graph kernels on several graph classification benchmark data sets in terms of accuracy and runtime. Our kernels open the door to large-scale applications of graph kernels in various disciplines such as computational biology and social network analysis.
translated by 谷歌翻译
图表表示学习方法为网络中的节点生成数值矢量表示,从而能够在标准机器学习模型中使用。这些方法旨在保留关系信息,使得图表中类似的节点在表示空间中彼此接近。相似性可以很大程度上基于两个概念之一:连接或结构作用。在节点结构角色重要的任务中,基于连接的方法表现出差的性能。最近的工作已经开始专注于学习方法的可扩展性,将数百万到数十亿节点和边缘的大规模图。许多无监督的节点表示学习算法无法缩放到大图,并且无法生成未经证明节点的节点表示。在这项工作中,我们提出了推理SiR-Gn,该模型在随机图上预先训练,然后快速计算节点表示,包括非常大的网络。我们证明该模型能够捕获节点的结构角色信息,并在未经网络上的节点和图形分类任务中显示出优异的性能。此外,我们观察到推理SIR-GN的可扩展性与大规模图表的最快电流方法相当。
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
图形嵌入是将网络的节点转换为一组向量。良好的嵌入应捕获底层图形拓扑和结构,节点到节点关系以及图形,其子图和节点的其他相关信息。如果实现了这些目标,则嵌入是网络的有意义,可以理解的,通常是压缩的。不幸的是,选择最好的嵌入是一个具有挑战性的任务,并且通常需要域名专家。在本文中,我们扩展了评估作者最近引入的图形嵌入的框架。现在,该框架为每个嵌入的嵌入分配两个分数,本地和全局,测量评估嵌入的嵌入的质量,以便分别需要良好地表示网络的全局属性。如果需要,最好的嵌入可以以无监督的方式选择,或者框架可以识别一些值得进一步调查的少数嵌入。该框架灵活,可扩展,可以处理无向/定向,加权/未加权图。
translated by 谷歌翻译
复杂的网络是代表现实生活系统的图形,这些系统表现出独特的特征,这些特征在纯粹的常规或完全随机的图中未发现。由于基础过程的复杂性,对此类系统的研究至关重要,但具有挑战性。然而,由于大量网络数据的可用性,近几十年来,这项任务变得更加容易。复杂网络中的链接预测旨在估计网络中缺少两个节点之间的链接的可能性。由于数据收集的不完美或仅仅是因为它们尚未出现,因此可能会缺少链接。发现网络数据中实体之间的新关系吸引了研究人员在社会学,计算机科学,物理学和生物学等各个领域的关注。大多数现有研究的重点是无向复杂网络中的链接预测。但是,并非所有现实生活中的系统都可以忠实地表示为无向网络。当使用链接预测算法时,通常会做出这种简化的假设,但不可避免地会导致有关节点之间关系和预测性能中降解的信息的丢失。本文介绍了针对有向网络的明确设计的链接预测方法。它基于相似性范式,该范式最近已证明在无向网络中成功。提出的算法通过在相似性和受欢迎程度上将其建模为不对称性来处理节点关系中的不对称性。鉴于观察到的网络拓扑结构,该算法将隐藏的相似性近似为最短路径距离,并使用边缘权重捕获并取消链接的不对称性和节点的受欢迎程度。在现实生活中评估了所提出的方法,实验结果证明了其在预测各种网络数据类型和大小的丢失链接方面的有效性。
translated by 谷歌翻译