Graph structure learning aims to learn connectivity in a graph from data. It is particularly important for many computer vision related tasks since no explicit graph structure is available for images for most cases. A natural way to construct a graph among images is to treat each image as a node and assign pairwise image similarities as weights to corresponding edges. It is well known that pairwise similarities between images are sensitive to the noise in feature representations, leading to unreliable graph structures. We address this problem from the viewpoint of statistical tests. By viewing the feature vector of each node as an independent sample, the decision of whether creating an edge between two nodes based on their similarity in feature representation can be thought as a ${\it single}$ statistical test. To improve the robustness in the decision of creating an edge, multiple samples are drawn and integrated by ${\it multiple}$ statistical tests to generate a more reliable similarity measure, consequentially more reliable graph structure. The corresponding elegant matrix form named $\mathcal{B}\textbf{-Attention}$ is designed for efficiency. The effectiveness of multiple tests for graph structure learning is verified both theoretically and empirically on multiple clustering and ReID benchmark datasets. Source codes are available at https://github.com/Thomas-wyh/B-Attention.
translated by 谷歌翻译
图形神经网络(GNNS)在提供图形结构时良好工作。但是,这种结构可能并不总是在现实世界应用中可用。该问题的一个解决方案是推断任务特定的潜在结构,然后将GNN应用于推断的图形。不幸的是,可能的图形结构的空间与节点的数量超级呈指数,因此任务特定的监督可能不足以学习结构和GNN参数。在这项工作中,我们提出了具有自我监督或拍打的邻接和GNN参数的同时学习,这是通过自我监督来推断图形结构的更多监督的方法。一个综合实验研究表明,缩小到具有数十万个节点的大图和胜过了几种模型,以便在已建立的基准上学习特定于任务的图形结构。
translated by 谷歌翻译
Graph Neural Networks (GNNs) have attracted increasing attention in recent years and have achieved excellent performance in semi-supervised node classification tasks. The success of most GNNs relies on one fundamental assumption, i.e., the original graph structure data is available. However, recent studies have shown that GNNs are vulnerable to the complex underlying structure of the graph, making it necessary to learn comprehensive and robust graph structures for downstream tasks, rather than relying only on the raw graph structure. In light of this, we seek to learn optimal graph structures for downstream tasks and propose a novel framework for semi-supervised classification. Specifically, based on the structural context information of graph and node representations, we encode the complex interactions in semantics and generate semantic graphs to preserve the global structure. Moreover, we develop a novel multi-measure attention layer to optimize the similarity rather than prescribing it a priori, so that the similarity can be adaptively evaluated by integrating measures. These graphs are fused and optimized together with GNN towards semi-supervised classification objective. Extensive experiments and ablation studies on six real-world datasets clearly demonstrate the effectiveness of our proposed model and the contribution of each component.
translated by 谷歌翻译
尽管图表学习(GRL)取得了重大进展,但要以足够的方式提取和嵌入丰富的拓扑结构和特征信息仍然是一个挑战。大多数现有方法都集中在本地结构上,并且无法完全融合全球拓扑结构。为此,我们提出了一种新颖的结构保留图表学习(SPGRL)方法,以完全捕获图的结构信息。具体而言,为了减少原始图的不确定性和错误信息,我们通过k-nearest邻居方法构建了特征图作为互补视图。该特征图可用于对比节点级别以捕获本地关系。此外,我们通过最大化整个图形和特征嵌入的相互信息(MI)来保留全局拓扑结构信息,从理论上讲,该信息可以简化为交换功能的特征嵌入和原始图以重建本身。广泛的实验表明,我们的方法在半监督节点分类任务上具有相当出色的性能,并且在图形结构或节点特征上噪声扰动下的鲁棒性出色。
translated by 谷歌翻译
图形神经网络(GNNS)由于图形数据的规模和模型参数的数量呈指数增长,因此限制了它们在实际应用中的效用,因此往往会遭受高计算成本。为此,最近的一些作品着重于用彩票假设(LTH)稀疏GNN,以降低推理成本,同时保持绩效水平。但是,基于LTH的方法具有两个主要缺点:1)它们需要对密集模型进行详尽且迭代的训练,从而产生了极大的训练计算成本,2)它们仅修剪图形结构和模型参数,但忽略了节点功能维度,存在大量冗余。为了克服上述局限性,我们提出了一个综合的图形渐进修剪框架,称为CGP。这是通过在一个训练过程中设计在训练图周期修剪范式上进行动态修剪GNN来实现的。与基于LTH的方法不同,提出的CGP方法不需要重新训练,这大大降低了计算成本。此外,我们设计了一个共同策略,以全面地修剪GNN的所有三个核心元素:图形结构,节点特征和模型参数。同时,旨在完善修剪操作,我们将重生过程引入我们的CGP框架,以重新建立修剪但重要的连接。提出的CGP通过在6个GNN体系结构中使用节点分类任务进行评估,包括浅层模型(GCN和GAT),浅但深度散发模型(SGC和APPNP)以及Deep Models(GCNII和RESGCN),总共有14个真实图形数据集,包括来自挑战性开放图基准的大规模图数据集。实验表明,我们提出的策略在匹配时大大提高了训练和推理效率,甚至超过了现有方法的准确性。
translated by 谷歌翻译
从消息传递机制中受益,图形神经网络(GNN)在图形数据上的繁荣任务上已经成功。但是,最近的研究表明,攻击者可以通过恶意修改图形结构来灾难性地降低GNN的性能。解决此问题的直接解决方案是通过在两个末端节点的成对表示之间学习度量函数来建模边缘权重,该指标函数试图将低权重分配给对抗边缘。现有方法使用监督GNN学到的原始功能或表示形式来对边缘重量进行建模。但是,两种策略都面临着一些直接问题:原始特征不能代表节点的各种特性(例如结构信息),而受监督的GNN学到的表示可能会遭受分类器在中毒图上的差异性能。我们需要携带特征信息和尽可能糊状的结构信息并且对结构扰动不敏感的表示形式。为此,我们提出了一条名为stable的无监督管道,以优化图形结构。最后,我们将精心设计的图输入到下游分类器中。对于这一部分,我们设计了一个高级GCN,可显着增强香草GCN的鲁棒性,而不会增加时间复杂性。在四个现实世界图基准上进行的广泛实验表明,稳定的表现优于最先进的方法,并成功防御各种攻击。
translated by 谷歌翻译
在许多现实世界应用中,基于图表编辑距离(GED)等指标(GED)等图表之间计算相似性得分的能力很重要。计算精确的GED值通常是一个NP硬性问题,传统算法通常在准确性和效率之间实现不令人满意的权衡。最近,图形神经网络(GNNS)为该任务提供了数据驱动的解决方案,该解决方案更有效,同时保持小图中的预测准确性(每图约10个节点)相似性计算。现有的基于GNN的方法分别嵌入了两个图(缺乏低水平的横向互动)或用于整个图表对(冗余和耗时)的部署跨冲突相互作用,在图中的节点数量增加。在本文中,我们着重于大规模图的相似性计算,并提出了“嵌入式磨合匹配”框架cosimgnn,该框架首先嵌入和粗大图形具有自适应池操作,然后在污垢的图表上部署细粒度的相互作用,以便在污垢的图形上进行污垢的互动最终相似性得分。此外,我们创建了几个合成数据集,这些数据集为图形相似性计算提供了新的基准测试。已经进行了有关合成数据集和现实世界数据集的详细实验,并且Cosimgnn实现了最佳性能,而推理时间最多是以前的Etab-The-The-The-ART的1/3。
translated by 谷歌翻译
Clustering is a fundamental problem in network analysis that finds closely connected groups of nodes and separates them from other nodes in the graph, while link prediction is to predict whether two nodes in a network are likely to have a link. The definition of both naturally determines that clustering must play a positive role in obtaining accurate link prediction tasks. Yet researchers have long ignored or used inappropriate ways to undermine this positive relationship. In this article, We construct a simple but efficient clustering-driven link prediction framework(ClusterLP), with the goal of directly exploiting the cluster structures to obtain connections between nodes as accurately as possible in both undirected graphs and directed graphs. Specifically, we propose that it is easier to establish links between nodes with similar representation vectors and cluster tendencies in undirected graphs, while nodes in a directed graphs can more easily point to nodes similar to their representation vectors and have greater influence in their own cluster. We customized the implementation of ClusterLP for undirected and directed graphs, respectively, and the experimental results using multiple real-world networks on the link prediction task showed that our models is highly competitive with existing baseline models. The code implementation of ClusterLP and baselines we use are available at https://github.com/ZINUX1998/ClusterLP.
translated by 谷歌翻译
最近关于图表卷积网络(GCN)的研究表明,初始节点表示(即,第一次图卷积前的节点表示)很大程度上影响最终的模型性能。但是,在学习节点的初始表示时,大多数现有工作线性地组合了节点特征的嵌入,而不考虑特征之间的交互(或特征嵌入)。我们认为,当节点特征是分类时,例如,在许多实际应用程序中,如用户分析和推荐系统,功能交互通常会对预测分析进行重要信号。忽略它们将导致次优初始节点表示,从而削弱后续图表卷积的有效性。在本文中,我们提出了一个名为CatGCN的新GCN模型,当节点功能是分类时,为图表学习量身定制。具体地,我们将显式交互建模的两种方式集成到初始节点表示的学习中,即在每对节点特征上的本地交互建模和人工特征图上的全局交互建模。然后,我们通过基于邻域聚合的图形卷积来优化增强的初始节点表示。我们以端到端的方式训练CatGCN,并在半监督节点分类上展示它。来自腾讯和阿里巴巴数据集的三个用户分析的三个任务(预测用户年龄,城市和购买级别)的大量实验验证了CatGCN的有效性,尤其是在图表卷积之前执行特征交互建模的积极效果。
translated by 谷歌翻译
最近,图形神经网络(GNN)通过利用图形结构和节点特征的知识来表现出图表表示的显着性能。但是,他们中的大多数都有两个主要限制。首先,GNN可以通过堆叠更多的层来学习高阶结构信息,但由于过度光滑的问题,无法处理较大的深度。其次,由于昂贵的计算成本和高内存使用情况,在大图上应用这些方法并不容易。在本文中,我们提出了节点自适应特征平滑(NAFS),这是一种简单的非参数方法,该方法构建了没有参数学习的节点表示。 NAFS首先通过特征平滑提取每个节点及其不同啤酒花的邻居的特征,然后自适应地结合了平滑的特征。此外,通过不同的平滑策略提取的平滑特征的合奏可以进一步增强构建的节点表示形式。我们在两个不同的应用程序方案上对四个基准数据集进行实验:节点群集和链接预测。值得注意的是,具有功能合奏的NAFS优于这些任务上最先进的GNN,并减轻上述大多数基于学习的GNN对应物的两个限制。
translated by 谷歌翻译
Graph AutoCododers(GAE)和变分图自动编码器(VGAE)作为链接预测的强大方法出现。他们的表现对社区探测问题的印象不那么令人印象深刻,根据最近和同意的实验评估,它们的表现通常超过了诸如louvain方法之类的简单替代方案。目前尚不清楚可以通过GAE和VGAE改善社区检测的程度,尤其是在没有节点功能的情况下。此外,不确定是否可以在链接预测上同时保留良好的性能。在本文中,我们表明,可以高精度地共同解决这两个任务。为此,我们介绍和理论上研究了一个社区保留的消息传递方案,通过在计算嵌入空间时考虑初始图形结构和基于模块化的先验社区来掺杂我们的GAE和VGAE编码器。我们还提出了新颖的培训和优化策略,包括引入一个模块化的正规器,以补充联合链路预测和社区检测的现有重建损失。我们通过对各种现实世界图的深入实验验证,证明了方法的经验有效性,称为模块化感知的GAE和VGAE。
translated by 谷歌翻译
面部聚类是使用大型未标记的面部图像扩展面部识别系统的一种有希望的方法。识别我们称之为硬群的小或稀疏的面部图像簇仍然具有挑战性,这是由簇的异质性,\ ie,大小和稀疏性的高变化引起的。因此,使用均匀阈值(识别簇)的常规方式通常会导致对应该属于硬群的样品的可怕分类。我们通过利用样品的邻居信息并以概率方式推断(样本的)群集成员来解决这个问题。我们介绍了两个新型模块,分别是基于邻域扩散的密度(NDDE)和基于过渡概率的距离(TPDI),我们可以简单地将标准密度峰值聚类算法应用于均匀的阈值。我们对多个基准测试的实验表明,每个模块都会有助于我们方法的最终性能,并通过将其纳入其他高级面部聚类方法中,这两个模块可以将这些方法的性能提高到新的最先进。代码可在以下网址获得:https://github.com/echoanran/on-mitigating-hard-clusters。
translated by 谷歌翻译
网络完成是一个比链接预测更难的问题,因为它不仅尝试推断丢失的链接,还要推断节点。已经提出了不同的方法来解决此问题,但是很少有人使用结构信息 - 局部连接模式的相似性。在本文中,我们提出了一个名为C-GIN的模型,以根据图形自动编码器框架从网络的观察到的部分捕获局部结构模式,该框架配备了图形同构网络模型,并将这些模式推广到完成整个图形。对来自不同领域的合成和现实世界网络的实验和分析表明,C-Gin可以实现竞争性能,而所需的信息较少,并且在大多数情况下,与基线预测模型相比,可以获得更高的准确性。我们进一步提出了一个基于网络结构的“可达聚类系数(CC)”。实验表明,我们的模型在具有较高可及的CC的网络上表现更好。
translated by 谷歌翻译
基于聚类的方法,在伪标签的产生和特征提取网络的优化之间交替,在无监督学习(USL)和无监督的域自适应(UDA)人重新识别(RE-ID)中起着主要作用。为了减轻嘈杂的伪标签的不利影响,现有方法要么放弃不可靠的标签,要么通过相互学习或标签传播来完善伪标签。但是,仍然积累了许多错误的标签,因为这些方法主要采用传统的无监督聚类算法,这些算法依赖于对数据分布的某些假设,并且无法捕获复杂的现实世界数据的分布。在本文中,我们提出了基于插件的伪标签校正网络(GLC),以以监督聚类的方式完善伪标签。训练GLC可以通过任何聚类方法生成的初始伪标签的监督来感知自训练的每个时期的不同数据分布。它可以学会通过K最近的邻居(KNN)图和早期训练策略的样本之间的关系约束来纠正初始嘈杂标签。具体而言,GLC学会从邻居汇总节点特征,并预测是否应在图上链接节点。此外,在对嘈杂的标签进行严重记忆以防止过度拟合嘈杂的伪标签之前,GLC已通过“早停”进行了优化。因此,尽管监督信号包含一些噪音,但GLC提高了伪标签的质量,从而可以更好地进行重新ID性能。在Market-1501和MSMT17上进行了USL和UDA人重新ID的广泛实验表明,我们的方法与各种基于聚类的方法广泛兼容,并始终如一地促进最先进的性能。
translated by 谷歌翻译
In recent years, benefiting from the expressive power of Graph Convolutional Networks (GCNs), significant breakthroughs have been made in face clustering area. However, rare attention has been paid to GCN-based clustering on imbalanced data. Although imbalance problem has been extensively studied, the impact of imbalanced data on GCN- based linkage prediction task is quite different, which would cause problems in two aspects: imbalanced linkage labels and biased graph representations. The former is similar to that in classic image classification task, but the latter is a particular problem in GCN-based clustering via linkage prediction. Significantly biased graph representations in training can cause catastrophic over-fitting of a GCN model. To tackle these challenges, we propose a linkage-based doubly imbalanced graph learning framework for face clustering. In this framework, we evaluate the feasibility of those existing methods for imbalanced image classification problem on GCNs, and present a new method to alleviate the imbalanced labels and also augment graph representations using a Reverse-Imbalance Weighted Sampling (RIWS) strategy. With the RIWS strategy, probability-based class balancing weights could ensure the overall distribution of positive and negative samples; in addition, weighted random sampling provides diverse subgraph structures, which effectively alleviates the over-fitting problem and improves the representation ability of GCNs. Extensive experiments on series of imbalanced benchmark datasets synthesized from MS-Celeb-1M and DeepFashion demonstrate the effectiveness and generality of our proposed method. Our implementation and the synthesized datasets will be openly available on https://github.com/espectre/GCNs_on_imbalanced_datasets.
translated by 谷歌翻译
基于深度学习的图生成方法具有显着的图形数据建模能力,从而使它们能够解决广泛的现实世界问题。使这些方法能够在生成过程中考虑不同的条件,甚至通过授权它们生成满足所需标准的新图形样本来提高其有效性。本文提出了一种条件深图生成方法,称为SCGG,该方法考虑了特定类型的结构条件。具体而言,我们提出的SCGG模型采用初始子图,并自动重新收获在给定条件子结构之上生成新节点及其相应的边缘。 SCGG的体系结构由图表表示网络和自动回归生成模型组成,该模型是端到端训练的。使用此模型,我们可以解决图形完成,这是恢复缺失的节点及其相关的部分观察图的猖and固有的困难问题。合成数据集和现实世界数据集的实验结果证明了我们方法的优势与最先进的基准相比。
translated by 谷歌翻译
用于异质图嵌入的图形神经网络是通过探索异质图的异质性和语义来将节点投射到低维空间中。但是,一方面,大多数现有的异质图嵌入方法要么不足以对特定语义下的局部结构进行建模,要么在汇总信息时忽略异质性。另一方面,来自多种语义的表示形式未全面整合以获得多功能节点嵌入。为了解决该问题,我们通过引入多视图表示学习的概念,提出了一个具有多视图表示学习(名为MV-HETGNN)的异质图神经网络(称为MV-HETGNN)。所提出的模型由节点特征转换,特定于视图的自我图编码和自动多视图融合,以彻底学习复杂的结构和语义信息,以生成全面的节点表示。在三个现实世界的异质图数据集上进行的广泛实验表明,所提出的MV-HETGNN模型始终优于各种下游任务中所有最新的GNN基准,例如节点分类,节点群集和链接预测。
translated by 谷歌翻译
图形相似性学习是指计算两个图之间的相似性得分,这在许多现实的应用程序(例如视觉跟踪,图形分类和协作过滤)中需要。由于大多数现有的图形神经网络产生了单个图的有效图表,因此几乎没有努力共同学习两个图表并计算其相似性得分。此外,现有的无监督图相似性学习方法主要基于聚类,它忽略了图对中体现的有价值的信息。为此,我们提出了一个对比度图匹配网络(CGMN),以进行自我监督的图形相似性学习,以计算任何两个输入图对象之间的相似性。具体而言,我们分别在一对中为每个图生成两个增强视图。然后,我们采用两种策略,即跨视图相互作用和跨刻画相互作用,以实现有效的节点表示学习。前者求助于两种观点中节点表示的一致性。后者用于识别不同图之间的节点差异。最后,我们通过汇总操作进行图形相似性计算将节点表示形式转换为图形表示。我们已经在八个现实世界数据集上评估了CGMN,实验结果表明,所提出的新方法优于图形相似性学习下游任务的最新方法。
translated by 谷歌翻译
注意机制使图形神经网络(GNN)能够学习目标节点与其单跳邻居之间的注意力权重,从而进一步提高性能。但是,大多数现有的GNN都针对均匀图,其中每一层只能汇总单跳邻居的信息。堆叠多层网络引入了相当大的噪音,并且很容易导致过度平滑。我们在这里提出了一种多跃波异质邻域信息融合图表示方法(MHNF)。具体而言,我们提出了一个混合元自动提取模型,以有效提取多ihop混合邻居。然后,我们制定了一个跳级的异质信息聚合模型,该模型在同一混合Metapath中选择性地汇总了不同的跳跃邻域信息。最后,构建了分层语义注意融合模型(HSAF),该模型可以有效地整合不同的互动和不同的路径邻域信息。以这种方式,本文解决了汇总MultiHop邻里信息和学习目标任务的混合元数据的问题。这减轻了手动指定Metapaths的限制。此外,HSAF可以提取Metapaths的内部节点信息,并更好地整合存在不同级别的语义信息。真实数据集的实验结果表明,MHNF在最先进的基准中取得了最佳或竞争性能,仅1/10〜1/100参数和计算预算。我们的代码可在https://github.com/phd-lanyu/mhnf上公开获取。
translated by 谷歌翻译
对图形卷积网络(GCN)的兴趣激增,已经产生了数千种GCN变体,每年引入数百种。相比之下,许多GCN模型仅重复使用少数基准数据集,因为人们的兴趣图(例如社交或商业网络)都是专有的。我们提出了一个新的图生成问题,以使源图分布之后,为GCN生成各种基准图(可能是专有的),具有三个要求:1)基准有效性作为GCN研究源图的替代品, 2)可扩展性处理大型现实图形,以及3)最终用户的隐私保证。借助新的图形编码方案,我们将大规模的图生成问题重新构架为中长长序列生成问题,并将变压器体系结构的强生成功率应用于图形域。跨大量图生成模型进行的广泛实验表明,我们的模型可以成功生成基准图,并具有实际的图形结构,节点属性和基准GCNS在节点分类任务上所需的节点标签。
translated by 谷歌翻译