子空间聚类方法拥抱一个自表现模型,表示每个数据点作为数据集中的其他数据点的线性组合是强大的无监督学习技术。然而,在处理大规模数据集时,通过参考作为字典的所有数据点来表示每个数据点的表示患有高计算复杂度。为了缓解这个问题,我们通过梳理多个子集,引入并行的基于多子集的自表现模型(PMS),该模型表示每个数据点,每个数据点仅包括小百分比样本。子空间聚类中的PMS采用(PMSSC)导致计算优势,因为分解到每个子集中的每个优化问题很小,并且可以并行地求解。此外,PMSSC能够组合从子集获得的多个自我表达系数矢量,这有助于改善自表现。对合成数据和现实世界数据集的广泛实验表明了我们对竞争方法的方法的效率和有效性。
translated by 谷歌翻译
光谱型子空间聚类算法成功的关键点是寻求重建系数矩阵,这些矩阵可以忠实地揭示数据集的子空间结构。理想的重建系数矩阵应该具有两个属性:1)它是块对角线,每个块指示一个子空间; 2)每个块完全连接。尽管已经提出了各种光谱类型子空间聚类算法,但这些算法构建的重建系数矩阵中仍然存在一些缺陷。我们发现,归一化成员矩阵自然满足上述两个条件。因此,在本文中,我们设计了一种基本表示(IDR)算法来追求近似归一化成员矩阵的重建系数矩阵。 IDR设计了重建系数矩阵的新的IDEMTOTENT约束。通过将双随机约束结合在一起,可以直接实现与归一化构件矩阵封闭的系数矩阵。我们提出了用于解决IDR问题的优化算法,并分析其计算负担和收敛性。 IDR和相关算法之间的比较显示IDR的优势。对合成和现实世界数据集进行的大量实验证明,IDR是一种有效而有效的子空间聚类算法。
translated by 谷歌翻译
子空间聚类是将大约位于几个低维子空间的数据样本集合集合的经典问题。此问题的当前最新方法基于自我表达模型,该模型表示样品是其他样品的线性组合。但是,这些方法需要足够广泛的样品才能准确表示,这在许多应用中可能不一定是可以访问的。在本文中,我们阐明了这个常见的问题,并认为每个子空间中的数据分布在自我表达模型的成功中起着至关重要的作用。我们提出的解决此问题的解决方案是由数据扩展在深神经网络的概括力中的核心作用引起的。我们为无监督和半监督的设置提出了两个子空间聚类框架,这些框架使用增强样品作为扩大词典来提高自我表达表示的质量。我们提出了一种使用一些标记的样品进行半监督问题的自动增强策略,该问题取决于数据样本位于多个线性子空间的联合以下事实。实验结果证实了数据增强的有效性,因为它显着提高了一般自我表达模型的性能。
translated by 谷歌翻译
大多数现有的半监督基于图的聚类方法通过完善亲和力矩阵或直接限制数据点的低维表示来利用监督信息。亲和力矩阵代表图形结构,对于半监督基于图的聚类的性能至关重要。但是,现有方法采用静态亲和力矩阵来学习数据点的低维表示,并且在学习过程中不会优化亲和力矩阵。在本文中,我们提出了一种新型的动态图结构学习方法,用于半监督聚类。在这种方法中,我们通过利用给定的成对约束来同时优化数据点的亲和力矩阵和低维表示。此外,我们提出了一种交替的最小化方法,并通过可靠的收敛来解决提出的非凸模型。在迭代过程中,我们的方法周期性地更新数据点的低维表示并完善了亲和力矩阵,从而导致动态亲和力矩阵(图结构)。具体而言,为了更新亲和力矩阵,我们强制使用具有明显不同的低维表示的数据点具有相关值为0。点。在不同设置下的八个基准数据集上的实验结果显示了所提出方法的优势。
translated by 谷歌翻译
多视图聚类已进行了广泛的研究,以利用多源信息来提高聚类性能。通常,大多数现有作品通常通过某些相似性/距离指标(例如欧几里得距离)或学习的表示形式来计算N * n亲和力图,并探索跨视图的成对相关性。但是不幸的是,通常需要二次甚至立方复杂性,这使得在聚集largescale数据集方面遇到了困难。最近,通过选择具有K-均值的视图锚表演或通过对原始观测值进行直接矩阵分解来捕获多个视图中的数据分布。尽管取得了巨大的成功,但很少有人考虑了视图不足问题,因此隐含地认为,每个单独的观点都足以恢复群集结构。此外,无法同时发现潜在积分空间以及来自多个视图的共享群集结构。鉴于这一点,我们为快速多视图聚类(AIMC)提出了一个具有几乎线性复杂性的快速多视图聚类(AIMC)。具体而言,视图生成模型旨在重建来自潜在积分空间的视图观测值,并具有不同的适应性贡献。同时,具有正交性约束和群集分区的质心表示无缝构造以近似潜在的积分空间。开发了一种替代最小化算法来解决优化问题,事实证明,该问题具有线性时间复杂性W.R.T.样本量。与最新方法相比,在几个Realworld数据集上进行的广泛实验证实了所提出的AIMC方法的优越性。
translated by 谷歌翻译
基于自动编码器的深度子空间聚类(DSC)广泛用于计算机视觉,运动分割和图像处理。但是,它在自我表达的矩阵学习过程中遇到了以下三个问题:由于简单的重建损失,第一个对于学习自我表达权重的信息较小;第二个是与样本量相关的自我表达层的构建需要高计算成本。最后一个是现有正规化条款的有限连接性。为了解决这些问题,在本文中,我们提出了一个新颖的模型,名为“自我监督的深度”子空间聚类(S $^{3} $ CE)。具体而言,S $^{3} $ CE利用了自我监督的对比网络,以获得更加繁荣的特征向量。原始数据的局部结构和密集的连接受益于自我表达层和附加熵 - 标准约束。此外,具有数据增强的新模块旨在帮助S $^{3} $ CE专注于数据的关键信息,并通过光谱聚类来提高正面和负面实例的聚类性能。广泛的实验结果表明,与最先进的方法相比,S $^{3} $ CE的出色性能。
translated by 谷歌翻译
尽管以前基于图的多视图聚类算法已经取得了重大进展,但其中大多数仍面临三个限制。首先,他们经常遭受高计算复杂性的困扰,这限制了他们在大规模场景中的应用。其次,他们通常在单视图级别或视图传感级别上执行图形学习,但经常忽略单视图和共识图的联合学习的可能性。第三,其中许多人依靠$ k $ - 表示光谱嵌入的离散化,这些嵌入缺乏直接使用离散群集结构直接学习图形的能力。鉴于此,本文通过统一和离散的两部分图(UDBGL)提出了一种有效的多视图聚类方法。具体而言,基于锚的子空间学习被合并为从多个视图中学习特定的二分化图,并利用双方图融合来学习具有自适应重量学习的视图 - 谐镜双分歧图。此外,施加Laplacian等级约束以确保融合的两分图具有离散的群集结构(具有特定数量的连接组件)。通过同时制定特定视图的两分图学习,视图 - 共表的两分图学习以及离散的群集结构学习到统一的目标函数中,然后设计有效的最小化算法来解决此优化问题,并直接实现离散的聚类解决方案解决方案解决方案解决方案解决方案。不需要其他分区,这特别是数据大小的线性时间复杂性。各种多视图数据集的实验证明了我们的UDBGL方法的鲁棒性和效率。
translated by 谷歌翻译
多视图子空间聚类传统上专注于集成异构特征描述以捕获更高维度信息。一种流行的策略是从不同视图生成常见的子空间,然后应用基于图形的方法来处理群集。但是,这些方法的性能仍然受到两个限制,即多视图融合模式以及融合过程与聚类任务之间的连接。为了解决这些问题,我们通过细粒度图形学习提出了一种新的多视图子空间聚类框架,可以在不同视图之间讲述本地结构之间的一致性,并比以前的重量规则更精细地集成所有视图。与文献中的其他模型不同,引入了点级图正规化和频谱聚类的重新介绍,以执行图形融合并将共享集群结构一起学习在一起。在五个真实数据集上进行了广泛的实验,表明该框架对SOTA算法具有可比性。
translated by 谷歌翻译
由于其数值益处增加及其坚实的数学背景,光谱聚类方法的非线性重构近来的关注。我们在$ p $ -norm中提出了一种新的直接多道谱聚类算法,以$ p \ in(1,2] $。计算图表的多个特征向量的问题$ p $ -laplacian,标准的非线性概括Graph Laplacian,被重用作为Grassmann歧管的无约束最小化问题。$ P $的价值以伪连续的方式减少,促进对应于最佳图形的稀疏解决方案载体作为$ P $接近。监测单调减少平衡图削减了我们从$ P $ -Levels获得的最佳可用解决方案的保证。我们展示了我们算法在各种人工测试案件中的算法的有效性和准确性。我们的数值和比较结果具有各种状态-Art聚类方法表明,所提出的方法在均衡的图形剪切度量和标签分配的准确性方面取得高质量的集群。此外,我们进行S面部图像和手写字符分类的束缚,以展示现实数据集中的适用性。
translated by 谷歌翻译
Data-driven neighborhood definitions and graph constructions are often used in machine learning and signal processing applications. k-nearest neighbor~(kNN) and $\epsilon$-neighborhood methods are among the most common methods used for neighborhood selection, due to their computational simplicity. However, the choice of parameters associated with these methods, such as k and $\epsilon$, is still ad hoc. We make two main contributions in this paper. First, we present an alternative view of neighborhood selection, where we show that neighborhood construction is equivalent to a sparse signal approximation problem. Second, we propose an algorithm, non-negative kernel regression~(NNK), for obtaining neighborhoods that lead to better sparse representation. NNK draws similarities to the orthogonal matching pursuit approach to signal representation and possesses desirable geometric and theoretical properties. Experiments demonstrate (i) the robustness of the NNK algorithm for neighborhood and graph construction, (ii) its ability to adapt the number of neighbors to the data properties, and (iii) its superior performance in local neighborhood and graph-based machine learning tasks.
translated by 谷歌翻译
由于巨大的未标记数据的出现,现在已经增加了更加关注无监督的功能选择。需要考虑使用更有效的顺序使用样品训练学习方法的样本和潜在效果的分布,以提高该方法的鲁棒性。自定步学习是考虑样本培训顺序的有效方法。在本研究中,通过整合自花枢学习和子空间学习框架来提出无监督的特征选择。此外,保留了局部歧管结构,并且特征的冗余受到两个正则化术语的约束。 $ l_ {2,1 / 2} $ - norm应用于投影矩阵,旨在保留歧视特征,并进一步缓解数据中噪声的影响。然后,提出了一种迭代方法来解决优化问题。理论上和实验证明了该方法的收敛性。将所提出的方法与九个现实世界数据集上的其他技术的算法进行比较。实验结果表明,该方法可以提高聚类方法的性能,优于其他比较算法。
translated by 谷歌翻译
多视图学习可以更全面地涵盖数据样本的所有功能,因此多视图学习引起了广泛的关注。传统的子空间聚类方法,如稀疏子空间群集(SSC)和低排名子空间群集(LRSC),为单个视图簇聚集亲和矩阵,从而忽略视图之间的融合问题。在我们的文章中,我们提出了一种基于注意力和AutoEncoder(MSALAA)的新的多视图子空间自适应学习。该方法组合了深度自动统计器和用于对齐各种视图的自我表示的方法,以在多视图低级稀疏子空间聚类(MLRSSC)中,这不仅可以将能力提高到非线性拟合,而且也可以满足多视图学习的一致性与互补原则。我们经验遵守六个现实生活数据集的现有基线方法的重大改进。
translated by 谷歌翻译
多视图聚类(MVC)最佳地集成了来自不同视图的互补信息,以提高聚类性能。尽管在各种应用中证明了有希望的性能,但大多数现有方法都直接融合了多个预先指定的相似性,以学习聚类的最佳相似性矩阵,这可能会导致过度复杂的优化和密集的计算成本。在本文中,我们通过对齐方式最大化提出了晚期Fusion MVC,以解决这些问题。为此,我们首先揭示了现有K-均值聚类的理论联系以及基本分区和共识之一之间的对齐。基于此观察结果,我们提出了一种简单但有效的多视算法,称为LF-MVC-GAM。它可以从每个单独的视图中最佳地将多个源信息融合到分区级别,并最大程度地将共识分区与这些加权基础分区保持一致。这种对齐方式有助于整合分区级别信息,并通过充分简化优化过程来大大降低计算复杂性。然后,我们设计了另一个变体LF-MVC-LAM,以通过在多个分区空间之间保留局部内在结构来进一步提高聚类性能。之后,我们开发了两种三步迭代算法,以通过理论上保证的收敛来解决最终的优化问题。此外,我们提供了所提出算法的概括误差约束分析。对十八个多视图基准数据集进行了广泛的实验,证明了拟议的LF-MVC-GAM和LF-MVC-LAM的有效性和效率,范围从小到大型数据项不等。拟议算法的代码可在https://github.com/wangsiwei2010/latefusionalignment上公开获得。
translated by 谷歌翻译
众所周知,无监督的非线性维度减少和聚类对超公共表的选择敏感,特别是对于基于深度学习的方法,这阻碍了其实际使用。如何选择可能在不同应用程序中可能大致不同的网络结构是深度模型的艰难问题,因为少于对数据的知识很少。在本文中,我们探索了用于自动确定深层模型的最佳网络结构的集合学习和选择技术,命名为多层举屏网络(MBN)。具体地,我们首先提出了一种MBN集合(MBN-E)算法,它将具有不同网络结构的MBN基础模型集的稀疏输出连接到新的表示中。由于培训MBN的集合很昂贵,所以我们提出了一种快速版本的MBN-E(FMBN-E),其通过重新采样来替换MBN-E中的随机数据重新采样的步骤。从理论上讲,FMBN-E甚至比单个标准MBN更快。然后,我们采用MBN-E产生的新表示作为选择最佳MBN基础模型的参考。应用了两种集合选择标准,命名为优化选择标准和分配分配标准。重要的是,MBN-E及其集合选择技术维持基于第一邻邻学习的MBN的简单配方,并在没有手动超公共数据计调谐的情况下达到最先进的性能。 FMBN-E凭经验甚至比MBN-e快于MBN-E的数百次,而不会遭受性能下降。源代码可在http://www.xiaolei-zhang.net/mbn-e.htm上获得。
translated by 谷歌翻译
This article explores and analyzes the unsupervised clustering of large partially observed graphs. We propose a scalable and provable randomized framework for clustering graphs generated from the stochastic block model. The clustering is first applied to a sub-matrix of the graph's adjacency matrix associated with a reduced graph sketch constructed using random sampling. Then, the clusters of the full graph are inferred based on the clusters extracted from the sketch using a correlation-based retrieval step. Uniform random node sampling is shown to improve the computational complexity over clustering of the full graph when the cluster sizes are balanced. A new random degree-based node sampling algorithm is presented which significantly improves upon the performance of the clustering algorithm even when clusters are unbalanced. This framework improves the phase transitions for matrix-decomposition-based clustering with regard to computational complexity and minimum cluster size, which are shown to be nearly dimension-free in the low inter-cluster connectivity regime. A third sampling technique is shown to improve balance by randomly sampling nodes based on spatial distribution. We provide analysis and numerical results using a convex clustering algorithm based on matrix completion.
translated by 谷歌翻译
旨在解决不完整的多视图数据中缺少部分视图的聚类问题的不完整的多视图聚类,近年来受到了越来越多的关注。尽管已经开发了许多方法,但大多数方法要么无法灵活地处理不完整的多视图数据,因此使用任意丢失的视图,或者不考虑视图之间信息失衡的负面因素。此外,某些方法并未完全探索所有不完整视图的局部结构。为了解决这些问题,本文提出了一种简单但有效的方法,称为局部稀疏不完整的多视图聚类(LSIMVC)。与现有方法不同,LSIMVC打算通过优化一个稀疏的正则化和新颖的图形嵌入式多视图矩阵分数模型来从不完整的多视图数据中学习稀疏和结构化的潜在表示。具体而言,在基于矩阵分解的这种新型模型中,引入了基于L1规范的稀疏约束,以获得稀疏的低维单个表示和稀疏共识表示。此外,引入了新的本地图嵌入项以学习结构化共识表示。与现有作品不同,我们的本地图嵌入术语汇总了图形嵌入任务和共识表示任务中的简洁术语。此外,为了减少多视图学习的不平衡因素,将自适应加权学习方案引入LSIMVC。最后,给出了有效的优化策略来解决我们提出的模型的优化问题。在六个不完整的多视图数据库上执行的全面实验结果证明,我们的LSIMVC的性能优于最新的IMC方法。该代码可在https://github.com/justsmart/lsimvc中找到。
translated by 谷歌翻译
在依赖添加剂线性组合的模型中,出现了多个右侧(MNNL)的非负平方问题。特别是,它们是大多数非负矩阵分解算法的核心,并且具有许多应用。已知非负约束自然有利于稀疏性,即几乎没有零条目的解决方案。但是,它通常可以进一步增强这种稀疏性很有用,因为它可以提高结果的解释性并有助于减少噪声,从而导致稀疏的MNNL问题。在本文中,与大多数实施稀疏柱或行的大多数作品相反,我们首先引入了稀疏MNNL的新颖配方,并具有矩阵的稀疏性约束。然后,我们提出了一种两步算法来解决这个问题。第一步将稀疏的MNNL划分为子问题,每列的原始问题一列。然后,它使用不同的算法来确切或大约为每个子问题产生一个帕累托正面,即产生一组代表重建误差和稀疏性之间不同权衡的解决方案。第二步选择了这些帕累托前部之间的解决方案,以构建一个稀疏约束矩阵,以最大程度地减少重建误差。我们对面部和高光谱图像进行实验,我们表明我们提出的两步方法比最新的稀疏编码启发式方法提供了更准确的结果。
translated by 谷歌翻译
学习遥感图像的歧管结构对于建模和理解过程是最重要的相关性,以及封装在减少一组信息特征中的高维度,以用于后续分类,回归或解密。歧管学习方法显示出优异的性能来处理高光谱图像(HSI)分析,但除非专门设计,否则它们不能提供明确的嵌入式地图,容易适用于采样超出数据。处理问题的常见假设是高维输入空间和(通常低)潜空间之间的转换是线性的。这是一种特别强烈的假设,特别是当由于数据的众所周知的非线性性质而处理高光谱图像时。为了解决这个问题,提出了一种基于高维模型表示(HDMR)的歧管学习方法,这使得能够将非线性嵌入功能呈现给潜伏空间的采样外部样本。将所提出的方法与其线性对应物一起进行比较,并在代表性齐谱图像的分类精度方面实现了有希望的性能。
translated by 谷歌翻译
This paper introduces a scalable algorithmic framework (HyperEF) for spectral coarsening (decomposition) of large-scale hypergraphs by exploiting hyperedge effective resistances. Motivated by the latest theoretical framework for low-resistance-diameter decomposition of simple graphs, HyperEF aims at decomposing large hypergraphs into multiple node clusters with only a few inter-cluster hyperedges. The key component in HyperEF is a nearly-linear time algorithm for estimating hyperedge effective resistances, which allows incorporating the latest diffusion-based non-linear quadratic operators defined on hypergraphs. To achieve good runtime scalability, HyperEF searches within the Krylov subspace (or approximate eigensubspace) for identifying the nearly-optimal vectors for approximating the hyperedge effective resistances. In addition, a node weight propagation scheme for multilevel spectral hypergraph decomposition has been introduced for achieving even greater node coarsening ratios. When compared with state-of-the-art hypergraph partitioning (clustering) methods, extensive experiment results on real-world VLSI designs show that HyperEF can more effectively coarsen (decompose) hypergraphs without losing key structural (spectral) properties of the original hypergraphs, while achieving over $70\times$ runtime speedups over hMetis and $20\times$ speedups over HyperSF.
translated by 谷歌翻译
内核分割旨在将数据序列划分为可能具有非线性和复杂结构的几个非重叠段。通常,它被称为组合约束的离散优化问题。最佳解决此问题的流行算法是动态编程(DP),它具有二次计算和内存要求。鉴于实践中的序列太长,这种算法不是一种实际方法。尽管已经提出了许多启发式算法来近似最佳分割,但他们无法保证其解决方案的质量。在本文中,我们采取了一种可区分的方法来减轻上述问题。首先,我们引入了一种新型的基于Sigmoid的正则化,以平稳近似组合约束。将其与平衡内核聚类的目标相结合,我们制定了一种用基于Sigmoid的正则化(KCSR)称为内核聚类的可区分模型,可以利用基于梯度的算法来获得最佳分段。其次,我们开发了提出模型的随机变体。通过使用具有较低时间和空间复杂性的随机梯度下降算法以进行优化,第二个模型可以对横长的数据序列进行分割。最后,为了同时分割多个数据序列,我们稍微修改了基于Sigmoid的正则化,以进一步引入所提出模型的扩展变体。通过对我们模型的各种数据序列性能进行的广泛实验,并将其与现有方法的表演进行了比较。实验结果验证了所提出的模型的优势。我们的MATLAB源代码可在GitHub上获得。
translated by 谷歌翻译