由$ \ ell^{0} $ - norm诱导的稀疏子空间聚类方法,例如$ \ ell^{0} $ - 稀疏子空间clustering($ \ ell^{0} $ - ssc)〜\ citep {yangfjyh16 -l0ssc-ijcv}被证明比其$ \ ell^{1} $对应物更有效,例如稀疏子空间群集(SSC)〜\ citep {elhamifarv13}。但是,$ \ ell^{0} $ -SSC的理论分析仅限于清洁完全位于子空间中的数据。实际数据通常会遇到噪音,它们可能靠近子空间。在本文中,我们表明了对嘈杂$ \ ell^{0} $ - SSC ACHIEVES SUBPACE检测属性(SDP)的优化问题的最佳解决方案,这是一个关键元素,在确定性和半度性下分离来自不同子空间的数据 - 随机模型。我们的结果提供了理论保证,就嘈杂的噪声$ \ ell^{0} $ - SSC的正确性提供了首次噪声数据的SDP,这揭示了嘈杂的$ \ ell^{0} $ SSC的优势。子空间亲和力的限制性较小。为了提高嘈杂的$ \ ell^{0} $ -SSC的效率,我们提出了嘈杂的dr-dr-$ \ ell^{0} $ - SSC,该$ ssc可以在降低数据上恢复子空间。嘈杂 - $ \ ell^{0} $ - SSC首先通过随机投影将数据投射到较低的维空间上,然后在投影数据上执行嘈杂的$ \ ell^{0} $ - SSC,以提高效率。实验结果证明了嘈杂-DR-$ \ ell^{0} $ - SSC的有效性。
translated by 谷歌翻译
K-Subspaces(KSS)方法是用于子空间聚类的K-均值方法的概括。在这项工作中,我们介绍了KSS的本地收敛分析和恢复保证,假设数据是由Smari-random的子空间模型生成的,其中$ n $点是从$ k \ ge 2 $重叠子空间随机采样的。我们表明,如果KSS方法的初始分配位于真实聚类的邻域内,则它以高等的速率收敛,并在$ \ theta(\ log \ log \ log n)$迭代中找到正确的群集。此外,我们提出了一种基于阈值的基于内部产品的光谱方法来初始化,并证明它在该社区中产生了一个点。我们还提出了研究方法的数值结果,以支持我们的理论发展。
translated by 谷歌翻译
混合模型的学习可以看作是聚类问题。实际上,给定根据分布混合物独立生成的数据样本,我们经常希望根据样品的{\ IT正确靶向群集},根据它们从哪个组件分布中生成的样品。对于聚类问题,从业人员通常选择使用简单的$ k $ -MEANS算法。 $ k $ -Means试图找到一个{\ it最佳聚类},该{\ it clustering}将每个点与其群集中心之间的平方距离最小化。在本文中,我们考虑通过优化方形距离获得的解决方案(群集)的基本(即信息理论)极限。特别是,假设数据样本是从球形高斯分布的混合物中生成的,我们为任何最佳聚类和正确的目标聚类提供了足够的条件。我们还将结果概括为对数符号分布。此外,我们表明,在混合模型上相似甚至较弱的条件下,具有降低尺寸的样品的任何最佳聚类也接近正确的目标群集。这些结果为$ k $ -Means(有或没有降低尺寸降低)的信息提供了直觉,作为学习混合模型的算法。
translated by 谷歌翻译
我们调查与高斯的混合的数据分享共同但未知,潜在虐待协方差矩阵的数据。我们首先考虑具有两个等级大小的组件的高斯混合,并根据最大似然估计导出最大切割整数程序。当样品的数量在维度下线性增长时,我们证明其解决方案实现了最佳的错误分类率,直到对数因子。但是,解决最大切割问题似乎是在计算上棘手的。为了克服这一点,我们开发了一种高效的频谱算法,该算法达到最佳速率,但需要一种二次样本量。虽然这种样本复杂性比最大切割问题更差,但我们猜测没有多项式方法可以更好地执行。此外,我们收集了支持统计计算差距存在的数值和理论证据。最后,我们将MAX-CUT程序概括为$ k $ -means程序,该程序处理多组分混合物的可能性不平等。它享有相似的最优性保证,用于满足运输成本不平等的分布式的混合物,包括高斯和强烈的对数的分布。
translated by 谷歌翻译
社区检测和正交组同步是科学和工程中各种重要应用的基本问题。在这项工作中,我们考虑了社区检测和正交组同步的联合问题,旨在恢复社区并同时执行同步。为此,我们提出了一种简单的算法,该算法由频谱分解步骤组成,然后是彼此枢转的QR分解(CPQR)。所提出的算法与数据点数线性有效且缩放。我们还利用最近开发的“休闲一淘汰”技术来建立近乎最佳保证,以确切地恢复集群成员资格,并稳定地恢复正交变换。数值实验证明了我们算法的效率和功效,并确认了我们的理论表征。
translated by 谷歌翻译
元学习或学习学习,寻求设计算法,可以利用以前的经验快速学习新技能或适应新环境。表示学习 - 用于执行元学习的关键工具 - 了解可以在多个任务中传输知识的数据表示,这在数据稀缺的状态方面是必不可少的。尽管最近在Meta-Leature的实践中感兴趣的兴趣,但缺乏元学习算法的理论基础,特别是在学习可转让陈述的背景下。在本文中,我们专注于多任务线性回归的问题 - 其中多个线性回归模型共享常见的低维线性表示。在这里,我们提供了可提供的快速,采样高效的算法,解决了(1)的双重挑战,从多个相关任务和(2)将此知识转移到新的,看不见的任务中的常见功能。两者都是元学习的一般问题的核心。最后,我们通过在学习这些线性特征的样本复杂性上提供信息定理下限来补充这些结果。
translated by 谷歌翻译
本文侧重于基于矩阵分解的聚类(MFC)方法,是子空间聚类问题的少数封闭形式算法之一。尽管具有简单,封闭式和计算效率,但MFC可以在许多具有挑战性的情况下优于其他复杂的子空间聚类方法。我们揭示了MFC与创新追踪(ICUsursuit)算法之间的联系,该算法被证明能够优于基于其他基于光谱聚类的方法,特别是当簇的跨度接近时。提出了一种新颖的理论研究,它揭示了两种算法(MFC / IPUsurauit)的关键性能因子的揭示,并且显示两个算法对于聚类跨度之间的标记交叉口可能是强大的。重要的是,与其他算法的理论保证相比,在这些算法上强调了子空间之间作为关键性能因子的距离,并且在不制定创新假设的情况下,结果表明MFC / ICUSUIT的性能主要取决于创新组件之间的距离群集。
translated by 谷歌翻译
本文研究了聚类基质值观测值的计算和统计限制。我们提出了一个低级别的混合模型(LRMM),该模型适用于经典的高斯混合模型(GMM)来处理基质值观测值,该观测值假设人口中心矩阵的低级别。通过集成Lloyd算法和低级近似值设计了一种计算有效的聚类方法。一旦定位良好,该算法将快速收敛并达到最小值最佳的指数型聚类错误率。同时,我们表明一种基于张量的光谱方法可提供良好的初始聚类。与GMM相当,最小值最佳聚类错误率是由分离强度(即种群中心矩阵之间的最小距离)决定的。通过利用低级度,提出的算法对分离强度的要求较弱。但是,与GMM不同,LRMM的统计难度和计算难度的特征是信号强度,即最小的人口中心矩阵的非零奇异值。提供了证据表明,即使信号强度不够强,即使分离强度很强,也没有多项式时间算法是一致的。在高斯以下噪声下进一步证明了我们低级劳埃德算法的性能。讨论了LRMM下估计和聚类之间的有趣差异。通过全面的仿真实验证实了低级劳埃德算法的优点。最后,我们的方法在现实世界数据集的文献中优于其他方法。
translated by 谷歌翻译
The affine rank minimization problem consists of finding a matrix of minimum rank that satisfies a given system of linear equality constraints. Such problems have appeared in the literature of a diverse set of fields including system identification and control, Euclidean embedding, and collaborative filtering. Although specific instances can often be solved with specialized algorithms, the general affine rank minimization problem is NP-hard, because it contains vector cardinality minimization as a special case.In this paper, we show that if a certain restricted isometry property holds for the linear transformation defining the constraints, the minimum rank solution can be recovered by solving a convex optimization problem, namely the minimization of the nuclear norm over the given affine space. We present several random ensembles of equations where the restricted isometry property holds with overwhelming probability, provided the codimension of the subspace is Ω(r(m + n) log mn), where m, n are the dimensions of the matrix, and r is its rank.The techniques used in our analysis have strong parallels in the compressed sensing framework. We discuss how affine rank minimization generalizes this pre-existing concept and outline a dictionary relating concepts from cardinality minimization to those of rank minimization. We also discuss several algorithmic approaches to solving the norm minimization relaxations, and illustrate our results with numerical examples.
translated by 谷歌翻译
对比学习在各种自我监督的学习任务中取得了最先进的表现,甚至优于其监督的对应物。尽管其经验成功,但对为什么对比学习作品的理论认识仍然有限。在本文中,(i)我们证明,对比学习胜过AutoEncoder,一种经典无监督的学习方法,适用于特征恢复和下游任务;(ii)我们还说明标记数据在监督对比度学习中的作用。这为最近的发现提供了理论支持,即对标签对比学习的结果提高了域名下游任务中学识表的表现,但它可能会损害转移学习的性能。我们通过数值实验验证了我们的理论。
translated by 谷歌翻译
在本文中,我们利用过度参数化来设计高维单索索引模型的无规矩算法,并为诱导的隐式正则化现象提供理论保证。具体而言,我们研究了链路功能是非线性且未知的矢量和矩阵单索引模型,信号参数是稀疏向量或低秩对称矩阵,并且响应变量可以是重尾的。为了更好地理解隐含正规化的角色而没有过度的技术性,我们假设协变量的分布是先验的。对于载体和矩阵设置,我们通过采用分数函数变换和专为重尾数据的强大截断步骤来构造过度参数化最小二乘损耗功能。我们建议通过将无规则化的梯度下降应用于损耗函数来估计真实参数。当初始化接近原点并且步骤中足够小时,我们证明了所获得的解决方案在载体和矩阵案件中实现了最小的收敛统计速率。此外,我们的实验结果支持我们的理论调查结果,并表明我们的方法在$ \ ell_2 $ -staticatisticated率和变量选择一致性方面具有明确的正则化的经验卓越。
translated by 谷歌翻译
光谱聚类是网络中广泛使用的社区检测方法之一。然而,大型网络为其中的特征值分解带来了计算挑战。在本文中,我们研究了从统计角度使用随机草图算法的光谱聚类,在那里我们通常假设网络数据是从随机块模型生成的,这些模型不一定是完整等级的。为此,我们首先使用最近开发的草图算法来获得两个随机谱聚类算法,即基于随机投影和基于随机采样的光谱聚类。然后,我们在群体邻接矩阵的近似误差,错误分类误差和链路概率矩阵的估计误差方面研究得到的算法的理论界限。事实证明,在温和条件下,随机谱聚类算法导致与原始光谱聚类算法相同的理论界。我们还将结果扩展到校正的程度校正的随机块模型。数值实验支持我们的理论发现并显示随机化方法的效率。一个名为rclusct的新R包是开发的,并提供给公众。
translated by 谷歌翻译
找到给定矩阵的独特低维分解的问题是许多领域的基本和经常发生的问题。在本文中,我们研究了寻求一个唯一分解的问题,以\ mathbb {r} ^ {p \ times n} $ in \ mathbb {p \ time n} $。具体来说,我们考虑$ y = ax \ in \ mathbb {r} ^ {p \ time n} $,其中矩阵$ a \ in \ mathbb {r} ^ {p \ times r} $具有全列等级,带有$ r <\ min \ {n,p \} $,矩阵$ x \ in \ mathbb {r} ^ {r \ times n} $是元素 - 方向稀疏。我们证明,可以唯一确定$ y $的稀疏分解,直至某些内在签名排列。我们的方法依赖于解决在单位球体上限制的非凸优化问题。我们对非透露优化景观的几何分析表明,任何{\ em strict}本地解决方案靠近地面真相解决方案,可以通过任何二阶序列算法遵循的简单数据驱动初始化恢复。最后,我们用数值实验证实了这些理论结果。
translated by 谷歌翻译
In this paper, we study the trace regression when a matrix of parameters B* is estimated via the convex relaxation of a rank-regularized regression or via regularized non-convex optimization. It is known that these estimators satisfy near-optimal error bounds under assumptions on the rank, coherence, and spikiness of B*. We start by introducing a general notion of spikiness for B* that provides a generic recipe to prove the restricted strong convexity of the sampling operator of the trace regression and obtain near-optimal and non-asymptotic error bounds for the estimation error. Similar to the existing literature, these results require the regularization parameter to be above a certain theory-inspired threshold that depends on observation noise that may be unknown in practice. Next, we extend the error bounds to cases where the regularization parameter is chosen via cross-validation. This result is significant in that existing theoretical results on cross-validated estimators (Kale et al., 2011; Kumar et al., 2013; Abou-Moustafa and Szepesvari, 2017) do not apply to our setting since the estimators we study are not known to satisfy their required notion of stability. Finally, using simulations on synthetic and real data, we show that the cross-validated estimator selects a near-optimal penalty parameter and outperforms the theory-inspired approach of selecting the parameter.
translated by 谷歌翻译
在数值线性代数社区中,建议要获得诸如等级计算等各种问题的几乎最佳边界,找到最大线性独立的列(基础),回归或低秩近似,自然方式是解决尼尔森和尼文森的主要开放问题(Focs,2013)。该问题关于现有的忽略子空间嵌入的草图维度的对数因子,实现了恒因子近似的嵌入。我们展示了如何使用精细的草图技术绕过这个问题,并获得这些问题的最佳或几乎最佳的范围。我们使用的关键技术是基于不确定原理和提取器的Indyk的明确映射,在首次应用已知的漏窃子空间嵌入后,允许我们快速展开载体的质量,以便采样现在有效。由此,我们避免了在使用矩阵Chernoff不平等的界限中是标准的草图维度的对数因子。对于排名计算的基本问题和找到基础,我们的算法改善了张,郭和刘(Jacm,2013),并且在恒因因子和多个(日志日志(n)) - 因子中是最佳的。此外,对于恒定因子回归和低秩近似,我们给出了当前矩阵乘法指数的第一个最佳算法。
translated by 谷歌翻译
基于相似性的聚类方法根据数据之间的成对相似性将数据分离为簇,而成对相似性对于它们的性能至关重要。在本文中,我们通过判别性相似性(CDS)}提出了{\ em聚类,这是一种新的方法,可以学习数据群集的区分性相似性。 CD从每个数据分区学习一个无监督的基于相似性的分类器,并通过最大程度地减少与数据分区关联的学习分类器的概括错误来搜索数据的最佳分区。通过通过Rademacher复杂性进行的概括分析,基于无监督相似性的分类器的概括误差表示为来自不同类别的数据之间的判别性相似性之和。事实证明,派生的判别性相似性也可以通过构成内核密度分类的综合平方误差引起。为了评估提出的判别性相似性的性能,我们提出了一种使用内核作为相似性函数的新聚类方法,即通过无监督的内核分类(CDSK)CD,其有效性通过实验结果证明。
translated by 谷歌翻译
特征向量扰动分析在各种数据科学应用中起着至关重要的作用。然而,大量的先前作品着重于建立$ \ ell_ {2} $ eigenVector扰动边界,这些范围通常在解决依赖特征向量的细粒度行为的任务方面非常不足。本文通过研究未知特征向量的线性函数的扰动来取得进展。在存在高斯噪声的情况下,着重于两个基本问题 - 矩阵denoising和主成分分析 - 我们开发了一个统计理论的套件,该理论表征了未知特征向量的任意线性函数的扰动。为了减轻自然``插件''估计器固有的不可忽略的偏见问题,我们开发了偏低的估计器,即(1)(1)为场景家庭实现最小的下限(模仿某些对数因素),并且(2)可以以数据驱动的方式计算,而无需样品分裂。值得注意的是,即使相关的特征间隙{\ em少于先前的统计理论所要求的,提出的估计器几乎是最佳的最佳选择。
translated by 谷歌翻译
监督字典学习(SDL)是一种经典的机器学习方法,同时寻求特征提取和分类任务,不一定是先验的目标。 SDL的目的是学习类歧视性词典,这是一组潜在特征向量,可以很好地解释特征以及观察到的数据的标签。在本文中,我们提供了SDL的系统研究,包括SDL的理论,算法和应用。首先,我们提供了一个新颖的框架,该框架将“提升” SDL作为组合因子空间中的凸问题,并提出了一种低级别的投影梯度下降算法,该算法将指数成倍收敛于目标的全局最小化器。我们还制定了SDL的生成模型,并根据高参数制度提供真实参数的全局估计保证。其次,我们被视为一个非convex约束优化问题,我们为SDL提供了有效的块坐标下降算法,该算法可以保证在$ O(\ varepsilon^{ - 1}(\ log)中找到$ \ varepsilon $ - 定位点(\ varepsilon \ varepsilon^{ - 1})^{2})$ iterations。对于相应的生成模型,我们为受约束和正则化的最大似然估计问题建立了一种新型的非反应局部一致性结果,这可能是独立的。第三,我们将SDL应用于监督主题建模和胸部X射线图像中的肺炎检测中,以进行不平衡的文档分类。我们还提供了模拟研究,以证明当最佳的重建性和最佳判别词典之间存在差异时,SDL变得更加有效。
translated by 谷歌翻译
在本文中,我们研究了主要成分分析的问题,并采用了生成建模假设,采用了一个普通矩阵的通用模型,该模型包括涉及尖峰矩阵恢复和相位检索在内的明显特殊情况。关键假设是,基础信号位于$ l $ -Lipschitz连续生成模型的范围内,该模型具有有限的$ k $二维输入。我们提出了一个二次估计器,并证明它享有顺序的统计率$ \ sqrt {\ frac {k \ log l} {m} {m}} $,其中$ m $是样本的数量。我们还提供了近乎匹配的算法独立的下限。此外,我们提供了经典功率方法的一种变体,该方法将计算的数据投射到每次迭代期间生成模型的范围内。我们表明,在适当的条件下,该方法将指数级的快速收敛到达到上述统计率的点。我们在各种图像数据集上对峰值矩阵和相位检索模型进行实验,并说明了我们方法的性能提高到经典功率方法,并为稀疏主组件分析设计了截断的功率方法。
translated by 谷歌翻译
随机奇异值分解(RSVD)是用于计算大型数据矩阵截断的SVD的一类计算算法。给定A $ n \ times n $对称矩阵$ \ mathbf {m} $,原型RSVD算法输出通过计算$ \ mathbf {m mathbf {m} $的$ k $引导singular vectors的近似m}^{g} \ mathbf {g} $;这里$ g \ geq 1 $是一个整数,$ \ mathbf {g} \ in \ mathbb {r}^{n \ times k} $是一个随机的高斯素描矩阵。在本文中,我们研究了一般的“信号加上噪声”框架下的RSVD的统计特性,即,观察到的矩阵$ \ hat {\ mathbf {m}} $被认为是某种真实但未知的加法扰动信号矩阵$ \ mathbf {m} $。我们首先得出$ \ ell_2 $(频谱规范)和$ \ ell_ {2 \ to \ infty} $(最大行行列$ \ ell_2 $ norm)$ \ hat {\ hat {\ Mathbf {M}} $和信号矩阵$ \ Mathbf {M} $的真实单数向量。这些上限取决于信噪比(SNR)和功率迭代$ g $的数量。观察到一个相变现象,其中较小的SNR需要较大的$ g $值以保证$ \ ell_2 $和$ \ ell_ {2 \ to \ fo \ infty} $ distances的收敛。我们还表明,每当噪声矩阵满足一定的痕量生长条件时,这些相变发生的$ g $的阈值都会很清晰。最后,我们得出了近似奇异向量的行波和近似矩阵的进入波动的正常近似。我们通过将RSVD的几乎最佳性能保证在应用于三个统计推断问题的情况下,即社区检测,矩阵完成和主要的组件分析,并使用缺失的数据来说明我们的理论结果。
translated by 谷歌翻译