本文通过研究阶段转换的$ Q $State Potts模型,通过许多无监督的机器学习技术,即主成分分析(PCA),$ K $ - 梅尔集群,统一歧管近似和投影(UMAP),和拓扑数据分析(TDA)。即使在所有情况下,我们都能够检索正确的临界温度$ t_c(q)$,以$ q = 3,4 $和5 $,结果表明,作为UMAP和TDA的非线性方法依赖于有限尺寸效果,同时仍然能够区分第一和二阶相转换。该研究可以被认为是在研究相转变的调查中使用不同无监督的机器学习算法的基准。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
Experimental sciences have come to depend heavily on our ability to organize, interpret and analyze high-dimensional datasets produced from observations of a large number of variables governed by natural processes. Natural laws, conservation principles, and dynamical structure introduce intricate inter-dependencies among these observed variables, which in turn yield geometric structure, with fewer degrees of freedom, on the dataset. We show how fine-scale features of this structure in data can be extracted from \emph{discrete} approximations to quantum mechanical processes given by data-driven graph Laplacians and localized wavepackets. This data-driven quantization procedure leads to a novel, yet natural uncertainty principle for data analysis induced by limited data. We illustrate the new approach with algorithms and several applications to real-world data, including the learning of patterns and anomalies in social distancing and mobility behavior during the COVID-19 pandemic.
translated by 谷歌翻译
我们介绍了一种算法,用于计算采样歧管的测量测量算法,其依赖于对采样数据的植物嵌入的曲线图的模拟。我们的方法利用经典的结果在半导体分析和量子古典对应中,并形成用于学习数据集的歧管的技术的基础,随后用于高维数据集的非线性维度降低。我们以基于CoVID-19移动数据的聚类演示,从模型歧管中采样数据采样的数据,并通过集群演示来说明新的算法。最后,我们的方法揭示了数据采样和量化提供的离散化之间有趣的连接。
translated by 谷歌翻译
拓扑方法可以提供一种提出新的指标和审查数据的方法的方法,否则可能会忽略这一点。在这项工作中,将引入一种量化数据形状的方法,通过称为拓扑数据分析的主题。拓扑数据分析(TDA)中的主要工具是持续的同源性。持续的同源性是一种在长度范围内量化数据形状的方法。在这项工作中简要讨论了所需的背景和计算持续同源性的方法。然后,来自拓扑数据分析的思想被用于非线性动力学,以通过计算其嵌入维度,然后评估其一般拓扑来分析一些常见的吸引子。还将提出一种方法,该方法使用拓扑数据分析来确定时间延迟嵌入的最佳延迟。 TDA还将应用于结构健康监测中的Z24桥案例研究,在该Z24桥梁案例研究中,它将用于仔细检查不同的数据分区,并根据收集数据的条件进行分类。来自拓扑数据分析的度量标准用于比较分区之间的数据。提出的结果表明,损害的存在比温度所产生的影响更大。
translated by 谷歌翻译
机器学习最近被出现为研究复杂现象的有希望的方法,其特征是丰富的数据集。特别地,以数据为中心的方法为手动检查可能错过的实验数据集中自动发现结构的可能性。在这里,我们介绍可解释的无监督监督的混合机学习方法,混合相关卷积神经网络(Hybrid-CCNN),并将其应用于使用基于Rydberg Atom阵列的可编程量子模拟器产生的实验数据。具体地,我们应用Hybrid-CCNN以通过可编程相互作用分析在方形格子上的新量子阶段。初始无监督的维度降低和聚类阶段首先揭示了五个不同的量子相位区域。在第二个监督阶段,我们通过培训完全解释的CCNN来细化这些相界并通过训练每个阶段提取相关的相关性。在条纹相中的每个相捕获量子波动中专门识别的特征空间加权和相关的相关性并鉴定两个先前未检测到的相,菱形和边界有序相位。这些观察结果表明,具有机器学习的可编程量子模拟器的组合可用作有关相关量子态的详细探索的强大工具。
translated by 谷歌翻译
模式形成过程中拓扑和微观结构方案中过渡的识别和分类对于理解和制造许多应用领域中的微观结构精确的新型材料至关重要。不幸的是,相关的微观结构过渡可能取决于以微妙而复杂的方式取决于过程参数,而经典相变理论未捕获。尽管有监督的机器学习方法可能对识别过渡制度很有用,但他们需要标签,这些标签需要先验了解订单参数或描述这些过渡的相关结构。由动态系统的通用原理的激励,我们使用一种自我监督的方法来解决使用神经网络从观察到的微观结构中预测过程参数的反问题。这种方法不需要关于不同类别的微观结构模式或预测微观结构过渡的目标任务的预定义的,标记的数据。我们表明,执行逆问题预测任务的困难与发现微观结构制度的目标有关,因为微观结构模式的定性变化与我们自我监督问题的不确定性预测的变化相对应。我们通过在两个不同的模式形成过程中自动发现微观结构方案中的过渡来证明我们的方法的价值:两相混合物的旋律分解以及在薄膜物理蒸气沉积过程中二进制合金浓度调制的形成。这种方法为发现和理解看不见的或难以辨认的过渡制度开辟了一个有希望的途径,并最终用于控制复杂的模式形成过程。
translated by 谷歌翻译
我们提供了对神经马尔可夫链蒙特卡罗模拟中的自相关的深度研究,该版本的传统大都会算法采用神经网络来提供独立的建议。我们使用二维ising模型说明了我们的想法。我们提出了几次自相关时间的估算,其中一些灵感来自于为大都市独立采样器导出的分析结果,我们将其与逆温度$ \ Beta $的函数进行比较和研究。基于我们提出替代损失功能,并研究其对自动系列的影响。此外,我们调查对自动相关时间的神经网络培训过程中强加系统对称($ Z_2 $和/或翻译)的影响。最终,我们提出了一种包含局部热浴更新的方案。讨论了上述增强功能的影响为16美元16美元旋转系统。我们的调查结果摘要可以作为实施更复杂模型的神经马尔可夫链蒙特卡罗模拟的指导。
translated by 谷歌翻译
无监督的特征学习通常会发现捕获复杂数据结构的低维嵌入。对于专家的任务可获得专家,将其纳入学习的代表可能会导致更高质量的嵌入品。例如,这可以帮助人们将数据嵌入给定的簇数,或者容纳阻止一个人直接在模型上衍生数据分布的噪声,然后可以更有效地学习。然而,缺乏将不同的先前拓扑知识集成到嵌入中的一般工具。虽然最近已经开发了可微分的拓扑层,但可以(重新)形状嵌入预定的拓扑模型,他们对代表学习有两个重要的局限性,我们在本文中解决了这一点。首先,目前建议的拓扑损失未能以自然的方式代表诸如群集和耀斑的简单模型。其次,这些损失忽略了对学习有用的数据中的所有原始结构(例如邻域)信息。我们通过引入一组新的拓扑损失来克服这些限制,并提出其用法作为拓扑正规规范数据嵌入来自然代表预定模型的一种方法。我们包括彻底的综合和实际数据实验,突出了这种方法的有用性和多功能性,其中应用范围从建模高维单胞胎数据进行建模到绘图嵌入。
translated by 谷歌翻译
本申请论文对拓扑数据分析(TDA)的适用性进行了全面的实验评估,以进行湍流的定量比较。具体而言,我们的研究记录了流动肠的最大值(已建立的涡度指标)的持续图,用于180个集合成员的拓扑表示,这是由五个数值求解器的参数空间的粗略采样而产生的。我们记录了域专家报告的五个主要假设,描述了他们对不同求解器配置产生的流量变异性的期望。我们贡献了三种评估方案,以通过两种比较度量评估上述假设的验证:(i)科学成像(L2规范)中使用的标准距离和(ii)持久图之间的已建立拓扑距离(L2-Wasserstein Metricric )。在输入集合上进行的广泛实验表明,由于其涡旋的配置,拓扑距离(II)报告彼此相近的流量相似,预计将与域专家相似。总体而言,我们的研究报告的见解带来了TDA代表和比较湍流的适用性的实验证据,从而使流体动态社区对未来工作的使用量提供了信心。此外,我们的流数据和评估协议为TDA社区提供了一个由应用程序批准的基准测试,用于评估和设计进一步的拓扑距离。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
在发育过程中,细胞细胞共同居住与其新兴动态之间没有常规关联,这阻碍了我们对细胞种群如何扩散,分化和竞争的理解,即细胞生态学。随着单细胞RNA-Sequencing(RNA-Seq)的最新进展,我们可以通过构造表征细胞特异性转录程序基因表达谱的相似性的网络图来描述这种链接,并分析这些图系统地使用代数拓扑信息的摘要统计数据。我们提出了单细胞拓扑简单分析(SCTSA)。将这种方法应用于不同发展阶段的不同发育阶段的局部细胞网络的单细胞基因表达谱,这揭示了以前看不见的细胞生态拓扑结构。这些网络包含大量的单细胞剖面丛中的腔体,这些腔体指导了更复杂的居住形式的出现。与无效模型相比,我们使用这些网络的拓扑简单架构可视化这些生态模式。斑马鱼胚胎发生的单细胞RNA-seq数据跨越了38,731个细胞,25种细胞类型和12个时间步,我们的方法突出了胃肠道是最关键的阶段,与发育生物学的共识一致。作为非线性,独立和无监督的框架,我们的方法也可以应用于追踪多规模的细胞谱系,识别关键阶段或创建伪时间序列。
translated by 谷歌翻译
我们开发了一种多尺度方法,以从实验或模拟中观察到的物理字段或配置的数据集估算高维概率分布。通过这种方式,我们可以估计能量功能(或哈密顿量),并有效地在从统计物理学到宇宙学的各个领域中生成多体系统的新样本。我们的方法 - 小波条件重新归一化组(WC-RG) - 按比例进行估算,以估算由粗粒磁场来调节的“快速自由度”的条件概率的模型。这些概率分布是由与比例相互作用相关的能量函数建模的,并以正交小波为基础表示。 WC-RG将微观能量函数分解为各个尺度上的相互作用能量之和,并可以通过从粗尺度到细度来有效地生成新样品。近相变,它避免了直接估计和采样算法的“临界减速”。理论上通过结合RG和小波理论的结果来解释这一点,并为高斯和$ \ varphi^4 $字段理论进行数值验证。我们表明,多尺度WC-RG基于能量的模型比局部电位模型更通用,并且可以在所有长度尺度上捕获复杂的多体相互作用系统的物理。这是针对反映宇宙学中暗物质分布的弱透镜镜头的,其中包括与长尾概率分布的长距离相互作用。 WC-RG在非平衡系统中具有大量的潜在应用,其中未知基础分布{\ it先验}。最后,我们讨论了WC-RG和深层网络体系结构之间的联系。
translated by 谷歌翻译
降低降低和聚类通常被用作许多复杂机器学习任务的初步步骤。噪声和离群值的存在可能会恶化此类预处理的性能,从而极大地损害了后续分析。在流形学习中,几项研究表明,当密度大大高于噪声所示时,可以消除接近结构的背景噪声或接近结构的解决方案。但是,在包括天文数据集在内的许多应用中,密度随埋在嘈杂背景的流形而变化。我们提出了一种基于蚂蚁菌落优化的思想,在存在噪声的情况下提取歧管的新方法。与现有的随机步行解决方案相反,我们的技术捕获了与歧管的主要方向局部对齐的点。此外,我们从经验上表明,蚂蚁信息素的生物学启发的配方增强了这种行为,使其能够恢复嵌入极其嘈杂的数据云中的多个歧管。与在几个合成和真实数据集上(包括宇宙学量的N体模拟)相比,证明了与最新的降噪方法的最新方法相比,算法性能。
translated by 谷歌翻译
拓扑数据分析(TDA)是来自数据科学和数学的工具,它开始在环境科学领域引起波浪。在这项工作中,我们寻求对TDA工具的直观且可理解的介绍,该工具对于分析图像(即持续存在同源性)特别有用。我们简要讨论理论背景,但主要关注理解该工具的输出并讨论它可以收集的信息。为此,我们围绕着一个指导示例进行讨论,该指导示例是对RASP等人研究的糖,鱼类,花朵和砾石数据集进行分类。 al。 2020年(Arxiv:1906:01906)。我们证明了如何使用简单的机器学习算法来获得良好的结果,并详细探讨了如何用图像级特征来解释这种行为。持续同源性的核心优势之一是它的解释性是可解释的,因此在本文中,我们不仅讨论了我们发现的模式,而且要考虑到为什么我们对持续性同源性理论的了解,因此可以期待这些结果。我们的目标是,本文的读者将更好地了解TDA和持续的同源性,能够确定自己的问题和数据集,为此,持续的同源性可能会有所帮助,并从应用程序中获得对结果的理解包括GitHub示例代码。
translated by 谷歌翻译
统计物理学的最新进展显示了机器学习在识别阶段过渡时的显着性能。在本文中,我们基于转移学习施加域对抗性神经网络(DANN),以研究非平衡和平衡相变模型,分别是渗透模型和定向渗透(DP)模型。通过DANN,只需要标记一小部分输入配置(2D图像),以便自动选择,以便捕获临界点。要了解DP模型,该方法通过确定临界点的迭代过程来改进,这是计算临界指数$ \ nu _ {\ perp} $的数据崩溃的先决条件。然后,我们将DANN应用于二维站点的遗传筛选,该配置过滤以仅包括可能包含与订单参数相关的信息的最大群集。两种模型的DANN学习都会产生可靠的结果,它与来自蒙特卡罗模拟的结果相当。我们的研究还表明,与监督学习相比,Dann可以以更低的成本实现相当高的准确性。
translated by 谷歌翻译
本文介绍了合并树木主要测量分析(MT-PGA)的计算框架,这是对著名的主要组件分析(PCA)框架[87]对合并树的瓦斯坦斯坦度量空间[92]的新颖调整。我们将MT-PGA计算作为一个约束优化问题,旨在调整正交测量轴的基础,同时最大程度地减少拟合能量。我们引入了一种有效的,迭代的算法,该算法利用了共享记忆并行性以及拟合能量梯度的分析表达,以确保快速迭代。我们的方法还琐碎地扩展到极值持久图。对公共集合的广泛实验证明了我们方法的效率 - 最大示例中的MT -PGA计算在分钟内进行了计算。我们通过扩展了两个典型的PCA应用程序来展示我们的贡献的实用性。首先,我们将MT-PGA应用于数据降低,并通过以MT-PGA为基础的第一批坐标来可靠地压缩合并树。其次,我们提出一个利用MT-PGA基础的前两个方向来生成合奏的二维布局,提出了一个维度降低框架。我们以持久性相关视图来增强这些布局,从而实现整体和局部视觉检查集合中的特征可变性。在这两种应用中,定量实验评估我们框架的相关性。最后,我们提供了轻巧的C ++实现,可用于复制我们的结果。
translated by 谷歌翻译
Persistent homology, a powerful mathematical tool for data analysis, summarizes the shape of data through tracking topological features across changes in different scales. Classical algorithms for persistent homology are often constrained by running times and memory requirements that grow exponentially on the number of data points. To surpass this problem, two quantum algorithms of persistent homology have been developed based on two different approaches. However, both of these quantum algorithms consider a data set in the form of a point cloud, which can be restrictive considering that many data sets come in the form of time series. In this paper, we alleviate this issue by establishing a quantum Takens's delay embedding algorithm, which turns a time series into a point cloud by considering a pertinent embedding into a higher dimensional space. Having this quantum transformation of time series to point clouds, then one may use a quantum persistent homology algorithm to extract the topological features from the point cloud associated with the original times series.
translated by 谷歌翻译
我们研究了紧凑型歧管M上的回归问题。为了利用数据的基本几何形状和拓扑结构,回归任务是基于歧管的前几个特征函数执行的,该特征是歧管的laplace-beltrami操作员,通过拓扑处罚进行正规化。提出的惩罚基于本征函数或估计功能的子级集的拓扑。显示总体方法可在合成和真实数据集上对各种应用产生有希望的和竞争性能。我们还根据回归函数估计,其预测误差及其平滑度(从拓扑意义上)提供理论保证。综上所述,这些结果支持我们方法在目标函数“拓扑平滑”的情况下的相关性。
translated by 谷歌翻译