在半导体制造中,晶圆地图缺陷模式为设施维护和产量管理提供了关键信息,因此缺陷模式的分类是制造过程中最重要的任务之一。在本文中,我们提出了一种新颖的方式来表示缺陷模式作为有限维矢量的形状,该矢量将用作分类神经网络算法的输入。主要思想是使用拓扑数据分析(TDA)的持续同源性理论提取每种模式的拓扑特征。通过使用模拟数据集进行的一些实验,我们表明,与使用卷积神经网络(CNN)的方法相比,所提出的方法在训练方面更快,更有效地训练,这是晶圆映射缺陷模式分类的最常见方法。此外,当训练数据的数量不够并且不平衡时,我们的方法优于基于CNN的方法。
translated by 谷歌翻译
近年来,变压器模型的引入引发了自然语言处理(NLP)的革命。伯特(Bert)是仅使用注意机制的第一批文本编码者之一,没有任何复发部分来实现许多NLP任务的最新结果。本文使用拓扑数据分析介绍了文本分类器。我们将BERT的注意图转换为注意图作为该分类器的唯一输入。该模型可以解决诸如将垃圾邮件与HAM消息区分开的任务,认识到语法正确的句子,或将电影评论评估为负面还是正面。它与BERT基线相当表现,并在某些任务上表现优于它。此外,我们提出了一种新方法,以减少拓扑分类器考虑的BERT注意力头的数量,这使我们能够修剪从144个下降到只有10个,而不会降低性能。我们的工作还表明,拓扑模型比原始的BERT模型表现出对对抗性攻击的鲁棒性,该模型在修剪过程中维持。据我们所知,这项工作是第一个在NLP背景下以对抗性攻击的基于拓扑的模型。
translated by 谷歌翻译
拓扑数据分析(TDA)的主要挑战之一是从机器学习算法直接可用的持久图中提取功能。实际上,持久性图是R2中的本质上(多级)点,并且不能以直接的方式视为向量。在本文中,我们介绍了持平性器,这是一个接受持久图作为输入的第一变压器神经网络架构。坚持不懈的体系结构显着优于古典合成基准数据集上以前的拓扑神经网络架构。此外,它满足了通用近似定理。这使我们能够介绍一种用于拓扑机学习的第一解释方法,我们在两个示例中探讨。
translated by 谷歌翻译
持续的同源性(PH)是拓扑数据分析中最流行的方法之一。尽管PH已用于许多不同类型的应用程序中,但其成功背后的原因仍然难以捉摸。特别是,尚不知道哪种类别的问题最有效,或者在多大程度上可以检测几何或拓扑特征。这项工作的目的是确定pH在数据分析中比其他方法更好甚至更好的问题。我们考虑三个基本形状分析任务:从形状采样的2D和3D点云中检测孔数,曲率和凸度。实验表明,pH在这些任务中取得了成功,超过了几个基线,包括PointNet,这是一个精确地受到点云的属性启发的体系结构。此外,我们观察到,pH对于有限的计算资源和有限的培训数据以及分布外测试数据,包括各种数据转换和噪声,仍然有效。
translated by 谷歌翻译
在这项研究中,我们检查了工程拓扑特征是否可以区分平衡和不平衡采样方案中的噪声特征不同的随机过程。我们将分类结果与基于统计和原始功能构建的相同分类任务的结果进行比较。我们得出的结论是,在时间序列的分类任务中,建立在工程拓扑功能上的不同机器学习模型比在标准统计和原始功能上构建的拓扑功能始终如一地表现更好。
translated by 谷歌翻译
我们考虑了$ d $维图像的新拓扑效率化,该图像通过在计算持久性之前与各种过滤器进行卷积。将卷积滤波器视为图像中的图案,结果卷积的持久图描述了图案在整个图像中分布的方式。我们称之为卷积持久性的管道扩展了拓扑结合图像数据中模式的能力。的确,我们证明(通常说)对于任何两个图像,人们都可以找到某些过滤器,它们会为其产生不同的持久图,以便给定图像的所有可能的卷积持久性图的收集是一个不变的不变性。通过表现出卷积的持久性是另一种拓扑不变的持续性副学变换的特殊情况,这证明了这一点。卷积持久性的其他优势是提高噪声的稳定性和鲁棒性,对数据依赖性矢量化的更大灵活性以及对具有较大步幅向量的卷积的计算复杂性降低。此外,我们还有一套实验表明,即使人们使用随机过滤器并通过仅记录其总持久性,卷积大大提高了持久性的预测能力,即使一个人使用随机过滤器并将结果图进行量化。
translated by 谷歌翻译
现场拓扑数据分析中的一个重要工具被称为持久同源性(pH),其用于以持久性图(PD)形式以不同分辨率的数据的摘要表示。在这项工作中,我们基于称为本地二进制模式的地标选择方法构建多于一个PD表示单个图像,其编码来自图像的不同类型的本地纹理。我们使用持久性景观,持久性图像,持久性融合(Betti曲线)和统计数据使用不同的PD矢量化。我们在使用乳房扫描扫描测试了基于两个公开的乳房异常检测数据集的拟议基于乳房异常检测数据集的有效性。在检测异常乳房扫描的两种数据集中获得的基于地标基于地标p的pH值超过90%。最后,实验结果为使用不同类型的PD矢量化提供了新的见解,这有助于与机器学习分类器结合使用pH值。
translated by 谷歌翻译
持久图(PDS)通常以同源性类别的死亡和出生为特征,以提供图形结构的拓扑表示,通常在机器学习任务中有用。先前的作品依靠单个图形签名来构建PD。在本文中,我们探讨了多尺度图标志家族的使用,以增强拓扑特征的鲁棒性。我们提出了一个深度学习体系结构来处理该集合的输入。基准图分类数据集上的实验表明,与使用图神经网络的最新方法相比,我们所提出的架构优于其他基于同源的方法,并实现其他基于同源的方法,并实现竞争性能。此外,我们的方法可以轻松地应用于大尺寸的输入图,因为它不会遭受有限的可伸缩性,这对于图内核方法可能是一个问题。
translated by 谷歌翻译
本文旨在通过一种称为拓扑数据分析的方法来讨论一种量化数据“形状”的方法。拓扑数据分析中的主要工具是持续的同源性。这是从简单复合物的同源物中测量数据形状的一种手段,该方法在一系列值范围内计算出来。此处介绍了所需的背景理论和计算持续同源性的方法,并具有针对结构健康监测的应用。这些结果允许拓扑推断和推断高维数据中的功能的能力,否则可能会被忽略。为给定距离参数的数据构建了一个简单复合物。该复合物编码有关数据点局部接近性的信息。可以从这个简单复合物中计算出奇异的同源性值。扩展此想法,为一系列值提供了距离参数,并且在此范围内计算同源性。持续的同源性是在此间隔中如何持续存在数据的同源特征的一种表示。结果是数据的特征。还讨论了一种允许比较不同数据集的持续同源性的方法。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
适当地表示数据库中的元素,以便可以准确匹配查询是信息检索的核心任务;最近,通过使用各种指标将数据库的图形结构嵌入层次结构的方式中来实现。持久性同源性是一种在拓扑数据分析中常用的工具,能够严格地以其层次结构和连接结构来表征数据库。计算各种嵌入式数据集上的持续同源性表明,一些常用的嵌入式无法保留连接性。我们表明,那些成功保留数据库拓扑的嵌入通过引入两种扩张不变的比较措施来捕获这种效果,尤其是解决了对流形的度量扭曲问题。我们为它们的计算提供了一种算法,该算法大大降低了现有方法的时间复杂性。我们使用这些措施来执行基于拓扑的信息检索的第一个实例,并证明了其在持久同源性的标准瓶颈距离上的性能提高。我们在不同数据品种的数据库中展示了我们的方法,包括文本,视频和医学图像。
translated by 谷歌翻译
Tools of Topological Data Analysis provide stable summaries encapsulating the shape of the considered data. Persistent homology, the most standard and well studied data summary, suffers a number of limitations; its computations are hard to distribute, it is hard to generalize to multifiltrations and is computationally prohibitive for big data-sets. In this paper we study the concept of Euler Characteristics Curves, for one parameter filtrations and Euler Characteristic Profiles, for multi-parameter filtrations. While being a weaker invariant in one dimension, we show that Euler Characteristic based approaches do not possess some handicaps of persistent homology; we show efficient algorithms to compute them in a distributed way, their generalization to multifiltrations and practical applicability for big data problems. In addition we show that the Euler Curves and Profiles enjoys certain type of stability which makes them robust tool in data analysis. Lastly, to show their practical applicability, multiple use-cases are considered.
translated by 谷歌翻译
In computer-aided drug discovery (CADD), virtual screening (VS) is used for identifying the drug candidates that are most likely to bind to a molecular target in a large library of compounds. Most VS methods to date have focused on using canonical compound representations (e.g., SMILES strings, Morgan fingerprints) or generating alternative fingerprints of the compounds by training progressively more complex variational autoencoders (VAEs) and graph neural networks (GNNs). Although VAEs and GNNs led to significant improvements in VS performance, these methods suffer from reduced performance when scaling to large virtual compound datasets. The performance of these methods has shown only incremental improvements in the past few years. To address this problem, we developed a novel method using multiparameter persistence (MP) homology that produces topological fingerprints of the compounds as multidimensional vectors. Our primary contribution is framing the VS process as a new topology-based graph ranking problem by partitioning a compound into chemical substructures informed by the periodic properties of its atoms and extracting their persistent homology features at multiple resolution levels. We show that the margin loss fine-tuning of pretrained Triplet networks attains highly competitive results in differentiating between compounds in the embedding space and ranking their likelihood of becoming effective drug candidates. We further establish theoretical guarantees for the stability properties of our proposed MP signatures, and demonstrate that our models, enhanced by the MP signatures, outperform state-of-the-art methods on benchmark datasets by a wide and highly statistically significant margin (e.g., 93% gain for Cleves-Jain and 54% gain for DUD-E Diverse dataset).
translated by 谷歌翻译
拓扑数据分析(TDA)是来自数据科学和数学的工具,它开始在环境科学领域引起波浪。在这项工作中,我们寻求对TDA工具的直观且可理解的介绍,该工具对于分析图像(即持续存在同源性)特别有用。我们简要讨论理论背景,但主要关注理解该工具的输出并讨论它可以收集的信息。为此,我们围绕着一个指导示例进行讨论,该指导示例是对RASP等人研究的糖,鱼类,花朵和砾石数据集进行分类。 al。 2020年(Arxiv:1906:01906)。我们证明了如何使用简单的机器学习算法来获得良好的结果,并详细探讨了如何用图像级特征来解释这种行为。持续同源性的核心优势之一是它的解释性是可解释的,因此在本文中,我们不仅讨论了我们发现的模式,而且要考虑到为什么我们对持续性同源性理论的了解,因此可以期待这些结果。我们的目标是,本文的读者将更好地了解TDA和持续的同源性,能够确定自己的问题和数据集,为此,持续的同源性可能会有所帮助,并从应用程序中获得对结果的理解包括GitHub示例代码。
translated by 谷歌翻译
拓扑数据分析(TDA)研究数据的形状模式。持续同源性(pH)是TDA中广泛使用的方法,其总结了多个尺度的数据的同源特征,并将它们存储在持久图(PDS)中。在本文中,我们提出了一种随机持久性图(RPDG)方法,其生成从数据产生的那些随机PDS序列。RPDG由(i)基于对持久性图推断的成对交互点处理的模型,并通过可逆跳转马克可蒙特卡罗(RJ-MCMC)算法来生成PDS样本。基于合成数据集的第一示例演示了RPDG的功效,并提供了与用于采样PDS的其他现有方法的详细比较。第二个例子演示了RPDG求解材料科学问题的效用,给出了小样本大小的真实数据集。
translated by 谷歌翻译
本文介绍了用于持久图计算的有效算法,给定一个输入分段线性标量字段f在D上定义的d二维简单复杂k,并带有$ d \ leq 3 $。我们的方法通过引入三个主要加速度来扩展开创性的“ Paircells”算法。首先,我们在离散摩尔斯理论的设置中表达了该算法,该算法大大减少了要考虑的输入简单数量。其次,我们介绍了问题的分层方法,我们称之为“夹心”。具体而言,minima-saddle持久性对($ d_0(f)$)和鞍 - 最大持久对($ d_ {d-1}(f)$)是通过与Union-Find-Find-Find-Find-Find-Find-Find-Find-find-find-find-find-find-find-find-find-find-find-find-find-find of nourstable组的1个有效计算的。 - addles和(D-1)addles的稳定集。尺寸为0和(D-1)的快速处理进一步减少,并且大幅度降低了$ d_1(f)$,即三明治的中间层的计算$ d_1(f)$的关键简单数量。第三,我们通过共享记忆并行性记录了几个绩效改进。我们为可重复性目的提供了算法的开源实施。我们还贡献了一个可重复的基准软件包,该基准软件包利用了公共存储库中的三维数据,并将我们的算法与各种公开可用的实现进行了比较。广泛的实验表明,我们的算法提高了两个数量级,即它扩展的开创性“ Paircells”算法的时间性能。此外,它还改善了14种竞争方法的选择,改善了记忆足迹和时间性能,比最快的可用方法具有可观的增长,同时产生了严格的输出。我们通过应用于表面,音量数据和高维点云的持续性一维发电机的快速和稳健提取的应用来说明我们的贡献实用性。
translated by 谷歌翻译
Increasingly, malwares are becoming complex and they are spreading on networks targeting different infrastructures and personal-end devices to collect, modify, and destroy victim information. Malware behaviors are polymorphic, metamorphic, persistent, able to hide to bypass detectors and adapt to new environments, and even leverage machine learning techniques to better damage targets. Thus, it makes them difficult to analyze and detect with traditional endpoint detection and response, intrusion detection and prevention systems. To defend against malwares, recent work has proposed different techniques based on signatures and machine learning. In this paper, we propose to use an algebraic topological approach called topological-based data analysis (TDA) to efficiently analyze and detect complex malware patterns. Next, we compare the different TDA techniques (i.e., persistence homology, tomato, TDA Mapper) and existing techniques (i.e., PCA, UMAP, t-SNE) using different classifiers including random forest, decision tree, xgboost, and lightgbm. We also propose some recommendations to deploy the best-identified models for malware detection at scale. Results show that TDA Mapper (combined with PCA) is better for clustering and for identifying hidden relationships between malware clusters compared to PCA. Persistent diagrams are better to identify overlapping malware clusters with low execution time compared to UMAP and t-SNE. For malware detection, malware analysts can use Random Forest and Decision Tree with t-SNE and Persistent Diagram to achieve better performance and robustness on noised data.
translated by 谷歌翻译
面向目标的对话系统最初是作为自然语言界面设计的,用于用户可能会询问域,插槽和值进一步描述的实体的固定数据集。随着我们朝着适应性的对话系统迈进,有关域,插槽和值的知识可能会发生变化,因此越来越需要大规模从原始对话或相关的非拨号数据中自动提取这些术语。在本文中,我们通过探索可以使系统能够以纯粹数据驱动的方式在对话中发现对话中的域,插槽和值的不同功能来迈出这个方向的重要一步。我们检查的功能来自单词嵌入,语言建模功能以及嵌入空间一词的拓扑特征。为了检查每个功能集的效用,我们基于广泛使用的多沃兹数据集训练种子模型。然后,我们将此模型应用于其他语料库,即模式引导的对话数据集。我们的方法的表现优于仅依赖单词嵌入的先前提出的方法。我们还证明,每个功能都负责发现各种内容。我们认为,我们的结果需要进一步研究本体诱导,并继续利用对话和自然语言处理研究的拓扑数据分析。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
不服从统计学习理论的古典智慧,即使它们通常包含数百万参数,现代深度神经网络也概括了井。最近,已经表明迭代优化算法的轨迹可以具有分形结构,并且它们的泛化误差可以与这种分形的复杂性正式连接。这种复杂性由分形的内在尺寸测量,通常比网络中的参数数量小得多。尽管这种透视提供了对为什么跨分层化的网络不会过度装备的解释,但计算内在尺寸(例如,在训练期间进行监测泛化)是一种臭名昭着的困难任务,即使在中等环境维度中,现有方法也通常失败。在这项研究中,我们考虑了从拓扑数据分析(TDA)的镜头上的这个问题,并开发了一个基于严格的数学基础的通用计算工具。通过在学习理论和TDA之间进行新的联系,我们首先说明了泛化误差可以在称为“持久同源维度”(PHD)的概念中,与先前工作相比,我们的方法不需要关于培训动态的任何额外几何或统计假设。然后,通过利用最近建立的理论结果和TDA工具,我们开发了一种高效的算法来估计现代深度神经网络的规模中的博士,并进一步提供可视化工具,以帮助理解深度学习中的概括。我们的实验表明,所提出的方法可以有效地计算网络的内在尺寸,这些设置在各种设置中,这是预测泛化误差的。
translated by 谷歌翻译