许多测量模态通过探测逐个像素的对象像素(例如通过光声显微镜)在每个像素上产生多维特征(通常是时间域信号)。原则上,时间域信号中的许多自由度将承认隐含地存在重要的多模式信息的可能性,而不是单个标量“亮度”,就观察到的基本目标而言,它的可能性要大得多。但是,测量的信号既不是基本函数的加权和加权和,也不是一组原型(k均值)之一,它激发了此处提出的新型聚类方法。信号是根据其形状而不是振幅聚类的,通过角度距离和质心被计算为最大群内方差的方向,从而导致一种能够学习质心(信号形状)的聚类算法,这些算法与潜在的,尽管未知的目标特性以可扩展的噪声方式。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
聚类算法的全面基准是困难的两个关键因素:(i)〜这种无监督的学习方法的独特数学定义和(ii)〜某些聚类算法采用的生成模型或群集标准之间的依赖性的依赖性内部集群验证。因此,对严格基准测试的最佳做法没有达成共识,以及是否有可能在给定申请的背景之外。在这里,我们认为合成数据集必须继续在群集算法的评估中发挥重要作用,但这需要构建适当地涵盖影响聚类算法性能的各种属性集的基准。通过我们的框架,我们展示了重要的角色进化算法,以支持灵活的这种基准,允许简单的修改和扩展。我们说明了我们框架的两种可能用途:(i)〜基准数据的演变与一组手派生属性和(ii)〜生成梳理给定对算法之间的性能差异的数据集。我们的作品对设计集群基准的设计具有足够挑战广泛算法的集群基准,并进一步了解特定方法的优势和弱点。
translated by 谷歌翻译
被动射频(RF)感测和对老年护理房屋的人类日常活动监测是一个新兴的话题。微多普勒雷达是一种吸引人的解决方案,考虑到它们的非侵入性,深渗透和高距离范围。尽管在真实情景中未标记或较差的活动的情况下,但是使用多普勒雷达数据的无监督活动识别尚未得到注意。本研究提出了使用多普勒流的人类活动监测的两个无监督特征提取方法。这些包括基于局部离散余弦变换(DCT)的特征提取方法和基于局部熵的特征提取方法。此外,对于多普勒雷达数据,首次采用了卷积变分性自动化器(CVAE)特征提取的新应用。将三种特征提取架构与先前使用的卷积AutoEncoder(CAE)和基于主成分分析(PCA)和2DPCA的线性特征提取进行比较。使用K-Means和K-METOIDS进行无监督的聚类。结果表明,与CAE,PCA和2DPCA相比,基于DCT的方法,基于熵的方法和CVAE特征的优越性,具有超过5 \%-20 \%的平均精度。关于计算时间,两个提出的方法明显比现有的CVAE快得多。此外,对于高维数据可视化,考虑了三种歧管学习技术。比较方法,以对原始数据的投影以及编码的CVAE特征进行比较。当应用于编码的CVAE特征时,所有三种方法都显示出改善的可视化能力。
translated by 谷歌翻译
高光谱特征空间对于许多从光谱混合建模到离散主题分类的许多遥感应用是有用的。在这种情况下,特征空间维度,几何和拓扑的表征可以为有效的模型设计提供指导。本研究的目的是通过维度减少进行比较和对比两种方法来识别特征空间基载体。可以组合这些方法以使联合表征揭示光谱性能,不用单独使用任何方法。我们使用雪FIRN-ICE连续核的多元化Aviris-NG反射光谱,以说明关节表征的效用,并识别从光谱推断的物理性质。光谱特征空间组合主组件(PC)和T分布式随机邻居嵌入(T-SNES)提供了代表光散反光特性的全局(PC)结构的物理解释尺寸和局部(T-SNE)歧管结构,显示不解决的聚类全球连续体。联合表征在格陵兰冰盖的不同部分和不同地点冰川和海冰中共同的多个冰反射特性的雪地渐变的不同连续体。在T-SNE特征空间中透露的聚类,并扩展到联合表征,区分雪积区内特定于位置的光谱曲率的差异,以及与观看几何形状相关的BRDF效果。 PC + T-SNE联合表征产生物理可解释的光谱特征空间的能力揭示了全局拓扑,同时保留了局部歧管结构,表明该表征可能扩展到所有陆地覆盖的高大维度特征空间。
translated by 谷歌翻译
群集分析需要许多决定:聚类方法和隐含的参考模型,群集数,通常,几个超参数和算法调整。在实践中,一个分区产生多个分区,基于验证或选择标准选择最终的分区。存在丰富的验证方法,即隐式或明确地假设某个聚类概念。此外,它们通常仅限于从特定方法获得的分区上操作。在本文中,我们专注于可以通过二次或线性边界分开的群体。参考集群概念通过二次判别符号函数和描述集群大小,中心和分散的参数定义。我们开发了两个名为二次分数的群集质量标准。我们表明这些标准与从一般类椭圆对称分布产生的组一致。对这种类型的组追求在应用程序中是常见的。研究了与混合模型和模型的聚类的似然理论的连接。基于Bootstrap重新采样的二次分数,我们提出了一个选择规则,允许在许多聚类解决方案中选择。所提出的方法具有独特的优点,即它可以比较不能与其他最先进的方法进行比较的分区。广泛的数值实验和实际数据的分析表明,即使某些竞争方法在某些设置中出现优越,所提出的方法也实现了更好的整体性能。
translated by 谷歌翻译
Experimental sciences have come to depend heavily on our ability to organize, interpret and analyze high-dimensional datasets produced from observations of a large number of variables governed by natural processes. Natural laws, conservation principles, and dynamical structure introduce intricate inter-dependencies among these observed variables, which in turn yield geometric structure, with fewer degrees of freedom, on the dataset. We show how fine-scale features of this structure in data can be extracted from \emph{discrete} approximations to quantum mechanical processes given by data-driven graph Laplacians and localized wavepackets. This data-driven quantization procedure leads to a novel, yet natural uncertainty principle for data analysis induced by limited data. We illustrate the new approach with algorithms and several applications to real-world data, including the learning of patterns and anomalies in social distancing and mobility behavior during the COVID-19 pandemic.
translated by 谷歌翻译
化学成像技术的使用正在成为病理学传统方法的常规伴奏。重大的技术进步已经开发了这些下一代技术,以提供丰富的空间分辨,多维化学图像。数字病理学的兴起显着增强了这些成像方式与光学显微镜和免疫组织化学的协同作用,从而增强了我们对疾病生物学机制和进展的理解。诸如成像质量细胞术之类的技术提供了与数字病理技术结合使用的特定组件的标记的多维(多重)图像。这些强大的技术产生了大量的高维数据,在数据分析中构成了重大挑战。无监督的方法(例如聚类)是分析这些数据的一种有吸引力的方法,但是,它们需要选择参数,例如簇数。在这里,我们提出了一种方法,以自动数据驱动的方式估算簇数,使用深稀疏的自动编码器将数据嵌入较低的维空间。我们计算嵌入式空间中区域的密度,其中大多数是空的,使高密度区域能够被检测为离群值,并提供了簇数量的估计值。该框架提供了一种完全无监督和数据驱动的方法来分析多维数据。在这项工作中,我们使用45个多重成像质量细胞仪数据集演示了我们的方法。此外,我们的模型仅使用其中一个数据集进行培训,并且将学习的嵌入应用于其余44张图像,从而提供了有效的数据分析过程。最后,我们证明了我们的方法的高计算效率,这比通过计算总和平方距离作为群集数的函数估算的速度要快。
translated by 谷歌翻译
域适应性是现代机器学习中的一种流行范式,旨在解决培训或验证数据集之间具有用于学习和测试分类器(源域)和潜在的大型未标记数据集的培训或验证数据集之间的分歧问题,其中利用了模型(目标域)(目标域)(目标域) 。任务是找到源数据集的源和目标数据集的这种常见表示,其中源数据集提供了培训的信息,因此可以最大程度地减少来源和目标之间的差异。目前,最流行的领域适应性解决方案是基于训练神经网络,这些神经网络结合了分类和对抗性学习模块,这些模块是饥饿的,通常很难训练。我们提出了一种称为域适应性主成分分析(DAPCA)的方法,该方法发现线性减少的数据表示有助于解决域适应任务。 DAPCA基于数据点对之间引入正权重,并概括了主成分分析的监督扩展。 DAPCA代表一种迭代算法,因此在每次迭代中都解决了一个简单的二次优化问题。保证算法的收敛性,并且在实践中的迭代次数很少。我们验证了先前提出的用于解决域适应任务的基准的建议算法,还显示了在生物医学应用中对单细胞法数据集进行分析中使用DAPCA的好处。总体而言,考虑到源域和目标域之间可能的差异,DAPCA可以作为许多机器学习应用程序中有用的预处理步骤。
translated by 谷歌翻译
在本文中,我们考虑使用Palentir在两个和三个维度中对分段常数对象的恢复和重建,这是相对于当前最新ART的显着增强的参数级别集(PALS)模型。本文的主要贡献是一种新的PALS公式,它仅需要一个单个级别的函数来恢复具有具有多个未知对比度的分段常数对象的场景。我们的模型比当前的多对抗性,多对象问题提供了明显的优势,所有这些问题都需要多个级别集并明确估计对比度大小。给定对比度上的上限和下限,我们的方法能够以任何对比度分布恢复对象,并消除需要知道给定场景中的对比度或其值的需求。我们提供了一个迭代过程,以找到这些空间变化的对比度限制。相对于使用径向基函数(RBF)的大多数PAL方法,我们的模型利用了非异型基函数,从而扩展了给定复杂性的PAL模型可以近似的形状类别。最后,Palentir改善了作为参数识别过程一部分所需的Jacobian矩阵的条件,因此通过控制PALS扩展系数的幅度来加速优化方法,固定基本函数的中心,以及参数映射到图像映射的唯一性,由新参数化提供。我们使用X射线计算机断层扫描,弥漫性光学断层扫描(DOT),Denoising,DeonConvolution问题的2D和3D变体证明了新方法的性能。应用于实验性稀疏CT数据和具有不同类型噪声的模拟数据,以进一步验证所提出的方法。
translated by 谷歌翻译
聚类数据是无监督的机器学习领域的流行功能。大多数算法旨在找到提取一致数据簇的最佳方法,但其中很少有打算聚集在两个或更多功能之间共享相同相交的数据。本文提出了一种方法。这种新颖方法的主要思想是使用模糊C均值(FCM)算法生成模糊的数据簇。第二部分涉及应用一个选择最低和最大成员价值范围的过滤器,从而强调边框数据。 {\ mu}参数定义了此范围的幅度。它最终使用FCM生成的成员价值应用K均值算法。自然,具有相似会员价值的数据将在新的脆皮集群中重新组合。该算法还能够根据Silhouette索引(SI)给出的簇的一致性找到FCM和K-均值算法的最佳簇数。结果是一个数据和簇的列表,该列表重组数据共享相同的交叉点,与两个或更多功能相交。 CK均值允许提取自然而然地属于同一群集而是在两个或更多簇的相交的非常相似的数据。该算法也总是发现自己是簇的最佳数量。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
学习涉及时变和不断发展的系统动态的控制政策通常对主流强化学习算法构成了巨大的挑战。在大多数标准方法中,通常认为动作是一组刚性的,固定的选择,这些选择以预定义的方式顺序应用于状态空间。因此,在不诉诸于重大学习过程的情况下,学识渊博的政策缺乏适应动作集和动作的“行为”结果的能力。此外,标准行动表示和动作引起的状态过渡机制固有地限制了如何将强化学习应用于复杂的现实世界应用中,这主要是由于所得大的状态空间的棘手性以及缺乏概括的学术知识对国家空间未知部分的政策。本文提出了一个贝叶斯味的广义增强学习框架,首先建立参数动作模型的概念,以更好地应对不确定性和流体动作行为,然后将增强领域的概念作为物理启发的结构引入通过“极化体验颗粒颗粒建立) “维持在学习代理的工作记忆中。这些粒子有效地编码了以自组织方式随时间演变的动态学习体验。在强化领域之上,我们将进一步概括策略学习过程,以通过将过去的记忆视为具有隐式图结构来结合高级决策概念,在该结构中,过去的内存实例(或粒子)与决策之间的相似性相互联系。定义,因此,可以应用“关联记忆”原则来增强学习代理的世界模型。
translated by 谷歌翻译
Mixtures of von Mises-Fisher distributions can be used to cluster data on the unit hypersphere. This is particularly adapted for high-dimensional directional data such as texts. We propose in this article to estimate a von Mises mixture using a l 1 penalized likelihood. This leads to sparse prototypes that improve clustering interpretability. We introduce an expectation-maximisation (EM) algorithm for this estimation and explore the trade-off between the sparsity term and the likelihood one with a path following algorithm. The model's behaviour is studied on simulated data and, we show the advantages of the approach on real data benchmark. We also introduce a new data set on financial reports and exhibit the benefits of our method for exploratory analysis.
translated by 谷歌翻译
A major challenge when using k-means clustering often is how to choose the parameter k, the number of clusters. In this letter, we want to point out that it is very easy to draw poor conclusions from a common heuristic, the "elbow method". Better alternatives have been known in literature for a long time, and we want to draw attention to some of these easy to use options, that often perform better. This letter is a call to stop using the elbow method altogether, because it severely lacks theoretic support, and we want to encourage educators to discuss the problems of the method -- if introducing it in class at all -- and teach alternatives instead, while researchers and reviewers should reject conclusions drawn from the elbow method.
translated by 谷歌翻译
卫星图像构成了许多现实世界应用的高价和丰富的资源。但是,训练大多数机器学习模型所需的标签数据稀缺且难以获得。在这种情况下,当前的工作研究了一种完全无监督的方法,鉴于卫星图像的时间顺序,根据其语义属性及其随着时间的推移的进化而形成了地面的分区。图像序列被翻译成嵌入式瓷砖的多元时间序列的网格。这些瓷砖序列的嵌入和分区聚类以两个迭代步骤构造:在第一步中,嵌入能够根据地理位置邻域提取瓷砖序列的信息,将瓷砖分组为群集。在第二步中,通过使用簇定义的邻域来完善嵌入,并获得了瓷砖序列的最终聚类。我们通过进行纳瓦拉(Navarra)区域的20个卫星图像的序列(西班牙)的序列进行语义聚类来说明方法。结果表明,多元时间序列的聚类非常健壮,并且包含有关研究区域的信任时空语义信息。我们揭示了地理和嵌入式空间之间存在的紧密连接,并发现归因于这些类型的嵌入的语义属性被完全利用,甚至通过提议的时间序列的聚类来增强。
translated by 谷歌翻译
检测数据集中的潜在结构是执行数据集分析的重要步骤。然而,用于子类发现的现有最先进的技术是有限的:它们仅限于检测非常少量的异常值,或者它们缺乏处理诸如图像或音频的复杂数据的统计功率。本文提出了解决该子类发现问题的解决方案:通过利用实例说明方法,可以扩展现有分类器以通过分类器的内部决策的差异来检测潜在类。这不仅使用简单的分类技术,还可以使用深度神经网络,允许一种强大而灵活的方法来检测数据集中的潜在结构。有效地,这代表了数据集进入分类器的“解释空间”的投影,并且初步结果表明,即使在处理有限的情况下,该技术也越突出了用于检测潜在类的基线。本文还包含用于自动分析分类器的管道,以及用于交互式探索该技术的结果的Web应用程序。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
在这项工作中,对于不确定和结构化数据的聚类计划被认为依赖于Wasserstein Barycenters的概念,并伴随着基于Wasserstein空间的内在几何形状的适当聚类指数,在该几何形状上执行了群集任务。这种类型的聚类方法在许多领域都高度赞赏,在观察/实验误差很大(例如,天文学,生物学,遥感等)或数据性质更为复杂,并且传统学习算法不适用或有效治疗,因此高度赞赏。它们(例如网络数据,间隔数据,高频记录,矩阵数据等)。从这个角度来看,每个观察结果都是通过适当的概率度量来确定的,并且提出的聚类方案依赖于歧视标准,这些标准通过最佳运输理论从概率测量方面利用了概率测量空间的几何结构。通过模拟研究和两个现实世界应用中的实施来说明拟议方法和地球标准性能的优势和能力:(a)根据其观察到的政府债券收益率曲线和(b)对欧元区国家的群集进行分类,并(b)对到某些土地的卫星图像使用类别,这是遥感中的标准任务。
translated by 谷歌翻译
由于几个原因,很难聚集艺术品。一方面,识别基于领域知识和视觉感知的有意义的模式非常困难。另一方面,将传统的聚类和功能还原技术应用于高度尺寸的像素空间可能是无效的。为了解决这些问题,在本文中,我们提出了Delius:一种深入学习视觉艺术的深度学习方法。该方法使用预训练的卷积网络提取功能,然后将这些功能馈送到深层嵌入聚类模型中,在此,将输入数据映射到潜在空间的任务是通过在找到一组集群质心的任务,以在此任务进行优化。这个潜在空间。定量和定性实验结果表明了该方法的有效性。Delius对于与艺术分析有关的多个任务很有用,特别是在绘画数据集中发现的视觉链接检索和历史知识发现。
translated by 谷歌翻译