Changes in real-world dynamic processes are often described in terms of differences in energies $\textbf{E}(\underline{\alpha})$ of a set of spectral-bands $\underline{\alpha}$. Given continuous spectra of two classes $A$ and $B$, or in general, two stochastic processes $S^{(A)}(f)$ and $S^{(B)}(f)$, $f \in \mathbb{R}^+$, we address the ubiquitous problem of identifying a subset of intervals of $f$ called spectral-bands $\underline{\alpha} \subset \mathbb{R}^+$ such that the energies $\textbf{E}(\underline{\alpha})$ of these bands can optimally discriminate between the two classes. We introduce EGO-MDA, an unsupervised method to identify optimal spectral-bands $\underline{\alpha}^*$ for given samples of spectra from two classes. EGO-MDA employs a statistical approach that iteratively minimizes an adjusted multinomial log-likelihood (deviance) criterion $\mathcal{D}(\underline{\alpha},\mathcal{M})$. Here, Mixture Discriminant Analysis (MDA) aims to derive MLE of two GMM distribution parameters, i.e., $\mathcal{M}^* = \underset{\mathcal{M}}{\rm argmin}~\mathcal{D}(\underline{\alpha}, \mathcal{M})$ and identify a classifier that optimally discriminates between two classes for a given spectral representation. The Efficient Global Optimization (EGO) finds the spectral-bands $\underline{\alpha}^* = \underset{\underline{\alpha}}{\rm argmin}~\mathcal{D}(\underline{\alpha},\mathcal{M})$ for given GMM parameters $\mathcal{M}$. For pathological cases of low separation between mixtures and model misspecification, we discuss the effect of the sample size and the number of iterations on the estimates of parameters $\mathcal{M}$ and therefore the classifier performance. A case study on a synthetic data set is provided. In an engineering application of optimal spectral-banding for anomaly tracking, EGO-MDA achieved at least 70% improvement in the median deviance relative to other methods tested.
translated by 谷歌翻译
信息技术的进步导致了非常大的数据集,通常保存在不同的存储中心。必须适于现有的统计方法来克服所产生的计算障碍,同时保持统计有效性和效率。分裂和征服方法已应用于许多领域,包括分位式流程,回归分析,主偶数和指数家庭。我们研究了有限高斯混合的分布式学习的分裂和征服方法。我们建议减少策略并开发一种有效的MM算法。新估计器显示在某些一般条件下保持一致并保留根 - N一致性。基于模拟和现实世界数据的实验表明,如果后者是可行的,所提出的分离和征管方法具有基于完整数据集的全球估计的统计性能。如果模型假设与真实数据不匹配,甚至可以略高于全局估算器。它还具有比某些现有方法更好的统计和计算性能。
translated by 谷歌翻译
在过去二十年中,识别具有不同纵向数据趋势的群体的方法已经成为跨越许多研究领域的兴趣。为了支持研究人员,我们总结了文献关于纵向聚类的指导。此外,我们提供了一种纵向聚类方法,包括基于基团的轨迹建模(GBTM),生长混合模拟(GMM)和纵向K平均值(KML)。该方法在基本级别引入,并列出了强度,限制和模型扩展。在最近数据收集的发展之后,将注意这些方法的适用性赋予密集的纵向数据(ILD)。我们展示了使用R.中可用的包在合成数据集上的应用程序的应用。
translated by 谷歌翻译
封闭曲线的建模和不确定性量化是形状分析领域的重要问题,并且可以对随后的统计任务产生重大影响。这些任务中的许多涉及封闭曲线的集合,这些曲线通常在多个层面上表现出结构相似性。以有效融合这种曲线间依赖性的方式对多个封闭曲线进行建模仍然是一个具有挑战性的问题。在这项工作中,我们提出并研究了一个多数输出(又称多输出),多维高斯流程建模框架。我们说明了提出的方法学进步,并在几个曲线和形状相关的任务上证明了有意义的不确定性量化的实用性。这种基于模型的方法不仅解决了用内核构造对封闭曲线(及其形状)的推断问题,而且还为通常对功能对象的多层依赖性的非参数建模打开了门。
translated by 谷歌翻译
识别空间有趣,不同或对抗性行为的区域的问题是许多涉及分布式多传感器系统的实际应用。在这项工作中,我们开发了一个由多个假设检验的一般框架,以识别此类区域。假定在受监视的环境中假定离散的空间网格。确定与不同假设相关的空间网格点,同时在预先指定的水平控制错误发现率时。使用大型传感器网络获得测量。我们提出了一种新颖的,数据驱动的方法,以基于矩的光谱方法来估计局部错误发现率。我们的方法对基本物理现象的特定空间传播模型不可知。它依靠广泛适用的密度模型来用于本地汇总统计。在两次传感器之间,将位置分配给基于插值的局部错误发现率相关的不同假设相关的区域。我们方法的好处是通过应用在空间传播无线电波的应用中说明的。
translated by 谷歌翻译
分类模型是物理资产管理技术的基本组成部分,如结构健康监测(SHM)系统和数字双胞胎。以前的工作介绍了\ Texit {基于风险的主动学习},一种在线方法,用于开发考虑它们所应用的决策支持上下文的统计分类器。通过优先查询数据标签来考虑决策,根据\ Textit {完美信息的预期值}(EVPI)。虽然通过采用基于风险的主动学习方法获得了几种好处,但包括改进的决策性能,但算法遭受与引导查询过程的采样偏差有关的问题。这种采样偏差最终表现为在主动学习后的后期阶段的决策表现的下降,这又对应于丢失的资源/实用程序。目前的论文提出了两种新方法来抵消采样偏置的影响:\纺织{半监督学习},以及\ extentit {鉴别的分类模型}。首先使用合成数据集进行这些方法,然后随后应用于实验案例研究,具体地,Z24桥数据集。半监督学习方法显示有变量性能;具有稳健性,对采样偏置依赖于对每个数据集选择模型所选择的生成分布的适用性。相反,判别分类器被证明对采样偏压的影响具有优异的鲁棒性。此外,发现在监控运动期间进行的检查数,因此可以通过仔细选择决策支持监测系统中使用的统计分类器的仔细选择来减少。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
对未标记的声发射(AE)数据的解释经典依赖于通用聚类方法。虽然过去已经使用了几种外部标准来选择这些算法的超参数,但很少有研究关注能够应对AE数据特异性的聚类方法中专用目标功能的发展。我们研究了如何在混合模型中,尤其是高斯混合模型(GMM)中明确表示簇的爆炸。通过修改此类模型的内部标准,我们提出了第一种聚类方法,能够通过预期最大化过程估算的参数提供有关何时发生簇的信息(ONESET),它们如何生长(动力学)及其通过它们的生长水平及其通过其激活水平时间。这种新的目标函数可容纳AE信号的连续时间戳,从而适应其发生的顺序。该方法称为GMMSEQ,经过实验验证,以表征振动下螺栓结构中的松动现象。与来自五个实验活动的原始流数据数据的三种标准聚类方法的比较表明,GMMSEQ不仅提供了有关簇时间线的有用定性信息,而且还显示出在群集表征方面更好的性能。鉴于制定开放的声学倡议并根据公平原则,数据集和代码可用于复制本文的研究。
translated by 谷歌翻译
近似贝叶斯计算(ABC)使复杂模型中的统计推断能够计算,其可能性难以计算,但易于模拟。 ABC通过接受/拒绝机制构建到后部分布的内核类型近似,该机制比较真实和模拟数据的摘要统计信息。为了避免对汇总统计数据的需求,我们直接将经验分布与通过分类获得的Kullback-Leibler(KL)发散估计值进行比较。特别是,我们将灵活的机器学习分类器混合在ABC中以自动化虚假/真实数据比较。我们考虑传统的接受/拒绝内核以及不需要ABC接受阈值的指数加权方案。我们的理论结果表明,我们的ABC后部分布集中在真实参数周围的速率取决于分类器的估计误差。我们得出了限制后形状的结果,并找到了一个正确缩放的指数内核,渐近常态持有。我们展示了我们对模拟示例以及在股票波动率估计的背景下的真实数据的有用性。
translated by 谷歌翻译
聚类算法的全面基准是困难的两个关键因素:(i)〜这种无监督的学习方法的独特数学定义和(ii)〜某些聚类算法采用的生成模型或群集标准之间的依赖性的依赖性内部集群验证。因此,对严格基准测试的最佳做法没有达成共识,以及是否有可能在给定申请的背景之外。在这里,我们认为合成数据集必须继续在群集算法的评估中发挥重要作用,但这需要构建适当地涵盖影响聚类算法性能的各种属性集的基准。通过我们的框架,我们展示了重要的角色进化算法,以支持灵活的这种基准,允许简单的修改和扩展。我们说明了我们框架的两种可能用途:(i)〜基准数据的演变与一组手派生属性和(ii)〜生成梳理给定对算法之间的性能差异的数据集。我们的作品对设计集群基准的设计具有足够挑战广泛算法的集群基准,并进一步了解特定方法的优势和弱点。
translated by 谷歌翻译
这项工作提出了一个新的程序,可以在高斯过程(GP)建模的背景下获得预测分布,并放松了一些感兴趣的范围之外的插值约束:预测分布的平均值不一定会在观察到的值时插入观察值的值。感兴趣的外部范围,但仅限于留在外面。这种称为放松的高斯工艺(REGP)插值的方法在感兴趣的范围内提供了更好的预测分布,尤其是在GP模型的平稳性假设不合适的情况下。它可以被视为一种面向目标的方法,并且在贝叶斯优化中变得特别有趣,例如,对于目标函数的最小化,低功能值的良好预测分布很重要。当将预期改进标准和REGP用于依次选择评估点时,从理论上保证了所得优化算法的收敛性(前提)。实验表明,在贝叶斯优化中使用REGP代替固定的GP模型是有益的。
translated by 谷歌翻译
测量金属粉的纯度对于保留添加剂制造产品的质量至关重要。污染是最头痛的问题之一,可能是由于多种原因引起的,并导致造成的成分破裂和故障。冶金条件评估的现有方法主要是耗时的,主要集中于结构的物理完整性,而不是材料组成。通过捕获广泛频率范围的光谱数据以及空间信息,高光谱成像(HSI)可以检测到温度,水分和化学成分方面的较小差异。因此,HSI可以提供一种应对这一挑战的独特方法。在本文中,通过使用近红外HSI相机,引入了HSI用于非破坏性检查金属粉末的应用。详细介绍了三个分步案例研究的技术假设和解决方案,包括粉末表征,污染检测和带选择分析。实验结果已经完全证明了HSI和相关的AI技术对粉末冶金的NDT的潜力,尤其是满足工业制造环境的潜力。
translated by 谷歌翻译
在本文中,我们引入了一种新算法,该算法基于原型分析,用于假设末日成员的线性混合,用于盲目的高光谱脉冲。原型分析是该任务的自然表述。该方法不需要存在纯像素(即包含单个材料的像素),而是将末端成员表示为原始高光谱图像中几个像素的凸组合。我们的方法利用了熵梯度下降策略,(i)比传统的原型分析算法为高光谱脉冲提供更好的解决方案,并且(ii)导致有效的GPU实现。由于运行我们算法的单个实例很快,我们还提出了一个结合机制以及适当的模型选择程序,该过程使我们的方法可鲁棒性到超参数选择,同时保持计算复杂性合理。通过使用六个标准的真实数据集,我们表明我们的方法的表现优于最先进的矩阵分解和最新的深度学习方法。我们还提供开源pytorch实施:https://github.com/inria-thoth/edaa。
translated by 谷歌翻译
We present the GPry algorithm for fast Bayesian inference of general (non-Gaussian) posteriors with a moderate number of parameters. GPry does not need any pre-training, special hardware such as GPUs, and is intended as a drop-in replacement for traditional Monte Carlo methods for Bayesian inference. Our algorithm is based on generating a Gaussian Process surrogate model of the log-posterior, aided by a Support Vector Machine classifier that excludes extreme or non-finite values. An active learning scheme allows us to reduce the number of required posterior evaluations by two orders of magnitude compared to traditional Monte Carlo inference. Our algorithm allows for parallel evaluations of the posterior at optimal locations, further reducing wall-clock times. We significantly improve performance using properties of the posterior in our active learning scheme and for the definition of the GP prior. In particular we account for the expected dynamical range of the posterior in different dimensionalities. We test our model against a number of synthetic and cosmological examples. GPry outperforms traditional Monte Carlo methods when the evaluation time of the likelihood (or the calculation of theoretical observables) is of the order of seconds; for evaluation times of over a minute it can perform inference in days that would take months using traditional methods. GPry is distributed as an open source Python package (pip install gpry) and can also be found at https://github.com/jonaselgammal/GPry.
translated by 谷歌翻译
许多现代数据集,从神经影像和地统计数据等领域都以张量数据的随机样本的形式来说,这可以被理解为对光滑的多维随机功能的嘈杂观察。来自功能数据分析的大多数传统技术被维度的诅咒困扰,并且随着域的尺寸增加而迅速变得棘手。在本文中,我们提出了一种学习从多维功能数据样本的持续陈述的框架,这些功能是免受诅咒的几种表现形式的。这些表示由一组可分离的基函数构造,该函数被定义为最佳地适应数据。我们表明,通过仔细定义的数据的仔细定义的减少转换的张测仪分解可以有效地解决所得到的估计问题。使用基于差分运算符的惩罚,并入粗糙的正则化。也建立了相关的理论性质。在模拟研究中证明了我们对竞争方法的方法的优点。我们在神经影像动物中得出真正的数据应用。
translated by 谷歌翻译
无监督的离散化是许多知识发现任务中的关键步骤。使用最小描述长度(MDL)原理局部自适应直方图的一维数据的最先进方法,但研究多维情况的研究要少得多:当前方法一次考虑一个尺寸(如果不是独立的),这导致基于自适应大小的矩形细胞的离散化。不幸的是,这种方法无法充分表征维度之间的依赖性和/或结果,包括由更多的单元(或垃圾箱)组成的离散化。为了解决这个问题,我们提出了一个表达模型类,该类别允许对二维数据进行更灵活的分区。我们扩展了一维情况的艺术状态,以基于归一化最大似然的形式获得模型选择问题。由于我们的模型类的灵活性是以巨大的搜索空间为代价的,因此我们引入了一种名为Palm的启发式算法,该算法将每个维度交替划分,然后使用MDL原理合并相邻区域。合成数据的实验表明,棕榈1)准确地揭示了模型类(即搜索空间)内的地面真相分区,给定的样本量足够大; 2)近似模型类外的各种分区; 3)收敛,与最先进的多元离散方法IPD相比。最后,我们将算法应用于三个空间数据集,我们证明,与内核密度估计(KDE)相比,我们的算法不仅揭示了更详细的密度变化,而且还可以更好地拟合看不见的数据,如日志流利性。
translated by 谷歌翻译
随着Terahertz(THZ)信号产生和辐射方法的最新进展,关节通信和传感应用正在塑造无线系统的未来。为此,预计将在用户设备设备上携带THZ光谱,以识别感兴趣的材料和气态组件。 THZ特异性的信号处理技术应补充这种对THZ感应的重新兴趣,以有效利用THZ频带。在本文中,我们介绍了这些技术的概述,重点是信号预处理(标准的正常差异归一化,最小值 - 最大归一化和Savitzky-Golay滤波),功能提取(主成分分析,部分最小二乘,t,T,T部分,t部分,t部分正方形,T - 分布的随机邻居嵌入和非负矩阵分解)和分类技术(支持向量机器,k-nearest邻居,判别分析和天真的贝叶斯)。我们还通过探索他们在THZ频段的有希望的传感能力来解决深度学习技术的有效性。最后,我们研究了在联合通信和传感的背景下,研究方法的性能和复杂性权衡;我们激励相应的用例,并在该领域提供未来的研究方向。
translated by 谷歌翻译
本文介绍了一种新型的因果结构,即多尺度非平稳的定向无环图(MN-DAG),该图将DAG概括为时频域。我们的贡献是双重的。首先,通过利用光谱和因果关系的结果,我们揭露了一种新型的概率生成模型,该模型允许根据用户指定的先验对因果图的时间依赖性和多尺度属性进行采样。其次,我们通过随机变异推理(SVI)(称为多阶层非稳态的因果结构学习者(MN-Castle))设计了一种用于估计Mn-DAGS的贝叶斯方法。除了直接观察外,MN-Castle还通过不同时间分辨率的时间序列的总功率谱分解来利用信息。在我们的实验中,我们首先使用所提出的模型根据潜在的MN-DAG生成合成数据,这表明数据生成的数据再现了不同域中时间序列的众所周知的特征。然后,我们将学习方法的MN媒体与基线模型进行比较,该模型在使用不同的多尺度和非平稳设置生成的合成数据上进行了比较,从而证实了MN-Castle的良好性能。最后,我们展示了一些从MN-Castle的应用中得出的一些见解,以研究COVID-19期间7个全球股票市场的因果结构。
translated by 谷歌翻译
有限混合物建模是聚类领域的一种流行方法,并且在很大程度上是由于其软聚类成员资格概率所致。但是,EM算法是适合有限混合模型的最常见算法,是许多问题的受害者。我们解决了使用有限混合模型的困扰聚类的这些问题,包括在高维情况下与局部最大值和算法速度问题相对应的解决方案的收敛。这是通过开发两种新型算法来完成的,这些算法结合了数据矩阵的光谱分解和非参数bootstrap采样方案。模拟显示了我们的算法的有效性,不仅证明了它们的灵活性,而且还证明了与其他(自举)聚类算法相比,它们避免了与局部墨西哥相对应的溶液的能力。我们的新型算法通常具有更一致的收敛标准,并且在适合有限混合模型的其他自举算法中,速度显着提高。
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译