我们为RS-HDMR-GPR提供了一个Python实现(随机采样高维模型表示高斯进程回归)。该方法构建具有较低维度术语的多变量函数的表示,作为耦合顺序的扩展,或者仅使用仅给定维度的术语。特别是促进从稀疏数据恢复功能依赖性。代码还允许丢弃变量的缺失值,并且有用的HDMR术语的有用数量的显着修剪。该代码还可用于估计输入变量的不同组合的相对重要性,从而添加对一般机器学习方法的洞察元素。该回归工具的能力在涉及合成分析功能,水分子的潜在能量表面,材料(结晶镁,铝和硅)和金融市场数据的潜在能量表面进行了证明的能力。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
我们开发了一种组合量子蒙特卡罗的准确性在描述与机器学习电位(MLP)的效率描述电子相关性的技术。我们使用内核线性回归与肥皂(平滑的重叠原子位置)方法结合使用,以非常有效的方式在此实现。关键成分是:i)一种基于最远点采样的稀疏技术,确保我们的MLP的一般性和可转换性和II)所谓的$ \ Delta $ -Learning,允许小型训练数据集,这是一种高度准确的基本属性但是计算地要求计算,例如基于量子蒙特卡罗的计算。作为第一个应用,我们通过强调这一非常高精度的重要性,展示了高压氢气液体过渡的基准研究,并显示了我们的MLP的高精度的重要性,实验室在实验中难以进行实验,以及实验理论仍然远非结论。
translated by 谷歌翻译
封闭曲线的建模和不确定性量化是形状分析领域的重要问题,并且可以对随后的统计任务产生重大影响。这些任务中的许多涉及封闭曲线的集合,这些曲线通常在多个层面上表现出结构相似性。以有效融合这种曲线间依赖性的方式对多个封闭曲线进行建模仍然是一个具有挑战性的问题。在这项工作中,我们提出并研究了一个多数输出(又称多输出),多维高斯流程建模框架。我们说明了提出的方法学进步,并在几个曲线和形状相关的任务上证明了有意义的不确定性量化的实用性。这种基于模型的方法不仅解决了用内核构造对封闭曲线(及其形状)的推断问题,而且还为通常对功能对象的多层依赖性的非参数建模打开了门。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
许多现代数据集,从神经影像和地统计数据等领域都以张量数据的随机样本的形式来说,这可以被理解为对光滑的多维随机功能的嘈杂观察。来自功能数据分析的大多数传统技术被维度的诅咒困扰,并且随着域的尺寸增加而迅速变得棘手。在本文中,我们提出了一种学习从多维功能数据样本的持续陈述的框架,这些功能是免受诅咒的几种表现形式的。这些表示由一组可分离的基函数构造,该函数被定义为最佳地适应数据。我们表明,通过仔细定义的数据的仔细定义的减少转换的张测仪分解可以有效地解决所得到的估计问题。使用基于差分运算符的惩罚,并入粗糙的正则化。也建立了相关的理论性质。在模拟研究中证明了我们对竞争方法的方法的优点。我们在神经影像动物中得出真正的数据应用。
translated by 谷歌翻译
基于原子间位置的相关性的机器学习框架首先是对系统中每个原子附近其他原子密度的离散描述。对称考虑因素支持使用球形谐波扩大该密度的角度依赖性,但是尚无明确的理由来选择一种径向基础而不是另一种径向基础。在这里,我们调查了laplacian特征值问题在感兴趣原子周围的球体中的解决方案。我们表明,这在球体内生成了给定尺寸的最平稳依据,并且拉普拉斯本征态的张量产品也为扩展适当的超晶体内原子密度的任何高阶相关性提供了最平稳的可能基础。我们考虑了给定数据集的基础质量的几个无监督的指标,并表明拉普拉斯特征态的基础的性能比某些广泛使用的基础集要好得多,并且与数据驱动的基础具有竞争力,该基础基础具有数值优化每个度量的基础。在监督的机器学习测试中,我们发现拉普拉斯特征状态的最佳功能平滑度导致可比或更好的性能,而不是从相似大小的数据驱动的基础上获得的,该基础已优化,以描述用于描述原子密度相关的相关性特定数据集。我们得出的结论是,基本函数的平滑度是成功的原子密度表示的关键,迄今为止,迄今为止却在很大程度上被忽略了。
translated by 谷歌翻译
统计模型是机器学习的核心,具有广泛适用性,跨各种下游任务。模型通常由通过最大似然估计从数据估计的自由参数控制。但是,当面对现实世界数据集时,许多模型运行到一个关键问题:它们是在完全观察到的数据方面配制的,而在实践中,数据集会困扰缺失数据。来自不完整数据的统计模型估计理论在概念上类似于潜在变量模型的估计,其中存在强大的工具,例如变分推理(VI)。然而,与标准潜在变量模型相比,具有不完整数据的参数估计通常需要估计缺失变量的指数 - 许多条件分布,因此使标准的VI方法是棘手的。通过引入变分Gibbs推理(VGI),是一种新的通用方法来解决这个差距,以估计来自不完整数据的统计模型参数。我们在一组合成和实际估算任务上验证VGI,从不完整的数据中估算重要的机器学习模型,VAE和标准化流程。拟议的方法,同时通用,实现比现有的特定模型特定估计方法竞争或更好的性能。
translated by 谷歌翻译
我们提出了一种基于机器学习的方法来解决运输过程的研究,在连续力学中无处不在,特别关注那些由复杂的微物理学统治的那些现象,对理论调查不切实际,但表现出由闭合的数学表达可以描述的紧急行为。我们的机器学习模型,使用简单组件建造以及若干知名实践,能够学习运输过程的潜在表示,从标称误差表征数据的标称误差导致声音泛化属性,可以比预期更接近地面真理。通过对融合和宇宙等离子体相关的热通量抑制的长期问题的理想研究来证明这一点。 Our analysis shows that the result applies beyond those case specific assumptions and that, in particular, the accuracy of the learned representation is controllable through knowledge of the data quality (error properties) and a suitable choice of the dataset size.虽然学习的表示可以用作数值建模目的的插件,但是也可以利用上述误差分析来获得描述传输机制和理论值的可靠的数学表达式。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
我们介绍了数据科学预测生命周期中各个阶段开发和采用自动化的技术和文化挑战的说明概述,从而将重点限制为使用结构化数据集的监督学习。此外,我们回顾了流行的开源Python工具,这些工具实施了针对自动化挑战的通用解决方案模式,并突出了我们认为进步仍然需要的差距。
translated by 谷歌翻译
Machine-learning models are increasingly used to predict properties of atoms in chemical systems. There have been major advances in developing descriptors and regression frameworks for this task, typically starting from (relatively) small sets of quantum-mechanical reference data. Larger datasets of this kind are becoming available, but remain expensive to generate. Here we demonstrate the use of a large dataset that we have "synthetically" labelled with per-atom energies from an existing ML potential model. The cheapness of this process, compared to the quantum-mechanical ground truth, allows us to generate millions of datapoints, in turn enabling rapid experimentation with atomistic ML models from the small- to the large-data regime. This approach allows us here to compare regression frameworks in depth, and to explore visualisation based on learned representations. We also show that learning synthetic data labels can be a useful pre-training task for subsequent fine-tuning on small datasets. In the future, we expect that our open-sourced dataset, and similar ones, will be useful in rapidly exploring deep-learning models in the limit of abundant chemical data.
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
基于签名的技术使数学洞察力洞悉不断发展的数据的复杂流之间的相互作用。这些见解可以自然地转化为理解流数据的数值方法,也许是由于它们的数学精度,已被证明在数据不规则而不是固定的情况下分析流的数据以及数据和数据的尺寸很有用样本量均为中等。了解流的多模式数据是指数的:$ d $ d $的字母中的$ n $字母中的一个单词可以是$ d^n $消息之一。签名消除了通过采样不规则性引起的指数级噪声,但仍然存在指数量的信息。这项调查旨在留在可以直接管理指数缩放的域中。在许多问题中,可伸缩性问题是一个重要的挑战,但需要另一篇调查文章和进一步的想法。这项调查描述了一系列环境集足够小以消除大规模机器学习的可能性,并且可以有效地使用一小部分免费上下文和原则性功能。工具的数学性质可以使他们对非数学家的使用恐吓。本文中介绍的示例旨在弥合此通信差距,并提供从机器学习环境中绘制的可进行的工作示例。笔记本可以在线提供这些示例中的一些。这项调查是基于伊利亚·雪佛兰(Ilya Chevryev)和安德烈·科米利津(Andrey Kormilitzin)的早期论文,它们在这种机械开发的较早时刻大致相似。本文说明了签名提供的理论见解是如何在对应用程序数据的分析中简单地实现的,这种方式在很大程度上对数据类型不可知。
translated by 谷歌翻译
本文为工程产品的计算模型或仅返回分类信息的过程提供了一种新的高效和健壮方法,用于罕见事件概率估计,例如成功或失败。对于此类模型,大多数用于估计故障概率的方法,这些方法使用结果的数值来计算梯度或估计与故障表面的接近度。即使性能函数不仅提供了二进制输出,系统的状态也可能是连续输入变量域中定义的不平滑函数,甚至是不连续的函数。在这些情况下,基于经典的梯度方法通常会失败。我们提出了一种简单而有效的算法,该算法可以从随机变量的输入域进行顺序自适应选择点,以扩展和完善简单的基于距离的替代模型。可以在连续采样的任何阶段完成两个不同的任务:(i)估计失败概率,以及(ii)如果需要进一步改进,则选择最佳的候选者进行后续模型评估。选择用于模型评估的下一个点的建议标准最大化了使用候选者分类的预期概率。因此,全球探索与本地剥削之间的完美平衡是自动维持的。该方法可以估计多种故障类型的概率。此外,当可以使用模型评估的数值来构建平滑的替代物时,该算法可以容纳此信息以提高估计概率的准确性。最后,我们定义了一种新的简单但一般的几何测量,这些测量是对稀有事实概率对单个变量的全局敏感性的定义,该度量是作为所提出算法的副产品获得的。
translated by 谷歌翻译
分子或材料的电子密度最近作为机器学习模型的目标数量受到了主要关注。一种自然选择,用于构建可传递可转移和线性缩放预测的模型是使用类似于通常用于密度拟合近似值的常规使用的原子基础来表示标量场。但是,基础的非正交性对学习练习构成了挑战,因为它需要立即考虑所有原子密度成分。我们设计了一种基于梯度的方法,可以直接在优化且高度稀疏的特征空间中最大程度地减少回归问题的损失函数。这样,我们克服了与采用以原子为中心的模型相关的限制,以在任意复杂的数据集上学习电子密度,从而获得极为准确的预测。增强的框架已在32个液体水的32个周期细胞上进行测试,具有足够的复杂性,需要在准确性和计算效率之间取得最佳平衡。我们表明,从预测的密度开始,可以执行单个Kohn-Sham对角度步骤,以访问总能量组件,而总能量组件仅针对参考密度函数计算,而误差仅为0.1 MEV/ATOM。最后,我们测试了高度异构QM9基准数据集的方法,这表明训练数据的一小部分足以在化学精度内得出地面总能量。
translated by 谷歌翻译
我们向高吞吐量基准介绍了用于材料和分子数据集的化学系统的多种表示的高吞吐量基准的机器学习(ML)框架。基准测试方法的指导原理是通过将模型复杂性限制在简单的回归方案的同时,在执行最佳ML实践的同时将模型复杂性限制为简单的回归方案,允许通过沿着同步的列车测试分裂的系列进行学习曲线来评估学习进度来评估原始描述符性能。结果模型旨在为未来方法开发提供通知的基线,旁边指示可以学习给定的数据集多么容易。通过对各种物理化学,拓扑和几何表示的培训结果的比较分析,我们介绍了这些陈述的相对优点以及它们的相互关联。
translated by 谷歌翻译
在许多科学学科中,我们有兴趣推断一组观察到的时间序列的非线性动力学系统,这是面对混乱的行为和噪音,这是一项艰巨的任务。以前的深度学习方法实现了这一目标,通常缺乏解释性和障碍。尤其是,即使基本动力学生存在较低维的多种多样的情况下,忠实嵌入通常需要的高维潜在空间也会阻碍理论分析。在树突计算的新兴原则的推动下,我们通过线性样条基础扩展增强了动态解释和数学可牵引的分段线性(PL)复发性神经网络(RNN)。我们表明,这种方法保留了简单PLRNN的所有理论上吸引人的特性,但在相对较低的尺寸中提高了其近似任意非线性动态系统的能力。我们采用两个框架来训练该系统,一个将反向传播的时间(BPTT)与教师强迫结合在一起,另一个将基于快速可扩展的变异推理的基础。我们表明,树枝状扩展的PLRNN可以在各种动力学系统基准上获得更少的参数和尺寸,并与其他方法进行比较,同时保留了可拖动和可解释的结构。
translated by 谷歌翻译
在仅给定国家的数据随着时间的推移数据时,确定系统的基本动力学的问题已经挑战了科学家数十年来的挑战。在本文中,介绍了使用机器学习对相位空间变量的{\ em更新}进行建模的方法;这是作为相空间变量的函数完成的。 (更一般而言,建模是在变量的射流空间上进行的。)该方法被证明可以准确地复制谐波振荡器,摆和Duffing振荡器的示例的动力学;在每个示例中,还可以准确恢复基础微分方程。另外,结果绝不取决于如何随时间(即定期或不规则)对数据进行采样。证明这种方法(称为“ FJET”)类似于runge-kutta(RK)数值集成方案的泰勒级数扩展产生的模型。这个类比赋予了明确揭示在建模中使用的适当功能的优势,并揭示了更新的误差估计。因此,可以将这种新方法视为通过机器学习来确定RK方案系数的一种方式。最后,在未阻尼的谐波振荡器示例中显示,更新的稳定性稳定,$ 10^9美元的$ 10^9美元的稳定性比$ 4 $ ther-ther-ther-ther-tord RK稳定。
translated by 谷歌翻译
对称考虑对于用于提供原子配置的有效数学表示的主要框架的核心,然后在机器学习模型中用于预测与每个结构相关的特性。在大多数情况下,模型依赖于以原子为中心的环境的描述,并且适合于学习可以分解成原子贡献的原子特性或全局观察到。然而,许多与量子机械计算相关的数量 - 最值得注意的是,以原子轨道基础写入时的单粒子哈密顿矩阵 - 与单个中心无关,但结构中有两个(或更多个)原子。我们讨论一系列结构描述符,以概括为N中心案例的非常成功的原子居中密度相关特征,特别是如何应用这种结构,以有效地学习(有效)单粒子汉密尔顿人的矩阵元素以原子为中心的轨道基础。这些N中心的特点是完全的,不仅在转换和旋转方面,而且还就与原子相关的指数的排列而言 - 并且适合于构建新类的对称适应的机器学习模型分子和材料的性质。
translated by 谷歌翻译