The International Atomic Energy Agency (IAEA) stopping power database is a highly valued public resource compiling most of the experimental measurements published over nearly a century. The database-accessible to the global scientific community-is continuously updated and has been extensively employed in theoretical and experimental research for more than 30 years. This work aims to employ machine learning algorithms on the 2021 IAEA database to predict accurate electronic stopping power cross sections for any ion and target combination in a wide range of incident energies. Unsupervised machine learning methods are applied to clean the database in an automated manner. These techniques purge the data by removing suspicious outliers and old isolated values. A large portion of the remaining data is used to train a deep neural network, while the rest is set aside, constituting the test set. The present work considers collisional systems only with atomic targets. The first version of the ESPNN (electronic stopping power neural-network code), openly available to users, is shown to yield predicted values in excellent agreement with the experimental results of the test set.
translated by 谷歌翻译
我们描述了作为黑暗机器倡议和LES Houches 2019年物理学研讨会进行的数据挑战的结果。挑战的目标是使用无监督机器学习算法检测LHC新物理学的信号。首先,我们提出了如何实现异常分数以在LHC搜索中定义独立于模型的信号区域。我们定义并描述了一个大型基准数据集,由> 10亿美元的Muton-Proton碰撞,其中包含> 10亿美元的模拟LHC事件组成。然后,我们在数据挑战的背景下审查了各种异常检测和密度估计算法,我们在一组现实分析环境中测量了它们的性能。我们绘制了一些有用的结论,可以帮助开发无监督的新物理搜索在LHC的第三次运行期间,并为我们的基准数据集提供用于HTTPS://www.phenomldata.org的未来研究。重现分析的代码在https://github.com/bostdiek/darkmachines-unsupervisedChallenge提供。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
定量探索了量子化学参考数据的训练神经网络(NNS)预测的不确定性量化的价值。为此,适当地修改了Physnet NN的体系结构,并使用不同的指标评估所得模型,以量化校准,预测质量以及预测误差和预测的不确定性是否可以相关。 QM9数据库培训的结果以及分布内外的测试集的数据表明,错误和不确定性与线性无关。结果阐明了噪声和冗余使分子的性质预测复杂化,即使在发生变化的情况下,例如在两个原本相同的分子中的双键迁移 - 很小。然后将模型应用于互变异反应的真实数据库。分析特征空间中的成员之间的距离与其他参数结合在一起表明,训练数据集中的冗余信息会导致较大的差异和小错误,而存在相似但非特定的信息的存在会返回大错误,但差异很小。例如,这是对含硝基的脂肪族链的观察到的,尽管训练集包含了与芳香族分子结合的硝基组的几个示例,但这些预测很困难。这强调了训练数据组成的重要性,并提供了化学洞察力,以了解这如何影响ML模型的预测能力。最后,提出的方法可用于通过主动学习优化基于信息的化学数据库改进目标应用程序。
translated by 谷歌翻译
Different machine learning (ML) models are trained on SCADA and meteorological data collected at an onshore wind farm and then assessed in terms of fidelity and accuracy for predictions of wind speed, turbulence intensity, and power capture at the turbine and wind farm levels for different wind and atmospheric conditions. ML methods for data quality control and pre-processing are applied to the data set under investigation and found to outperform standard statistical methods. A hybrid model, comprised of a linear interpolation model, Gaussian process, deep neural network (DNN), and support vector machine, paired with a DNN filter, is found to achieve high accuracy for modeling wind turbine power capture. Modifications of the incoming freestream wind speed and turbulence intensity, $TI$, due to the evolution of the wind field over the wind farm and effects associated with operating turbines are also captured using DNN models. Thus, turbine-level modeling is achieved using models for predicting power capture while farm-level modeling is achieved by combining models predicting wind speed and $TI$ at each turbine location from freestream conditions with models predicting power capture. Combining these models provides results consistent with expected power capture performance and holds promise for future endeavors in wind farm modeling and diagnostics. Though training ML models is computationally expensive, using the trained models to simulate the entire wind farm takes only a few seconds on a typical modern laptop computer, and the total computational cost is still lower than other available mid-fidelity simulation approaches.
translated by 谷歌翻译
能源部门的深度脱碳将需要大量的随机可再生能源渗透和大量的网格资产协调。对于面对这种变化而负责维持电网稳定性和安全性的电力系统运营商来说,这是一个具有挑战性的范式。凭借从复杂数据集中学习并提供有关快速时间尺度的预测解决方案的能力,机器学习(ML)得到了很好的选择,可以帮助克服这些挑战,因为在未来几十年中,电力系统转变。在这项工作中,我们概述了与构建可信赖的ML模型相关的五个关键挑战(数据集生成,数据预处理,模型培训,模型评估和模型嵌入),这些模型从基于物理的仿真数据中学习。然后,我们演示如何将单个模块连接在一起,每个模块都克服了各自的挑战,在机器学习管道中的顺序阶段,如何有助于提高训练过程的整体性能。特别是,我们实施了通过反馈连接学习管道的不同元素的方法,从而在模型培训,绩效评估和重新训练之间“关闭循环”。我们通过学习与拟议的北海风能中心系统的详细模型相关的N-1小信号稳定性边缘来证明该框架,其组成模块的有效性及其反馈连接。
translated by 谷歌翻译
药物介导的电压门控钾通道(HERG)和电压门控钠通道(NAV1.5)可导致严重的心血管并发症。这种上升的担忧已经反映在药物开发竞技场中,因为许多经批准的药物的常常出现心脏毒性导致他们在某些情况下停止他们的使用,或者在某些情况下,他们从市场上撤回。在药物发现过程的开始时预测潜在的HERG和NAV1.5阻滞剂可以解决这个问题,因此可以降低开发安全药物的时间和昂贵的成本。一种快速且经济高效的方法是在杂草中使用硅预测方法,在药物开发的早期阶段杂草出潜在的Herg和Nav1.5阻滞剂。在这里,我们介绍了两种基于强大的基于2D描述符的基于描述符的QSAR预测模型,用于HERG和NAV1.5责任预测。机器学习模型训练,用于回归,预测药物的效力值,以及三种不同效力截止的多条分类(即1 {\ mu} m,10 {\ mu} m,和30 {\ mu}) M),其中托管 - Herg分类器是随机森林模型的管道,受到8380个独特的分子化合物的大型策级数据集。虽然Toxtree-Nav1.5分类器,凯列化SVM模型的管道,由来自Chembl和Pubchem公开的生物活动数据库的大型手动策划的1550个独特的化合物培训。拟议的HERG诱导者表现优于最先进的发布模型和其他现有工具的大多数指标。此外,我们正在介绍Q4 = 74.9%的第一个NAV1.5责任预测模型,Q2 = 86.7%的二进制分类= 71.2%在173个独特的化合物的外部测试组上进行评估。该项目中使用的策划数据集公开可向研究界提供。
translated by 谷歌翻译
剪切粘度虽然是所有液体的基本特性,但在计算上估计分子动力学模拟的计算昂贵。最近,机器学习(ML)方法已被用于在许多情况下增强分子模拟,从而显示出以相对廉价的方式估算粘度的希望。但是,ML方法面临重大挑战,例如当数据集的大小很小时,粘度也很小。在这项工作中,我们训练多个ML模型,以预测Lennard-Jones(LJ)流体的剪切粘度,特别强调解决由小型数据集引起的问题。具体而言,研究了与模型选择,绩效估计和不确定性定量有关的问题。首先,我们表明使用单个看不见的数据集的广泛使用的性能估计步骤显示了小数据集的广泛可变性。在这种情况下,可以使用交叉验证(CV)选择超参数(模型选择)的常见实践,以估算概括误差(性能估计)。我们比较了两个简单的简历程序,以便他们同时选择模型选择和性能估计的能力,并发现基于K折CV的过程显示出较低的误差估计差异。我们讨论绩效指标在培训和评估中的作用。最后,使用高斯工艺回归(GPR)和集合方法来估计单个预测的不确定性。 GPR的不确定性估计还用于构建适用性域,使用ML模型对本工作中生成的另一个小数据集提供了更可靠的预测。总体而言,这项工作中规定的程序共同导致了针对小型数据集的强大ML模型。
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
The occurrence of vacuum arcs or radio frequency (rf) breakdowns is one of the most prevalent factors limiting the high-gradient performance of normal conducting rf cavities in particle accelerators. In this paper, we search for the existence of previously unrecognized features related to the incidence of rf breakdowns by applying a machine learning strategy to high-gradient cavity data from CERN's test stand for the Compact Linear Collider (CLIC). By interpreting the parameters of the learned models with explainable artificial intelligence (AI), we reverse-engineer physical properties for deriving fast, reliable, and simple rule-based models. Based on 6 months of historical data and dedicated experiments, our models show fractions of data with a high influence on the occurrence of breakdowns. Specifically, it is shown that the field emitted current following an initial breakdown is closely related to the probability of another breakdown occurring shortly thereafter. Results also indicate that the cavity pressure should be monitored with increased temporal resolution in future experiments, to further explore the vacuum activity associated with breakdowns.
translated by 谷歌翻译
由于机器学习是当前计算材料科学文献中的流行主题,因此为化合物创建表示形式已成为普遍的位置。这些表示形式很少被比较,因为评估了它们的性能 - 与它们一起使用的算法的性能是非平凡的。由于研究过程引起的许多材料数据集含有偏差和偏斜,因此已经引入了一个集群交叉验证(LOCO-CV),以衡量算法在预测以前看不见的材料基团时的性能。这提出了对Loco-CV测量结果的簇大小范围的影响和控制的问题。我们提出了基于组成的表示之间的详尽比较,并研究了如何使用内核近似功能来更好地分开数据以增强Loco-CV应用程序。我们发现,在大多数测试的任务中,域知识并不能提高机器学习的性能,而带隙预测是显着的例外。我们还发现,径向基函数在所有测试的10个数据集中提高了化学数据集的线性可分离性,并为在Loco-CV过程中应用此函数的应用提供了一个框架,以改善机车-CV测量结果,无论机器学习算法如何,选择度量和复合表示的选择。我们建议将内核Loco-CV作为训练范式,以示材料数据上的算法的外推能力。
translated by 谷歌翻译
拖延是任务的非理性延迟,是在线学习中的普遍情况。潜在的负面后果包括更高的辍学风险,增加压力和情绪减少。由于学习管理系统和学习分析的增加,可以检测到这种行为的指标,从而预测未来的拖延和其他扩张行为。但是,关注此类预测的研究很少。此外,几乎不存在涉及不同类型的预测指标和预测性能之间的比较的研究。在这项研究中,我们旨在通过分析多个机器学习算法的性能来填补这些研究空白,以预测具有两类预测指标的高等教育环境中在线作业的延迟或及时提交:基于主观的,基于问卷的变量和目标,客观,客观,客观,目标,客观,客观,客观,客观,从学习管理系统中提取的基于日志数据的指标。结果表明,具有客观预测变量的模型始终优于主观预测指标的模型,并且两种变量类型的组合表现稍好一些。对于这三个选项中的每一个,一种不同的方法盛行(主观,贝叶斯多层次模型的梯度增强机器,共同预测指标的随机森林)。我们得出的结论是,在学习管理系统中实施此类模型之前,应仔细注意预测变量和算法。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
评估能源转型和能源市场自由化对资源充足性的影响是一种越来越重要和苛刻的任务。能量系统的上升复杂性需要足够的能量系统建模方法,从而提高计算要求。此外,随着复杂性,同样调用概率评估和场景分析同样增加不确定性。为了充分和高效地解决这些各种要求,需要来自数据科学领域的新方法来加速当前方法。通过我们的系统文献综述,我们希望缩小三个学科之间的差距(1)电力供应安全性评估,(2)人工智能和(3)实验设计。为此,我们对所选应用领域进行大规模的定量审查,并制作彼此不同学科的合成。在其他发现之外,我们使用基于AI的方法和应用程序的AI方法和应用来确定电力供应模型的复杂安全性的元素,并作为未充分涵盖的应用领域的储存调度和(非)可用性。我们结束了推出了一种新的方法管道,以便在评估电力供应安全评估时充分有效地解决当前和即将到来的挑战。
translated by 谷歌翻译
了解晕星连接是基本的,以提高我们对暗物质的性质和性质的知识。在这项工作中,我们构建一个模型,鉴于IT主机的星系的位置,速度,恒星群体和半径的位置。为了捕获来自星系属性的相关性及其相位空间的相关信息,我们使用图形神经网络(GNN),该网络设计用于使用不规则和稀疏数据。我们从宇宙学和天体物理学中培训了我们在Galaxies上的模型,从宇宙学和天体物理学与机器学习模拟(骆驼)项目。我们的模型,占宇宙学和天体物理的不确定性,能够用$ \ SIM 0.2欧元的准确度来限制晕群。此外,在一套模拟上培训的GNN能够在用利用不同的代码的模拟上进行测试时保留其精度的一部分精度。 GNN的Pytorch几何实现在HTTPS://github.com/pablovd/halographnet上公开可用于github上
translated by 谷歌翻译
Machine-learning models are increasingly used to predict properties of atoms in chemical systems. There have been major advances in developing descriptors and regression frameworks for this task, typically starting from (relatively) small sets of quantum-mechanical reference data. Larger datasets of this kind are becoming available, but remain expensive to generate. Here we demonstrate the use of a large dataset that we have "synthetically" labelled with per-atom energies from an existing ML potential model. The cheapness of this process, compared to the quantum-mechanical ground truth, allows us to generate millions of datapoints, in turn enabling rapid experimentation with atomistic ML models from the small- to the large-data regime. This approach allows us here to compare regression frameworks in depth, and to explore visualisation based on learned representations. We also show that learning synthetic data labels can be a useful pre-training task for subsequent fine-tuning on small datasets. In the future, we expect that our open-sourced dataset, and similar ones, will be useful in rapidly exploring deep-learning models in the limit of abundant chemical data.
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
物理信息的神经网络(PINN)是神经网络(NNS),它们作为神经网络本身的组成部分编码模型方程,例如部分微分方程(PDE)。如今,PINN是用于求解PDE,分数方程,积分分化方程和随机PDE的。这种新颖的方法已成为一个多任务学习框架,在该框架中,NN必须在减少PDE残差的同时拟合观察到的数据。本文对PINNS的文献进行了全面的综述:虽然该研究的主要目标是表征这些网络及其相关的优势和缺点。该综述还试图将出版物纳入更广泛的基于搭配的物理知识的神经网络,这些神经网络构成了香草·皮恩(Vanilla Pinn)以及许多其他变体,例如物理受限的神经网络(PCNN),各种HP-VPINN,变量HP-VPINN,VPINN,VPINN,变体。和保守的Pinn(CPINN)。该研究表明,大多数研究都集中在通过不同的激活功能,梯度优化技术,神经网络结构和损耗功能结构来定制PINN。尽管使用PINN的应用范围广泛,但通过证明其在某些情况下比有限元方法(FEM)等经典数值技术更可行的能力,但仍有可能的进步,最著名的是尚未解决的理论问题。
translated by 谷歌翻译
神经网络在许多科学领域都变得流行,因为它们是有前途,可靠和强大的工具。在这项工作中,我们研究了数据增强对核物理数据神经网络模型的预测能力的影响。我们提供两种不同的数据增强技术,并根据不同的深度,优化器,激活功能和随机种子值进行详细的分析,以显示模型的成功和鲁棒性。首次使用实验不确定性进行数据扩展,人为地增强了训练数据集的大小,并且研究了测试集的模型预测与实验数据之间的根平方误差的变化。我们的结果表明,数据增强降低了预测错误,稳定模型并防止过度拟合。还测试了AME2020质量表中新测得的核的MLP模型的外推能力,并显示通过使用数据增强来显着改善预测。
translated by 谷歌翻译
在过去几十年中,已经提出了各种方法,用于估计回归设置中的预测间隔,包括贝叶斯方法,集合方法,直接间隔估计方法和保形预测方法。重要问题是这些方法的校准:生成的预测间隔应该具有预定义的覆盖水平,而不会过于保守。在这项工作中,我们从概念和实验的角度审查上述四类方法。结果来自各个域的基准数据集突出显示从一个数据集中的性能的大波动。这些观察可能归因于违反某些类别的某些方法所固有的某些假设。我们说明了如何将共形预测用作提供不具有校准步骤的方法的方法的一般校准程序。
translated by 谷歌翻译