智能论文笔记

Flexible, Non-parametric Modeling Using Regularized Neural Networks

Oskar Allerbo , Rebecka Jörnsten

分类：机器学习

2020-12-18

非参数，添加剂模型能够以灵活且可诠释的方式捕获复杂的数据依赖性。但是，选择添加剂组件的格式通常需要非琐碎的数据探索。在这里，作为替代方案，我们提出了Prada-Net，一种单隐层神经网络，具有近端梯度下降和自适应套索的训练。 Prada-Net自动调整神经网络的大小和架构，以反映数据的复杂性和结构。 Prada-Net获得的紧凑型网络可以转换为附加模型组件，使其适用于具有自动模型选择的非参数统计建模。我们在模拟数据上展示了PRADA-NET，其中将PRADA-NET的测试错误性能，可变重要性和可变子集识别属性进行了针对神经网络的其他基于卢赛的正则化方法。我们还将PRADA-NET应用于大量的U.K.黑烟数据集，以演示PRADA-NET如何使用空间和时间部件来模拟复杂和异构数据。与经典的统计非参数方法相比，Prada-Net不需要初步建模来选择添加剂组分的功能形式，但仍然导致可解释的模型表示。

translated by 谷歌翻译

Neural Networks for Extreme Quantile Regression with an Application to Forecasting of Flood Risk

Olivier C. Pasche , Sebastian Engelke

分类： (统计)机器学习

2022-08-16

对极端事件的风险评估需要准确估算超出历史观察范围的高分位数。当风险取决于观察到的预测因子的值时，回归技术用于在预测器空间中插值。我们提出的EQRN模型将来自神经网络和极值理论的工具结合到能够在存在复杂预测依赖性的情况下外推的方法中。神经网络自然可以在数据中融合其他结构。我们开发了EQRN的经常性版本，该版本能够在时间序列中捕获复杂的顺序依赖性。我们将这种方法应用于瑞士AARE集水区中洪水风险的预测。它利用从时空和时间上的多个协变量中利用信息，以提供对回报水平和超出概率的一日预测。该输出从传统的极值分析中补充了静态返回水平，并且预测能够适应不断变化的气候中经历的分配变化。我们的模型可以帮助当局更有效地管理洪水，并通过预警系统最大程度地减少其灾难性影响。

translated by 谷歌翻译

Adaptive Group Lasso Neural Network Models for Functions of Few Variables and Time-Dependent Data

Lam Si Tung Ho , Nicholas Richardson , Giang Tran

分类：机器学习

2021-08-24

在本文中，我们提出了一种自适应组套索深神经网络，用于高维函数近似，其中从动力系统生成输入数据，目标函数取决于少数有源变量或几乎没有变量的线性组合。我们通过深度神经网络近似于目标功能，并强制对合适的隐藏层的权重实施自适应组套索约束，以便表示目标函数的约束。我们利用近端算法优化惩罚损耗函数。使用BREGMAN距离的非负属性，我们证明所提出的优化程序实现损失衰减。我们的实证研究表明，该方法始终优于最近的最先进方法，包括稀疏词典矩阵方法，有或没有组卢赛诺罚款的神经网络。

translated by 谷歌翻译

Deep Learning with Functional Inputs

Barinder Thind , Kevin Multani , Jiguo Cao

分类： (统计)机器学习 | 机器学习

2020-06-17

We present a methodology for integrating functional data into deep densely connected feed-forward neural networks. The model is defined for scalar responses with multiple functional and scalar covariates. A by-product of the method is a set of dynamic functional weights that can be visualized during the optimization process. This visualization leads to greater interpretability of the relationship between the covariates and the response relative to conventional neural networks. The model is shown to perform well in a number of contexts including prediction of new data and recovery of the true underlying functional weights; these results were confirmed through real applications and simulation studies. A forthcoming R package is developed on top of a popular deep learning library (Keras) allowing for general use of the approach.

translated by 谷歌翻译

A Statistically-Based Approach to Feedforward Neural Network Model Selection

Andrew McInerney , Kevin Burke

分类：机器学习

2022-07-09

前馈神经网络（FNN）可以看作是非线性回归模型，在该模型中，协变量通过加权求和和非线性函数的组合进入模型。尽管这些模型与统计模型中通常使用的模型有一些相似之处，但大多数神经网络研究是在统计领域之外进行的。这导致缺乏基于统计学的方法，尤其是对模型简约的重视。确定输入层结构类似于变量选择，而隐藏层的结构与模型复杂性有关。实际上，通常通过使用样本外部性能比较模型来进行神经网络模型选择。但是，相反，相关的似然函数的构建为基于信息标准的变量和体系结构选择打开了大门。使用贝叶斯信息标准（BIC）提出了一种新型模型选择方法，该方法同时执行输入和隐藏节点选择。作为模型选择目标函数，BIC在样本外的性能上的选择会导致恢复真实模型的可能性增加，同时相同地实现了有利的样本外部性能。模拟研究用于评估和证明所提出的方法，并研究了实际数据的应用。

translated by 谷歌翻译

Granger Causality using Neural Networks

Samuel Horvath , Malik Shahid Sultan , Hernando Ombao

分类： (统计)机器学习 | 机器学习

2022-08-07

Granger因果关系（GC）检验是一种著名的统计假设检验，用于研究一个时期的过去是否影响了另一个时间的未来。它有助于回答一个问题序列是否有助于预测。 Granger因果关系检测的标准传统方法通常假设线性动力学，但是这种简化在许多现实世界应用中不存在，例如，神经科学或基因组学本质上是非线性的。在这种情况下，施加线性模型，例如向量自回旋（VAR）模型可能会导致对真正的Granger因果相互作用的不一致估计。机器学习（ML）可以学习数据集中的隐藏模式（DL）在学习复杂系统的非线性动力学方面表现出巨大的希望。 Tank等人的最新工作建议通过使用神经网络结合对可学习的权重的稀疏性惩罚来克服VAR模型中线性简化的问题。在这项工作中，我们基于Tank等人引入的想法。我们提出了几类新的模型，这些模型可以处理潜在的非线性。首先，我们介绍了学识渊博的内核var（lekvar）模型 - var模型的扩展，这些模型也学习了通过神经网络参数的内核。其次，我们表明可以通过脱钩的惩罚直接将滞后和单个时间序列的重要性分解。这种去耦提供了更好的缩放，并使我们可以将滞后选择嵌入RNN中。最后，我们提出了一种支持迷你批次的新培训算法，并且它与常用的自适应优化器（例如Adam）兼容。癫痫患者的电脑电图（EEG）数据研究了在19个EEG通道之前，期间和之后的GC演变。

translated by 谷歌翻译

Adaptive LASSO estimation for functional hidden dynamic geostatistical model

Paolo Maranzano , Philipp Otto , Alessandro Fassò

分类： (统计)机器学习

2022-08-10

我们根据功能性隐藏动态地理模型（F-HDGM）的惩罚最大似然估计器（PMLE）提出了一种新型的模型选择算法。这些模型采用经典的混合效应回归结构，该结构具有嵌入式时空动力学，以模拟在功能域中观察到的地理参考数据。因此，感兴趣的参数是该域之间的函数。该算法同时选择了相关的样条基函数和回归变量，这些函数和回归变量用于对响应变量与协变量之间的固定效应关系进行建模。这样，它会自动收缩到功能系数的零部分或无关回归器的全部效果。该算法基于迭代优化，并使用自适应的绝对收缩和选择器操作员（LASSO）惩罚函数，其中未含量的F-HDGM最大likikelihood估计器获得了其中的权重。最大化的计算负担大大减少了可能性的局部二次近似。通过蒙特卡洛模拟研究，我们分析了在不同情况下算法的性能，包括回归器之间的强相关性。我们表明，在我们考虑的所有情况下，受罚的估计器的表现都优于未确定的估计器。我们将该算法应用于一个真实案例研究，其中将意大利伦巴第地区的小时二氧化氮浓度记录记录为具有多种天气和土地覆盖协变量的功能过程。

translated by 谷歌翻译

The SKIM-FA Kernel: High-Dimensional Variable Selection and Nonlinear Interaction Discovery in Linear Time

Raj Agrawal , Tamara Broderick

分类： (统计)机器学习

2021-06-23

Many scientific problems require identifying a small set of covariates that are associated with a target response and estimating their effects. Often, these effects are nonlinear and include interactions, so linear and additive methods can lead to poor estimation and variable selection. Unfortunately, methods that simultaneously express sparsity, nonlinearity, and interactions are computationally intractable -- with runtime at least quadratic in the number of covariates, and often worse. In the present work, we solve this computational bottleneck. We show that suitable interaction models have a kernel representation, namely there exists a "kernel trick" to perform variable selection and estimation in $O$(# covariates) time. Our resulting fit corresponds to a sparse orthogonal decomposition of the regression function in a Hilbert space (i.e., a functional ANOVA decomposition), where interaction effects represent all variation that cannot be explained by lower-order effects. On a variety of synthetic and real data sets, our approach outperforms existing methods used for large, high-dimensional data sets while remaining competitive (or being orders of magnitude faster) in runtime.

translated by 谷歌翻译

Selecting Diverse Models for Scientific Insight

Laura J. Wendelberger , Brian J. Reich , Alyson G. Wilson

分类： (统计)机器学习

2020-06-16

模型选择通常旨在选择单一模型，假设模型的形式是正确的。然而，可以解释响应的一组预测器中可能存在多种可能的底层解释模式。不考虑模型不确定性的模型选择可能无法将这些模式带到光线。我们探索多模型惩罚回归（MMPR），以确认在惩罚回归的背景下的模型不确定性。我们研究不同的惩罚设置如何在单独的模型中促进系数的收缩或稀疏性。该方法被调整以显式限制模型相似度。选择罚款形式的选择，该刑罚形式应用于从钢合金组合物中预测堆叠故障能量（SFE）。目的是识别多种模型，具有解释单一类型的响应的不同协变量的模型。

translated by 谷歌翻译

Robust Neural Network Classification via Double Regularization

Olof Zetterqvist , Rebecka Jörnsten , Johan Jonasson

分类： (统计)机器学习 | 机器学习

2021-12-15

在数据中存在错误标记的观察是统计和机器学习中令人惊叹的挑战性问题，与传统分类器的差的概括特性相关，也许更灵活的分类器，如神经网络。在这里，我们提出了一种新的双重正规化的神经网络培训损失，这些训练损失结合了对分类模型的复杂性的惩罚以及对训练观测的最佳重新重量。综合惩罚导致普遍存在的普遍设置的普遍性特性和强大的稳健性，以及在训练时违反初始参数值的变化。我们为我们提出的方法提供了一个理论上的理由，该方法衍生出一种简单的逻辑回归。我们展示了双重正则化模型，这里由DRFIT表示，用于（i）MNIST和（II）CIFAR-10的神经净分类，在两种情况下都有模拟误标标记。我们还说明DRFIT以非常好的精度识别错误标记的数据点。这为DRFIT提供了强大的支持，作为一种现成的分类器，因为没有任何表现牺牲，我们获得了一个分类器，同时降低了对误标标记的过度装备，并准确衡量标签的可信度。

translated by 谷歌翻译

Semi-Structured Distributional Regression -- Extending Structured Additive Models by Arbitrary Deep Neural Networks and Data Modalities

David Rügamer , Chris Kolb , Nadja Klein

分类： (统计)机器学习 | 机器学习

2020-02-13

结合添加剂模型和神经网络可以通过同时通过可解释的结构化添加剂预测变量扩大统计回归的范围并扩展基于深度学习的方法。但是，将两种建模方法统一的现有尝试仅限于非常具体的组合，更重要的是涉及可识别性问题。结果，通常会丢失可解释性和稳定的估计。我们提出了一个通用框架，将结构化回归模型和深层神经网络组合到统一的网络体系结构中。为了克服不同模型零件之间固有的可识别性问题，我们构建了一个正交的单元，该细胞将深层神经网络投射到统计模型预测因子的正交补体中。这可以正确估计结构化模型零件，从而可以解释性。我们在数值实验中演示了该框架的功效，并在基准和现实世界应用中说明了其特殊优点。

translated by 谷歌翻译

Learning to Increase the Power of Conditional Randomization Tests

Shalev Shaer , Yaniv Romano

分类：机器学习 | (统计)机器学习

2022-07-03

Model-X条件随机测试是有条件独立性测试的通用框架，解锁了新的可能性，以发现与感兴趣的响应有条件相关的特征，同时控制I型错误率。该测试的一个吸引力的优势是，它可以与任何机器学习模型一起使用来设计强大的测试统计数据。反过来，Model-X文献中的常见实践是使用机器学习模型形成测试统计量，经过培训，以最大程度地提高预测精度，希望能够获得良好的功率测试。但是，这里的理想目标是推动模型（在训练期间）以最大程度地提高测试功能，而不仅仅是预测精度。在本文中，我们通过首次引入新型模型拟合方案来弥合这一差距，这些方案旨在明确提高Model-X测试的功能。这是通过引入新的成本函数来完成的，该功能旨在最大化用于衡量有条件独立性违反的测试统计量。使用合成和真实的数据集，我们证明了我们提出的损失函数与各种基本预测模型（Lasso，弹性网和深神经网络）的组合始终增加所获得的正确发现的数量，同时维持I型错误率下的I型错误率控制。

translated by 谷歌翻译

Flexible Bayesian Nonlinear Model Configuration

Aliaksandr Hubin , Geir Storvik , Florian Frommlet

分类： (统计)机器学习 | 机器学习

2020-03-05

回归模型用于各种应用，为来自不同领域的研究人员提供强大的科学工具。线性或简单的参数，模型通常不足以描述输入变量与响应之间的复杂关系。通过诸如神经网络的灵活方法可以更好地描述这种关系，但这导致不太可解释的模型和潜在的过度装备。或者，可以使用特定的参数非线性函数，但是这种功能的规范通常是复杂的。在本文中，我们介绍了一种灵活的施工方法，高度灵活的非线性参数回归模型。非线性特征是分层的，类似于深度学习，但对要考虑的可能类型的功能具有额外的灵活性。这种灵活性，与变量选择相结合，使我们能够找到一小部分重要特征，从而可以更具可解释的模型。在可能的功能的空间内，考虑了贝叶斯方法，基于它们的复杂性引入功能的前沿。采用遗传修改模式跳跃马尔可夫链蒙特卡罗算法来执行贝叶斯推理和估计模型平均的后验概率。在各种应用中，我们说明了我们的方法如何用于获得有意义的非线性模型。此外，我们将其预测性能与多个机器学习算法进行比较。

translated by 谷歌翻译

Deep Partial Least Squares for Empirical Asset Pricing

Matthew F. Dixon , Nicholas G. Polson , Kemen Goicoechea

分类：机器学习 | (统计)机器学习

2022-06-20

我们使用深层部分最小二乘（DPL）来估算单个股票收益的资产定价模型，该模型以灵活而动态的方式利用调理信息，同时将超额回报归因于一小部分统计风险因素。新颖的贡献是解决非线性因子结构，从而推进经验资产定价中深度学习的当前范式，该定价在假设高斯资产回报和因素的假设下使用线性随机折现因子。通过使用预测的最小二乘正方形来共同投影公司特征和资产回报到潜在因素的子空间，并使用深度学习从因子负载到资产回报中学习非线性图。捕获这种非线性风险因素结构的结果是通过线性风险因素暴露和相互作用效应来表征资产回报中的异常情况。因此，深度学习捕获异常值的众所周知的能力，在潜在因素结构中的角色和高阶项在因素风险溢价上的作用。从经验方面来说，我们实施了DPLS因子模型，并表现出比Lasso和Plain Vanilla深度学习模型表现出卓越的性能。此外，由于DPL的更简约的架构，我们的网络培训时间大大减少了。具体而言，在1989年12月至2018年1月的一段时间内使用Russell 1000指数中的3290资产，我们评估了我们的DPLS因子模型，并生成比深度学习大约1.2倍的信息比率。 DPLS解释了变化和定价错误，并确定了最突出的潜在因素和公司特征。

translated by 谷歌翻译

Efficient Estimation in NPIV Models: A Comparison of Various Neural Networks-Based Estimators

Jiafeng Chen , Xiaohong Chen , Elie Tamer

分类：机器学习

2021-10-13

人工神经网络（ANNS）可以被视为非线性筛子，其可以比线性筛更有效地近似高维变量的复杂功能。我们调查与经验经济学相关的中等高维协变量的非参数仪器变量（NPIV）模型的各种ANN的计算性能。我们在加权平均衍生物（WAD）上介绍了两个有效的估计和推断方法：具有最佳加权筛分最小距离（OP-OSMD）程序的正交化插件和筛分有效评分。 WAD的两个估计器都使用ANN筛来近似未知的NPIV功能，并且是根 - N渐近正常和一流的等价物。我们提供详细的从业者的配方，以实现有效的程序。这涉及选择未知NPIV的调整参数，包括在两个过程中存在的条件期望和最佳加权函数，而且还可以选择ES过程中未知RIESZ代表的调谐参数。我们比较各种仿真设计的有限样本性能，涉及涉及最多13个连续协变量，不同的非线性和协变量相关的NPIV功能。一些蒙特卡罗调查结果包括：1）调谐和优化在ANN估计中更精细; 2）给定适当调整，有各种架构的ANN估计都可以表现良好; 3）更容易调整ANN-OSMD估计比ANN EAN估算值; 4）用ANN（比样条曲线）估计变得稳定的推论更难以实现; 5）当前实现和近似理论之间存在间隙。最后，我们应用ANN NPIV以多变量协变者在两个经验需求示例中估算平均部分衍生物。

translated by 谷歌翻译

A unifying partially-interpretable framework for neural network-based extreme quantile regression

Jordan Richards , Raphaël Huser

分类： (统计)机器学习 | 机器学习

2022-08-16

在许多环境环境中的风险管理需要了解驱动极端事件的机制。量化这种风险的有用指标是响应变量的极端分位数，该变量是基于描述气候，生物圈和环境状态的预测变量的。通常，这些分位数位于可观察数据的范围之内，因此，为了估算，需要在回归框架内规范参数极值模型。在这种情况下，经典方法利用预测变量和响应变量之间的线性或加性关系，并在其预测能力或计算效率中受苦；此外，它们的简单性不太可能捕获导致极端野火创造的真正复杂结构。在本文中，我们提出了一个新的方法学框架，用于使用人工中性网络执行极端分位回归，该网络能够捕获复杂的非线性关系并很好地扩展到高维数据。神经网络的“黑匣子”性质意味着它们缺乏从业者通常会喜欢的可解释性的理想特征。因此，我们将线性和加法模型的各个方面与深度学习相结合，以创建可解释的神经网络，这些神经网络可用于统计推断，但保留了高预测准确性。为了补充这种方法，我们进一步提出了一个新颖的点过程模型，以克服与广义极值分布类别相关的有限的下端问题。我们的统一框架的功效在具有高维预测器集的美国野火数据上说明了，我们说明了基于线性和基于样条的回归技术的预测性能的大幅改进。

translated by 谷歌翻译

Copulaboost: additive modeling with copula-based model components

Simon Boge Brant , Ingrid Hobæk Haff

分类： (统计)机器学习

2022-08-09

我们提出了一种基于配对构造的模型组件的广义添加剂模型，并以预测为主要目的。该模型组件的设计使我们的模型可以捕获响应协变量之间关系中潜在的复杂相互作用效应。此外，我们的模型不需要连续协变量的离散化，因此适用于许多此类协变量的问题。此外，我们设计了一种受梯度增强启发的拟合算法，以及通过对模型空间和近似值的限制来加快时间对比计算的限制，用于模型选择和模型选择的有效程序。除了我们的模型在更高维度中成为现实的选择绝对必要外，这些技术还可以作为设计有效模型选择算法的其他类型的Copula回归模型的基础。我们已经在模拟研究中探索了我们方法的特征，特别是将其与自然替代方案进行比较，例如逻辑回归，经典增强模型和受到惩罚的逻辑回归。我们还展示了我们在威斯康星州乳腺癌数据集和波士顿住房数据集上的方法。结果表明，即使离散协变量的比例很高，我们的方法的预测性能要么比其他方法更好或可比其他方法媲美。

translated by 谷歌翻译

Clustering of longitudinal data: A tutorial on a variety of approaches

Niek Den Teuling , Steffen Pauws , Edwin van den Heuvel

分类：机器学习 | (统计)机器学习

2021-11-10

在过去二十年中，识别具有不同纵向数据趋势的群体的方法已经成为跨越许多研究领域的兴趣。为了支持研究人员，我们总结了文献关于纵向聚类的指导。此外，我们提供了一种纵向聚类方法，包括基于基团的轨迹建模（GBTM），生长混合模拟（GMM）和纵向K平均值（KML）。该方法在基本级别引入，并列出了强度，限制和模型扩展。在最近数据收集的发展之后，将注意这些方法的适用性赋予密集的纵向数据（ILD）。我们展示了使用R.中可用的包在合成数据集上的应用程序的应用。

translated by 谷歌翻译

Wasserstein Distributional Learning

Chengliang Tang , Nathan Lenssen , Ying Wei , Tian Zheng

分类： (统计)机器学习

2022-09-12

学习条件密度和识别影响整个分布的因素是数据驱动应用程序中的重要任务。常规方法主要与摘要统计数据合作，因此不足以进行全面的调查。最近，关于功能回归方法的发展，将密度曲线作为功能结果建模。开发此类模型的一个主要挑战在于非阴性的固有约束和密度结果功能空间的单位积分。为了克服这个基本问题，我们建议Wasserstein分销学习（WDL），这是一个柔性在尺度回归建模框架，始于Wasserstein距离$ W_2 $，作为密度结果空间的适当指标。然后，我们将半参数条件高斯混合模型（SCGMM）作为模型类$ \ mathfrak {f} \ otimes \ Mathcal {t} $作为模型类$ \ mathfrak {scgmm）介绍。生成的度量空间$（\ Mathfrak {f} \ otimes \ Mathcal {t}，W_2）$满足所需的约束，并提供密集且封闭的功能子空间。为了拟合所提出的模型，我们基于增强树的大量最小化优化进一步开发了有效的算法。与以前的文献中的方法相比，WDL更好地表征了条件密度的非线性依赖性及其得出的摘要统计。我们通过模拟和现实世界应用来证明WDL框架的有效性。

translated by 谷歌翻译

Deep Learning Methods for Partial Differential Equations and Related Parameter Identification Problems

Derick Nganyu Tanyu , Jianfeng Ning , Tom Freudenberg , Nick Heilenkötter , Andreas Rademacher , Uwe Iben , Peter Maass

分类：机器学习

2022-12-06

Recent years have witnessed a growth in mathematics for deep learning--which seeks a deeper understanding of the concepts of deep learning with mathematics, and explores how to make it more robust--and deep learning for mathematics, where deep learning algorithms are used to solve problems in mathematics. The latter has popularised the field of scientific machine learning where deep learning is applied to problems in scientific computing. Specifically, more and more neural network architectures have been developed to solve specific classes of partial differential equations (PDEs). Such methods exploit properties that are inherent to PDEs and thus solve the PDEs better than classical feed-forward neural networks, recurrent neural networks, and convolutional neural networks. This has had a great impact in the area of mathematical modeling where parametric PDEs are widely used to model most natural and physical processes arising in science and engineering, In this work, we review such methods and extend them for parametric studies as well as for solving the related inverse problems. We equally proceed to show their relevance in some industrial applications.

translated by 谷歌翻译