智能论文笔记

Omitted Variable Bias in Machine Learned Causal Models

Victor Chernozhukov , Carlos Cinelli , Whitney Newey , Amit Sharma , Vasilis Syrgkanis

分类：机器学习 | (统计)机器学习

2021-12-26

我们推出了一般，但简单，尖锐的界限，用于广泛的因果参数的省略可变偏置，可以被识别为结果的条件期望函数的线性功能。这些功能包括许多传统的因果推断研究中的调查目标，例如（加权）平均潜在结果，平均治疗效果（包括亚组效应，例如对处理的效果），（加权）平均值来自协变态分布的转变的衍生品和政策影响 - 所有是一般的非参数因果模型。我们的建设依赖于目标功能的riesz-frechet表示。具体而言，我们展示了偏差的绑定如何仅取决于潜在变量在结果中创建的附加变型以及用于感兴趣的参数的RIESZ代表。此外，在许多重要病例中（例如，部分线性模型中的平均治疗效果，或在具有二元处理的不可分配模型中），所示的界定依赖于两个易于解释的数量：非参数部分$ r ^ 2 $（Pearson的相关性与治疗和结果的未观察变量的比例“。因此，对省略变量的最大解释力（在解释处理和结果变化时）的简单合理性判断足以将整体界限放置在偏置的尺寸上。最后，利用脱叠机器学习，我们提供灵活有效的统计推理方法，以估计从观察到的分布识别的界限的组件。

translated by 谷歌翻译

Debiased Inference on Identified Linear Functionals of Underidentified Nuisances via Penalized Minimax Estimation

Nathan Kallus , Xiaojie Mao

分类： (统计)机器学习

2022-08-17

我们研究了对识别的非唯一麻烦的线性功能的通用推断，该功能定义为未识别条件矩限制的解决方案。这个问题出现在各种应用中，包括非参数仪器变量模型，未衡量的混杂性下的近端因果推断以及带有阴影变量的丢失 - 与随机数据。尽管感兴趣的线性功能（例如平均治疗效应）在适当的条件下是可以识别出的，但令人讨厌的非独家性对统计推断构成了严重的挑战，因为在这种情况下，常见的滋扰估计器可能是不稳定的，并且缺乏固定限制。在本文中，我们提出了对滋扰功能的受惩罚的最小估计器，并表明它们在这种挑战性的环境中有效推断。提出的滋扰估计器可以适应灵活的功能类别，重要的是，无论滋扰是否是唯一的，它们都可以融合到由惩罚确定的固定限制。我们使用受惩罚的滋扰估计器来形成有关感兴趣的线性功能的依据估计量，并在通用高级条件下证明其渐近正态性，这提供了渐近有效的置信区间。

translated by 谷歌翻译

Doubly-Valid/Doubly-Sharp Sensitivity Analysis for Causal Inference with Unmeasured Confounding

Jacob Dorn , Kevin Guo , Nathan Kallus

分类：机器学习 | (统计)机器学习

2021-12-21

在TAN（2006）边缘敏感模型下，在不观察到的混淆存在下构建平均处理效应的界限问题。结合涉及对冲倾向分数的现有表征具有对问题的新的分布稳健特征，我们提出了我们称之为“双重有效/双重尖锐”（DVD）估计的这些界限的新颖估算器。双重清晰度对应于DVD估计始终估计灵敏度模型所暗示的最有可能（即，夏普）的界限，即使当所有滋扰参数都适当一致时，即使在两个滋扰参数中的一个被击败并实现半污染参数之一。双倍有效性是部分识别的全新财产：DVD估计仍然提供有效，但即使在大多数滋扰参数都被遗漏时，仍然没有锐利。实际上，即使在DVDS点估计无法渐近正常的情况下，标准沃尔德置信区间也可能保持有效。在二进制结果的情况下，DVD估计是特别方便的并且在结果回归和倾向评分方面具有闭合形式的表达。我们展示了模拟研究中的DVD估计，以及对右心导管插入的案例研究。

translated by 谷歌翻译

Kernel Methods for Unobserved Confounding: Negative Controls, Proxies, and Instruments

Rahul Singh

分类： (统计)机器学习 | 机器学习

2020-12-18

负面对照是在存在未衡量混杂的情况下学习治疗与结果之间因果关系的策略。但是，如果有两个辅助变量可用：阴性对照治疗（对实际结果没有影响），并且可以确定治疗效果，并且可以识别出负面对照的结果（不受实际治疗的影响）。这些辅助变量也可以看作是一组传统控制变量的代理，并且与仪器变量相似。我提出了一种基于内核脊回归的算法系列，用于学习非参数治疗效果，并具有阴性对照。例子包括剂量反应曲线，具有分布转移的剂量反应曲线以及异质治疗效果。数据可能是离散的或连续的，并且低，高或无限的尺寸。我证明一致性均匀，并提供有限的收敛速率。我使用宾夕法尼亚州1989年至1991年之间在宾夕法尼亚州的单身人士出生的数据集对婴儿的出生体重进行了吸烟的剂量反应曲线，以调整未观察到的混杂因素。

translated by 谷歌翻译

Generalized Kernel Ridge Regression for Nonparametric Structural Functions and Semiparametric Treatment Effects

Rahul Singh , Liyuan Xu , Arthur Gretton

分类：机器学习 | (统计)机器学习

2020-10-10

我们提出了基于内核Ridge回归的估计估算师，用于非参数结构功能（也称为剂量响应曲线）和半甲酰胺处理效果。治疗和协变量可以是离散的或连续的，低，高或无限的尺寸。与其他机器学习范例不同，降低了具有闭合形式解决方案的内核脊回归组合的因果估计和推理，这些ridge回归的组合，并通过矩阵操作轻松计算。这种计算简单允许我们在两个方向上扩展框架：从意味着增加和分布反事实结果;从完整人口参数到群体和替代人口的参数。对于结构函数，我们证明了具有有限样本速率的均匀一致性。对于治疗效果，我们通过新的双光谱鲁棒性属性证明$ \ sqrt {n} $一致性，高斯近似和半甲效率。我们对美国职能培训计划进行仿真和估计平均，异构和增量结构职能。

translated by 谷歌翻译

Incremental Intervention Effects in Studies with Dropout and Many Timepoints

Kwangho Kim , Edward H. Kennedy , Ashley I. Naimi

分类： (统计)机器学习

2019-07-09

现代纵向研究在许多时间点收集特征数据，通常是相同的样本大小顺序。这些研究通常受到{辍学}和积极违规的影响。我们通过概括近期增量干预的效果（转换倾向分数而不是设置治疗价值）来解决这些问题，以适应多种结果和主题辍学。当条件忽略（不需要治疗阳性）时，我们给出了识别表达式的增量干预效果，并导出估计这些效果的非参数效率。然后我们提出了高效的非参数估计器，表明它们以快速参数速率收敛并产生均匀的推理保证，即使在较慢的速率下灵活估计滋扰函数。我们还研究了新型无限时间范围设置中的更传统的确定性效果的增量干预效应的方差比，其中时间点的数量可以随着样本大小而生长，并显示增量干预效果在统计精度下产生近乎指数的收益这个设置。最后，我们通过模拟得出结论，并在研究低剂量阿司匹林对妊娠结果的研究中进行了方法。

translated by 谷歌翻译

Kernel Methods for Multistage Causal Inference: Mediation Analysis and Dynamic Treatment Effects

Rahul Singh , Liyuan Xu , Arthur Gretton

分类：机器学习 | (统计)机器学习

2021-11-06

我们提出了用于中介分析和动态治疗效果的内核脊回归估计。我们允许治疗，协变量和介质是离散或连续的，低，高或无限的尺寸。我们在内核矩阵操作方面提出了具有封闭式解决方案的依据，增量和分布的估算者。对于连续治疗案例，我们证明了具有有限样本速率的均匀一致性。对于离散处理案例，我们证明了根 - N一致性，高斯近似和半占用效率。我们进行仿真，然后估计美国职务团计划的介导和动态治疗效果，弱势青少年。

translated by 谷歌翻译

Estimation and Inference on Heterogeneous Treatment Effects in High-Dimensional Dynamic Panels under Weak Dependence

Vira Semenova , Matt Goldman , Victor Chernozhukov , Matt Taddy

分类： (统计)机器学习

2017-12-28

This paper provides estimation and inference methods for a conditional average treatment effects (CATE) characterized by a high-dimensional parameter in both homogeneous cross-sectional and unit-heterogeneous dynamic panel data settings. In our leading example, we model CATE by interacting the base treatment variable with explanatory variables. The first step of our procedure is orthogonalization, where we partial out the controls and unit effects from the outcome and the base treatment and take the cross-fitted residuals. This step uses a novel generic cross-fitting method we design for weakly dependent time series and panel data. This method "leaves out the neighbors" when fitting nuisance components, and we theoretically power it by using Strassen's coupling. As a result, we can rely on any modern machine learning method in the first step, provided it learns the residuals well enough. Second, we construct an orthogonal (or residual) learner of CATE -- the Lasso CATE -- that regresses the outcome residual on the vector of interactions of the residualized treatment with explanatory variables. If the complexity of CATE function is simpler than that of the first-stage regression, the orthogonal learner converges faster than the single-stage regression-based learner. Third, we perform simultaneous inference on parameters of the CATE function using debiasing. We also can use ordinary least squares in the last two steps when CATE is low-dimensional. In heterogeneous panel data settings, we model the unobserved unit heterogeneity as a weakly sparse deviation from Mundlak (1978)'s model of correlated unit effects as a linear function of time-invariant covariates and make use of L1-penalization to estimate these models. We demonstrate our methods by estimating price elasticities of groceries based on scanner data. We note that our results are new even for the cross-sectional (i.i.d) case.

translated by 谷歌翻译

A Finite Sample Theorem for Longitudinal Causal Inference with Machine Learning: Long Term, Dynamic, and Mediated Effects

Rahul Singh

分类： (统计)机器学习 | 机器学习

2021-12-28

我用机器学习估计的纵向因果参数构建并证明置信区间。纵向参数包括长期，动态和介导的效果。我为任何用于满足少数简单，可解释的条件的机器学习算法估计的任何纵向因果参数提供令人反感的定理。主要结果包括针对特定人口统计学定义的本地参数以及在存在不观察到的混杂中定义的近端参数。正式，我证明了一致性，高斯近似和半占用效率。全局参数的收敛速度为n ^ { - 1/2} $ n $ n为n ^ { - 1/2} $，它为本地参数优雅地降低。我阐述了一套简单的条件来将均方的平方率转化为统计推理。主要结果的一个关键特征是对纵向设置中的近端因果推断不良的新的多种稳健性。

translated by 谷歌翻译

On the role of surrogates in the efficient estimation of treatment effects with limited outcome data

Nathan Kallus , Xiaojie Mao

分类： (统计)机器学习 | 机器学习

2020-03-27

In many investigations, the primary outcome of interest is difficult or expensive to collect. Examples include long-term health effects of medical interventions, measurements requiring expensive testing or follow-up, and outcomes only measurable on small panels as in marketing. This reduces effective sample sizes for estimating the average treatment effect (ATE). However, there is often an abundance of observations on surrogate outcomes not of primary interest, such as short-term health effects or online-ad click-through. We study the role of such surrogate observations in the efficient estimation of treatment effects. To quantify their value, we derive the semiparametric efficiency bounds on ATE estimation with and without the presence of surrogates and several intermediary settings. The difference between these characterizes the efficiency gains from optimally leveraging surrogates. We study two regimes: when the number of surrogate observations is comparable to primary-outcome observations and when the former dominates the latter. We take an agnostic missing-data approach circumventing strong surrogate conditions previously assumed. To leverage surrogates' efficiency gains, we develop efficient ATE estimation and inference based on flexible machine-learning estimates of nuisance functions appearing in the influence functions we derive. We empirically demonstrate the gains by studying the long-term earnings effect of job training.

translated by 谷歌翻译

Estimating Heterogeneous Bounds for Treatment Effects under Sample Selection and Non-response

Phillip Heiler

分类： (统计)机器学习

2022-09-09

在本文中，我们提出了一种非参数估计的方法，并推断了一般样本选择模型中因果效应参数的异质界限，初始治疗可能会影响干预后结果是否观察到。可观察到的协变量可能会混淆治疗选择，而观察结果和不可观察的结果可能会混淆。该方法提供条件效应界限作为策略相关的预处理变量的功能。它允许对身份不明的条件效应曲线进行有效的统计推断。我们使用灵活的半参数脱偏机学习方法，该方法可以适应柔性功能形式和治疗，选择和结果过程之间的高维混杂变量。还提供了易于验证的高级条件，以进行估计和错误指定的鲁棒推理保证。

translated by 谷歌翻译

Localized Debiased Machine Learning: Efficient Inference on Quantile Treatment Effects and Beyond

Nathan Kallus , Xiaojie Mao , Masatoshi Uehara

分类： (统计)机器学习 | 机器学习

2019-12-30

我们考虑在估计涉及依赖参数的高维滋扰的估计方程中估计一个低维参数。一个中心示例是因果推理中（局部）分位数处理效应（（L）QTE）的有效估计方程，涉及在分位数以估计的分位数评估的协方差累积分布函数。借记机学习（DML）是一种使用灵活的机器学习方法估算高维滋扰的数据分解方法，但是将其应用于参数依赖性滋扰的问题是不切实际的。对于（L）QTE，DML要求我们学习整个协变量累积分布函数。相反，我们提出了局部偏见的机器学习（LDML），该学习避免了这一繁重的步骤，并且只需要对参数进行一次初始粗糙猜测而估算烦恼。对于（L）QTE，LDML仅涉及学习两个回归功能，这是机器学习方法的标准任务。我们证明，在松弛速率条件下，我们的估计量与使用未知的真实滋扰的不可行的估计器具有相同的有利渐近行为。因此，LDML值得注意的是，当我们必须控制许多协变量和/或灵活的关系时，如（l）QTES在（（l）QTES）中，实际上可以有效地估算重要数量，例如（l）QTES。

translated by 谷歌翻译

Causal Inference Under Unmeasured Confounding With Negative Controls: A Minimax Learning Approach

Nathan Kallus , Xiaojie Mao , Masatoshi Uehara

分类： (统计)机器学习 | 机器学习

2021-03-25

当并非观察到所有混杂因子并获得负面对照时，我们研究因果参数的估计。最近的工作表明，这些方法如何通过两个所谓的桥梁函数来实现识别和有效估计。在本文中，我们使用阴性对照来应对因果推断的主要挑战：这些桥梁功能的识别和估计。先前的工作依赖于这些功能的完整性条件，以识别因果参数并在估计中需要进行独特性假设，并且还集中于桥梁函数的参数估计。相反，我们提供了一种新的识别策略，以避免完整性条件。而且，我们根据最小学习公式为这些功能提供新的估计量。这些估计值适合通用功能类别，例如重现Hilbert空间和神经网络。我们研究了有限样本收敛的结果，既可以估计桥梁功能本身，又要在各种假设组合下对因果参数进行最终估计。我们尽可能避免桥梁上的独特条件。

translated by 谷歌翻译

Semiparametric Inference For Causal Effects In Graphical Models With Hidden Variables

Rohit Bhattacharya , Razieh Nabi , Ilya Shpitser

分类： (统计)机器学习 | 机器学习

2020-03-27

研究了与隐藏变量有关的非循环图（DAG）相关的因果模型中因果效应的识别理论。然而，由于估计它们输出的识别功能的复杂性，因此未耗尽相应的算法。在这项工作中，我们弥合了识别和估算涉及单一治疗和单一结果的人口水平因果效应之间的差距。我们派生了基于功能的估计，在大类隐藏变量DAG中表现出对所识别的效果的双重稳健性，其中治疗满足简单的图形标准;该类包括模型，产生调整和前门功能作为特殊情况。我们还提供必要的和充分条件，其中隐藏变量DAG的统计模型是非分子饱和的，并且意味着对观察到的数据分布没有平等约束。此外，我们推导了一类重要的隐藏变量DAG，这意味着观察到观察到的数据分布等同于完全观察到的DAG等同于（最高的相等约束）。在这些DAG类中，我们推出了实现兴趣目标的半导体效率界限的估计估计值，该估计是治疗满足我们的图形标准的感兴趣的目标。最后，我们提供了一种完整的识别算法，可直接产生基于权重的估计策略，以了解隐藏可变因果模型中的任何可识别效果。

translated by 谷歌翻译

Feature selection in stratification estimators of causal effects: lessons from potential outcomes, causal diagrams, and structural equations

P. Richard Hahn , Andrew Herren

分类： (统计)机器学习

2022-09-23

估计平均因果效应的理想回归（如果有）是什么？我们在离散协变量的设置中研究了这个问题，从而得出了各种分层估计器的有限样本方差的表达式。这种方法阐明了许多广泛引用的结果的基本统计现象。我们的博览会结合了研究因果效应估计的三种不同的方法论传统的见解：潜在结果，因果图和具有加性误差的结构模型。

translated by 谷歌翻译

Causal Inference with Corrupted Data: Measurement Error, Missing Values, Discretization, and Differential Privacy

Anish Agarwal , Rahul Singh

分类：机器学习 | (统计)机器学习

2021-07-06

即使是最精确的经济数据集也具有嘈杂，丢失，离散化或私有化的变量。实证研究的标准工作流程涉及数据清理，然后是数据分析，通常忽略数据清洁的偏差和方差后果。我们制定了具有损坏数据的因果推理的半造型模型，以包括数据清洁和数据分析。我们提出了一种新的数据清洁，估计和推理的新的端到端程序，以及数据清洁调整的置信区间。通过有限的示例参数，我们证明了因果关系参数的估算器的一致性，高斯近似和半游戏效率。 Gaussian近似的速率为N ^ { - 1/2} $，如平均治疗效果，如平均治疗效果，并且优雅地为当地参数劣化，例如特定人口统计的异构治疗效果。我们的关键假设是真正的协变量是较低的等级。在我们的分析中，我们为矩阵完成，统计学习和半统计统计提供了非对症的理论贡献。我们验证了数据清洁调整的置信区间隔的覆盖范围校准，以类似于2020年美国人口普查中实施的差异隐私。

translated by 谷歌翻译

Evaluating Treatment Prioritization Rules via Rank-Weighted Average Treatment Effects

Steve Yadlowsky , Scott Fleming , Nigam Shah , Emma Brunskill , Stefan Wager

分类： (统计)机器学习

2021-11-15

有许多可用于选择优先考虑治疗的可用方法，包括基于治疗效果估计，风险评分和手工制作规则的遵循申请。我们将秩加权平均治疗效应（RATY）指标作为一种简单常见的指标系列，用于比较水平竞争范围的治疗优先级规则。对于如何获得优先级规则，率是不可知的，并且仅根据他们在识别受益于治疗中受益的单位的方式进行评估。我们定义了一系列速率估算器，并证明了一个中央限位定理，可以在各种随机和观测研究环境中实现渐近精确的推断。我们为使用自主置信区间的使用提供了理由，以及用于测试关于治疗效果中的异质性的假设的框架，与优先级规则相关。我们对速率的定义嵌套了许多现有度量，包括QINI系数，以及我们的分析直接产生了这些指标的推论方法。我们展示了我们从个性化医学和营销的示例中的方法。在医疗环境中，使用来自Sprint和Accor-BP随机对照试验的数据，我们发现没有明显的证据证明异质治疗效果。另一方面，在大量的营销审判中，我们在一些数字广告活动的治疗效果中发现了具有的强大证据，并证明了如何使用率如何比较优先考虑估计风险的目标规则与估计治疗效益优先考虑的目标规则。

translated by 谷歌翻译

The Projected Covariance Measure for assumption-lean variable significance testing

Anton Rask Lundborg , Ilmun Kim , Rajen D. Shah , Richard J. Samworth

分类： (统计)机器学习

2022-11-03

Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.

translated by 谷歌翻译

Distribution-free Prediction Sets Adaptive to Unknown Covariate Shift

Hongxiang Qiu , Edgar Dobriban , Eric Tchetgen Tchetgen

分类： (统计)机器学习

2022-03-11

预测一组结果 - 而不是独特的结果 - 是统计学习中不确定性定量的有前途的解决方案。尽管有关于构建具有统计保证的预测集的丰富文献，但适应未知的协变量转变（实践中普遍存在的问题）还是一个严重的未解决的挑战。在本文中，我们表明具有有限样本覆盖范围保证的预测集是非信息性的，并提出了一种新型的无灵活分配方法PredSet-1Step，以有效地构建了在未知协方差转移下具有渐近覆盖范围保证的预测集。我们正式表明我们的方法是\ textIt {渐近上可能是近似正确}，对大型样本的置信度有很好的覆盖误差。我们说明，在南非队列研究中，它在许多实验和有关HIV风险预测的数据集中实现了名义覆盖范围。我们的理论取决于基于一般渐近线性估计器的WALD置信区间覆盖范围的融合率的新结合。

translated by 谷歌翻译

Generalized Kernel Ridge Regression for Causal Inference with Missing-at-Random Sample Selection

Rahul Singh

分类：机器学习 | (统计)机器学习

2021-11-09

我提出了用于非参数剂量响应曲线和半造型处理效果的内核脊回归估计，在分析师可以访问所选样品而不是随机样品的情况下;仅供选择观察，观察结果。我假设选择与治疗的随机条件一样好，并且具有足够丰富的观察协变量，其中允许协变量引起治疗或由治疗引起的 - 失踪 - 随机（MAR）的延伸。我提出了在核矩阵操作方面具有封闭形式解决方案的手段，增量和分布的估算，允许治疗和协调因子是离散的或连续的，低，高或无限尺寸。对于连续处理箱，我证明了具有有限样本速率的均匀一致性。对于离散处理案例，我证明了根 - N一致性，高斯近似和半占效率。

translated by 谷歌翻译