Doubleml是一个开源的Python库,实现Chernozhukov等人的双层机器学习框架。(2018)适用于各种因果模型。它包含有效统计推断对因果参数的有效推断的功能基于机器学习方法。面向对象的Doublem实施在型号规格方面提供了很高的灵活性,并使其轻松伸展。该包在麻省理工学院许可下分发,并依赖于科学Python生态系统的核心库:Scikit-Learn,Numpy,Pandas,Scipy,StatsModels和Joblib。源代码,文档和广泛的用户指南可以在https://github.com/doubleml/doubleml-for -py和https://docs.doubleml.org找到。
translated by 谷歌翻译
R包Doubleml实现了Chernozhukov等人的双重/辩护机器学习框架。 (2018)。它提供了基于机器学习方法的因果模型中估计参数的功能。双机器学习框架由三个关键成分组成:Neyman正交性,高质量的机器学习估计和样品拆分。可以通过MLR3生态系统中可用的各种最新机器学习方法来执行滋扰组件的估计。 Doubleml使得可以在各种因果模型中进行推断,包括部分线性和交互式回归模型及其扩展到仪器变量估计。 Doubleml的面向对象的实现为模型规范具有很高的灵活性,并使其易于扩展。本文是对双机器学习框架和R软件包DOUBLEML的介绍。在具有模拟和真实数据集的可再现代码示例中,我们演示了Doubleml用户如何基于机器学习方法执行有效的推断。
translated by 谷歌翻译
感兴趣的许多因果和政策效应都是由高维或非参数回归函数的线性功能定义的。 $ \ sqrt {n} $ - 对目标对象的一致且渐近地正常估计需要偏见,以减少正则化和/或模型选择对感兴趣对象的影响。通常,通过将校正项添加到功能的插件估计器中来实现,从而导致属性,例如半参数效率,双重鲁棒性和Neyman正交性。我们基于自动学习使用神经网和随机森林的Riesz表示的自动偏差程序。我们的方法仅依赖于黑框评估Oracle访问线性功能,并且不需要其分析形式的知识。我们提出了一种多任务神经网络偏见方法,具有随机梯度下降最小化的Riesz代表和回归损失,同时共享这两个函数的表示层。我们还提出了一种随机森林方法,该方法了解Riesz函数的局部线性表示。即使我们的方法适用于任意功能,我们在实验上发现它的性能与Shi等人的最先进的神经网状算法相比。 (2019)对于平均治疗效果功能的情况。我们还使用汽油需求的汽油价格变化的半合成数据来评估我们的方法,即通过连续处理估算平均边缘效应的问题。
translated by 谷歌翻译
在许多学科中,异质治疗效果(HTE)的估计至关重要,从个性化医学到经济学等等。在随机试验和观察性研究中,随机森林已被证明是一种灵活而有力的HTE估计方法。尤其是Athey,Tibshirani和Wager(2019)引入的“因果森林”,以及包装GRF中的R实施。 Seibold,Zeileis和Hothorn(2018)引入了一种称为“基于模型的森林”的相关方法,该方法旨在随机试验,并同时捕获预后和预测变量的效果,并在R包装模型中进行模块化实现。 。在这里,我们提出了一种统一的观点,它超出了理论动机,并研究了哪些计算元素使因果森林如此成功,以及如何将它们与基于模型的森林的优势融合在一起。为此,我们表明,可以通过相同的参数和L2损耗下加性模型的模型假设来理解这两种方法。这种理论上的见解使我们能够实施“基于模型的因果林”的几种口味,并在计算机中剖析其不同元素。将原始的因果森林和基于模型的森林与基准研究中的新混合版本进行了比较,该研究探讨了随机试验和观察环境。在随机设置中,两种方法都执行了AKIN。如果在数据生成过程中存在混淆,我们发现与相应倾向的治疗指标的局部核心是良好性能的主要驱动力。结果的局部核心不太重要,并且可以通过相对于预后和预测效应的同时拆分选择来代替或增强。
translated by 谷歌翻译
scikit-learn is an increasingly popular machine learning library. Written in Python, it is designed to be simple and efficient, accessible to non-experts, and reusable in various contexts. In this paper, we present and discuss our design choices for the application programming interface (API) of the project. In particular, we describe the simple and elegant interface shared by all learning and processing units in the library and then discuss its advantages in terms of composition and reusability. The paper also comments on implementation details specific to the Python ecosystem and analyzes obstacles faced by users and developers of the library.
translated by 谷歌翻译
内核正规化最小二乘(KRLS)是一种流行的方法,用于灵活估算可能在变量之间具有复杂关系的模型。但是,其对许多研究人员的有用性受到限制,原因有两个。首先,现有的方法不灵活,不允许KRL与理论动机的扩展(例如固定效应或非线性结果)结合使用。其次,对于甚至适度尺寸的数据集,估计在计算上是非常强大的。我们的论文通过引入广义KRL(GKRL)来解决这两种问题。我们注意到,可以将KRLS重新构造为层次模型,从而允许轻松推理和模块化模型构建。在计算上,我们还实施随机草图以显着加速估计,同时估计质量的罚款有限。我们证明,GKRL可以在一分钟内进行数万观察到的数据集中。此外,可以迅速估计需要在十二次(例如元学习者)中安装模型的最新技术。
translated by 谷歌翻译
我们考虑在估计涉及依赖参数的高维滋扰的估计方程中估计一个低维参数。一个中心示例是因果推理中(局部)分位数处理效应((L)QTE)的有效估计方程,涉及在分位数以估计的分位数评估的协方差累积分布函数。借记机学习(DML)是一种使用灵活的机器学习方法估算高维滋扰的数据分解方法,但是将其应用于参数依赖性滋扰的问题是不切实际的。对于(L)QTE,DML要求我们学习整个协变量累积分布函数。相反,我们提出了局部偏见的机器学习(LDML),该学习避免了这一繁重的步骤,并且只需要对参数进行一次初始粗糙猜测而估算烦恼。对于(L)QTE,LDML仅涉及学习两个回归功能,这是机器学习方法的标准任务。我们证明,在松弛速率条件下,我们的估计量与使用未知的真实滋扰的不可行的估计器具有相同的有利渐近行为。因此,LDML值得注意的是,当我们必须控制许多协变量和/或灵活的关系时,如(l)QTES在((l)QTES)中,实际上可以有效地估算重要数量,例如(l)QTES。
translated by 谷歌翻译
Causal mediation analysis can unpack the black box of causality and is therefore a powerful tool for disentangling causal pathways in biomedical and social sciences, and also for evaluating machine learning fairness. To reduce bias for estimating Natural Direct and Indirect Effects in mediation analysis, we propose a new method called DeepMed that uses deep neural networks (DNNs) to cross-fit the infinite-dimensional nuisance functions in the efficient influence functions. We obtain novel theoretical results that our DeepMed method (1) can achieve semiparametric efficiency bound without imposing sparsity constraints on the DNN architecture and (2) can adapt to certain low dimensional structures of the nuisance functions, significantly advancing the existing literature on DNN-based semiparametric causal inference. Extensive synthetic experiments are conducted to support our findings and also expose the gap between theory and practice. As a proof of concept, we apply DeepMed to analyze two real datasets on machine learning fairness and reach conclusions consistent with previous findings.
translated by 谷歌翻译
Scikit-learn is a Python module integrating a wide range of state-of-the-art machine learning algorithms for medium-scale supervised and unsupervised problems. This package focuses on bringing machine learning to non-specialists using a general-purpose high-level language. Emphasis is put on ease of use, performance, documentation, and API consistency. It has minimal dependencies and is distributed under the simplified BSD license, encouraging its use in both academic and commercial settings. Source code, binaries, and documentation can be downloaded from http://scikit-learn.sourceforge.net.
translated by 谷歌翻译
在本文中,我们提出了一种非参数估计的方法,并推断了一般样本选择模型中因果效应参数的异质界限,初始治疗可能会影响干预后结果是否观察到。可观察到的协变量可能会混淆治疗选择,而观察结果和不可观察的结果可能会混淆。该方法提供条件效应界限作为策略相关的预处理变量的功能。它允许对身份不明的条件效应曲线进行有效的统计推断。我们使用灵活的半参数脱偏机学习方法,该方法可以适应柔性功能形式和治疗,选择和结果过程之间的高维混杂变量。还提供了易于验证的高级条件,以进行估计和错误指定的鲁棒推理保证。
translated by 谷歌翻译
在许多学科中,在大量解释变量中推断反应变量的直接因果父母的问题具有很高的实际意义。但是,建立的方法通常至少会随着解释变量的数量而呈指数级扩展,难以扩展到非线性关系,并且很难扩展到周期性数据。受{\ em Debiased}机器学习方法的启发,我们研究了一种单Vs.-the-Rest特征选择方法,以发现响应的直接因果父母。我们提出了一种用于纯观测数据的算法,同时还提供理论保证,包括可能在周期存在下的部分非线性关系的情况。由于它仅需要对每个变量进行一个估计,因此我们的方法甚至适用于大图。与既定方法相比,我们证明了显着改善。
translated by 谷歌翻译
近年来,机器学习(ML),深度学习(DL)和人工智能(AI)的普及已急剧上升。尽管受欢迎程度激增,但ML和DL算法的内部运作被认为是不透明的,并且它们与经典数据分析工具的关系仍然存在争议。通常认为ML和DL主要在做出预测方面出色。但是,最近,它们越来越多地用于传统上统计模型涵盖的经典分析任务。此外,最近对ML的评论专门针对DL,缺少综合具有不同优势和一般原则的ML算法财富。在这里,我们提供了ML和DL领域的全面概述,从其历史发展,现有算法家庭,与传统统计工具的差异以及通用ML原则的差异。然后,我们讨论为什么以及何时ML和DL模型在预测任务上表现出色,以及它们可以为推理提供传统统计方法的替代方法,从而突出了当前和新兴的生态问题应用程序。最后,我们总结了新兴趋势,例如科学和因果ML,可解释的AI以及负责的AI,这些AI可能会在未来显着影响生态数据分析。
translated by 谷歌翻译
由于黑盒预测方法如随机森林和神经网络的广泛使用,重新开发了用于量化变量重要性的发展方法,作为可解释预测的更广泛目标的一部分。一种流行的方法是定义变量重要性参数 - 被称为Loco(遗漏协变量) - 基于来自回归模型的滴加器。这基本上是一个非参考版本的R角。该参数非常一般,可以非正常估计,但它可能很难解释,因为它受到协变量之间的相关性的影响。我们提出了一种通过定义MOCO的修改版本来缓解相关性的方法。这个新参数难以非视野识地估计,但我们展示了如何使用半造型模型来估算它。
translated by 谷歌翻译
The intersection of causal inference and machine learning for decision-making is rapidly expanding, but the default decision criterion remains an \textit{average} of individual causal outcomes across a population. In practice, various operational restrictions ensure that a decision-maker's utility is not realized as an \textit{average} but rather as an \textit{output} of a downstream decision-making problem (such as matching, assignment, network flow, minimizing predictive risk). In this work, we develop a new framework for off-policy evaluation with \textit{policy-dependent} linear optimization responses: causal outcomes introduce stochasticity in objective function coefficients. Under this framework, a decision-maker's utility depends on the policy-dependent optimization, which introduces a fundamental challenge of \textit{optimization} bias even for the case of policy evaluation. We construct unbiased estimators for the policy-dependent estimand by a perturbation method, and discuss asymptotic variance properties for a set of adjusted plug-in estimators. Lastly, attaining unbiased policy evaluation allows for policy optimization: we provide a general algorithm for optimizing causal interventions. We corroborate our theoretical results with numerical simulations.
translated by 谷歌翻译
大型观察数据越来越多地提供健康,经济和社会科学等学科,研究人员对因果问题而不是预测感兴趣。在本文中,从旨在调查参与学校膳食计划对健康指标的实证研究,研究了使用非参数回归的方法估算异质治疗效果的问题。首先,我们介绍了与观察或非完全随机数据进行因果推断相关的设置和相关的问题,以及如何在统计学习工具的帮助下解决这些问题。然后,我们审查并制定现有最先进的框架的统一分类,允许通过非参数回归模型来估算单个治疗效果。在介绍模型选择问题的简要概述后,我们说明了一些关于三种不同模拟研究的方法的性能。我们通过展示一些关于学校膳食计划数据的实证分析的一些方法的使用来结束。
translated by 谷歌翻译
基于森林的方法最近在非参数治疗效应估计中获得了普及。在这一工作方面,我们引入了因果生存森林,可用于在可能右估计结果的生存和观察环境中估计异质治疗效果。我们的方法依赖于正交估计方程来在不满意的情况下对审查和选择效果进行鲁棒性调整。在我们的实验中,我们发现相对于许多基线的表现良好的方法。
translated by 谷歌翻译
我们为因果区段发现提供了端到端的方法论框架,旨在在大规模数字实验中揭示跨越用户亚组的治疗的差异影响。建立因因果推断和非/半参数统计的最新发展,我们的方法统一了两个目标:(1)发现基于亚组特定治疗效果的候选治疗的用户群体的发现,(2)基于预测分部特定的益处或危害评估动态分配单位对研究治疗部队的因果影响。我们的提议是模型 - 不可知论,能够将最先进的机器学习算法纳入估计过程,并且适用于随机A / B测试和准实验。介绍了开源R封装实现,Sherlock。
translated by 谷歌翻译
我们推出了一般,但简单,尖锐的界限,用于广泛的因果参数的省略可变偏置,可以被识别为结果的条件期望函数的线性功能。这些功能包括许多传统的因果推断研究中的调查目标,例如(加权)平均潜在结果,平均治疗效果(包括亚组效应,例如对处理的效果),(加权)平均值来自协变态分布的转变的衍生品和政策影响 - 所有是一般的非参数因果模型。我们的建设依赖于目标功能的riesz-frechet表示。具体而言,我们展示了偏差的绑定如何仅取决于潜在变量在结果中创建的附加变型以及用于感兴趣的参数的RIESZ代表。此外,在许多重要病例中(例如,部分线性模型中的平均治疗效果,或在具有二元处理的不可分配模型中),所示的界定依赖于两个易于解释的数量:非参数部分$ r ^ 2 $(Pearson的相关性与治疗和结果的未观察变量的比例“。因此,对省略变量的最大解释力(在解释处理和结果变化时)的简单合理性判断足以将整体界限放置在偏置的尺寸上。最后,利用脱叠机器学习,我们提供灵活有效的统计推理方法,以估计从观察到的分布识别的界限的组件。
translated by 谷歌翻译
关于日益增长的直播媒介的一种普遍信念是,其价值在于其“实时”组成部分。我们通过比较实时事件需求的价格弹性如何在直播中和之后的生活中进行了比较,从而研究了这种信念。我们使用来自大型直播平台的独特且丰富的数据来做到这一点,该数据使消费者可以在流中期后购买录制版本的直播版本。在我们背景下的一个挑战是,存在高维混杂因素,其与治疗政策(即价格)和兴趣结果(即需求)的关系是复杂的,并且仅部分知道。我们通过使用广义正交随机森林框架来解决这一挑战,以进行异质治疗效果估计。我们发现在整个事件生命周期中,需求价格弹性的时间弹性都显着。具体而言,随着时间的流逝,需求变得越来越敏感,直到直播一天,那天就变成了无弹性。在生活后的时期,对录制版本的需求仍然对价格敏感,但远低于在播放前的时期。我们进一步表明,价格弹性的这种时间变化是由此类事件固有的质量不确定性以及在直播过程中与内容创建者进行实时互动的机会所驱动的。
translated by 谷歌翻译
我们应用因果机学习算法来评估营销干预措施的因果影响,即优惠券活动,对零售商的销售。除了评估不同类型的优惠券的平均影响外,我们还调查了不同客户群的因果关系效应的异质性,例如,在相对较高的客户与先前购买相对较高的客户之间。最后,我们使用最佳政策学习来确定(以数据驱动方式)哪些客户群应针对优惠券活动,以最大程度地提高营销干预措施在销售方面的有效性。我们发现,在检查的五个优惠券类别中,只有两个,即适用于药店产品和其他食品产品类别的优惠券,对零售商销售具有统计学上的显着积极影响。对小组平均治疗效果的评估表明,在商店的先前购买中定义的客户群中,优惠券提供的影响有很大的差异,药品店优惠券在先前购买较高的客户和其他食品优惠券中特别有效先前购买较低的客户。我们的研究提供了一种用例,用于在业务分析中应用因果机学习,以评估特定公司政策(例如营销活动)对决策支持的因果影响。
translated by 谷歌翻译