在预算限制的环境中,旨在减轻不公平的环境,如执法,在采取措施之前优先考虑不公平的来源,以减轻现实世界。与以前的作品不同,这只用作数据生成后可能的歧视和偏见数据,这项工作提供了一种工具包,以减轻在数据生成期间的不公平性,除了解偏见数据之外由鉴别移除算法给出。我们假设给出了代表数据生成过程的非参数马尔科夫因果模型。假设从因果图中的敏感节点发出的边缘是不公平的来源。我们首先在任何边缘X - > Y中量化边缘流,这是由于X - > Y沿X - > Y的特定值的影响而观察y的特定值的信念。然后通过制定非制定非公式来量化边缘不公平在边缘流动方面的参数模型。然后,我们证明,在决定中对敏感群体的累积不公平,比赛在保释决定中的比赛中,当不适的不公平时是不存在的。当累积不公平不能以边缘不公平表达时,我们证明了这一结果。然后,当边缘不公平降低时,我们衡量减轻累积不公平的可能性。根据这些测量,我们提出了不公平的优先级算法,可以由政策制定者使用。我们还提出了通过消除在敏感属性的数量和由它们所采取的值中呈指数呈指数增长的优化约束来偏离数据分布的歧视删除程序。广泛的实验验证了用于量化上述措施的定理和规格。
translated by 谷歌翻译
基于AI和机器学习的决策系统已在各种现实世界中都使用,包括医疗保健,执法,教育和金融。不再是牵强的,即设想一个未来,自治系统将推动整个业务决策,并且更广泛地支持大规模决策基础设施以解决社会最具挑战性的问题。当人类做出决定时,不公平和歧视的问题普遍存在,并且当使用几乎没有透明度,问责制和公平性的机器做出决定时(或可能会放大)。在本文中,我们介绍了\ textit {Causal公平分析}的框架,目的是填补此差距,即理解,建模,并可能解决决策设置中的公平性问题。我们方法的主要见解是将观察到数据中存在的差异的量化与基本且通常是未观察到的因果机制收集的因果机制的收集,这些机制首先会产生差异,挑战我们称之为因果公平的基本问题分析(FPCFA)。为了解决FPCFA,我们研究了分解差异和公平性的经验度量的问题,将这种变化归因于结构机制和人群的不同单位。我们的努力最终达到了公平地图,这是组织和解释文献中不同标准之间关系的首次系统尝试。最后,我们研究了进行因果公平分析并提出一本公平食谱的最低因果假设,该假设使数据科学家能够评估不同影响和不同治疗的存在。
translated by 谷歌翻译
考虑基于AI和ML的决策对这些新兴技术的安全和可接受的使用的决策的社会和道德后果至关重要。公平,特别是保证ML决定不会导致对个人或少数群体的歧视。使用因果关系,可以更好地实现和衡量可靠的公平/歧视,从而更好地实现了敏感属性(例如性别,种族,宗教等)之间的因果关系,仅仅是仅仅是关联,例如性别,种族,宗教等(例如,雇用工作,贷款授予等) )。然而,对因果关系解决公平性的最大障碍是因果模型的不可用(通常表示为因果图)。文献中现有的因果关系方法并不能解决此问题,并假设可获得因果模型。在本文中,我们没有做出这样的假设,并且我们回顾了从可观察数据中发现因果关系的主要算法。这项研究的重点是因果发现及其对公平性的影响。特别是,我们展示了不同的因果发现方法如何导致不同的因果模型,最重要的是,即使因果模型之间的轻微差异如何对公平/歧视结论产生重大影响。通过使用合成和标准公平基准数据集的经验分析来巩固这些结果。这项研究的主要目标是强调因果关系使用因果关系适当解决公平性的因果发现步骤的重要性。
translated by 谷歌翻译
机器学习模型被批评反映了培训数据中的不公平偏见。我们通过直接引入公平的学习算法来解决这一目标,而不是通过介绍公平的学习算法来解决公平的合成数据,使任何下游学习者都是公平的。从不公平数据生成公平的合成数据 - 同时对潜在的数据生成过程(DGP)留下真实 - 是非微不足道的。在本文中,我们引入了Decaf:用于表格数据的GaN的公平合成数据发生器。通过Decaf,我们将DGP显式作为发电机的输入层中的结构因果模型嵌入,允许在其因果父母上重建每个变量。此过程启用推理时间扩大,其中可以策略性地删除偏置边缘以满足用户定义的公平要求。 Decaf框架是多功能的,与几个公平的定义兼容。在我们的实验中,我们表明Decaf成功地消除了不希望的偏见和 - 与现有方法相比 - 能够产生高质量的合成数据。此外,我们为发电机的收敛和下游模型的公平提供理论担保。
translated by 谷歌翻译
机器学习算法通常会对少数族裔和代表性不足的子人群产生偏见的结果/预测。因此,公平是基于机器学习技术的大规模应用的重要要求。最常用的公平概念(例如统计平等,均衡的几率,预测奇偶等)是观察性的,并且依赖于变量之间的仅相关性。在统计异常(例如辛普森或伯克森的悖论)的情况下,这些概念无法识别偏差。基于因果关系的公平概念(例如反事实公平,无歧视歧视等)对此类异常免疫,因此更可靠地评估公平性。但是,基于因果关系的公平概念的问题是,它们是根据数量(例如因果,反事实和特定于路径特定效应)定义的,这些概念并非总是可衡量的。这被称为可识别性问题,是因果推理文献中大量工作的主题。本文是对机器学习公平性特别相关的主要可识别性结果的汇编。使用大量示例和因果图说明了结果。公平研究人员,从业人员和政策制定者正在考虑使用基于因果关系的公平概念,并说明主要可识别性结果,这本文特别感兴趣。
translated by 谷歌翻译
Machine learning can impact people with legal or ethical consequences when it is used to automate decisions in areas such as insurance, lending, hiring, and predictive policing. In many of these scenarios, previous decisions have been made that are unfairly biased against certain subpopulations, for example those of a particular race, gender, or sexual orientation. Since this past data may be biased, machine learning predictors must account for this to avoid perpetuating or creating discriminatory practices. In this paper, we develop a framework for modeling fairness using tools from causal inference. Our definition of counterfactual fairness captures the intuition that a decision is fair towards an individual if it is the same in (a) the actual world and (b) a counterfactual world where the individual belonged to a different demographic group. We demonstrate our framework on a real-world problem of fair prediction of success in law school. * Equal contribution. This work was done while JL was a Research Fellow at the Alan Turing Institute. 2 https://obamawhitehouse.archives.gov/blog/2016/05/04/big-risks-big-opportunities-intersection-big-dataand-civil-rights 31st Conference on Neural Information Processing Systems (NIPS 2017),
translated by 谷歌翻译
本文提出了秤,这是一个一般框架,将公平原则转化为基于约束马尔可夫决策过程(CMDP)的共同表示。借助因果语言,我们的框架可以在决策过程(程序公平)以及决策(结果公平)产生的结果上构成限制。具体而言,我们表明可以将众所周知的公平原理编码为实用程序组件,非毒性组件或鳞片中心中的因果分量。我们使用涉及模拟医疗方案和现实世界中Compas数据集的一组案例研究来说明量表。实验表明,我们的框架产生了公平的政策,这些政策在单步和顺序决策方案中体现了替代公平原则。
translated by 谷歌翻译
解决公平问题对于安全使用机器学习算法来支持对人们的生活产生关键影响的决策,例如雇用工作,儿童虐待,疾病诊断,贷款授予等。过去十年,例如统计奇偶校验和均衡的赔率。然而,最新的公平概念是基于因果关系的,反映了现在广泛接受的想法,即使用因果关系对于适当解决公平问题是必要的。本文研究了基于因果关系的公平概念的详尽清单,并研究了其在现实情况下的适用性。由于大多数基于因果关系的公平概念都是根据不可观察的数量(例如干预措施和反事实)来定义的,因此它们在实践中的部署需要使用观察数据来计算或估计这些数量。本文提供了有关从观察数据(包括可识别性(Pearl的SCM框架))和估计(潜在结果框架)中推断出因果量的不同方法的全面报告。该调查论文的主要贡献是(1)指南,旨在在特定的现实情况下帮助选择合适的公平概念,以及(2)根据Pearl的因果关系阶梯的公平概念的排名,表明它很难部署。实践中的每个概念。
translated by 谷歌翻译
因果推理在人类如何理解世界并在日常生活中做出决策中具有必不可少的作用。虽然20美元的$ Century Science是因为使因果的主张过于强大且无法实现,但第21美元的$ Century是由因果关系的数学化和引入非确定性原因概念的因果关系的重返标志的。 \ cite {illari2011look}。除了其流行病学,政治和社会科学方面的常见用例外,因果关系对于在法律和日常意义上评估自动决定的公平性至关重要。我们提供了为什么因果关系对于公平评估特别重要的论点和例子。特别是,我们指出了非因果预测的社会影响以及依赖因果主张的法律反歧视过程。最后,我们讨论了在实际情况以及可能的解决方案中应用因果关系的挑战和局限性。
translated by 谷歌翻译
A recent explosion of research focuses on developing methods and tools for building fair predictive models. However, most of this work relies on the assumption that the training and testing data are representative of the target population on which the model will be deployed. However, real-world training data often suffer from selection bias and are not representative of the target population for many reasons, including the cost and feasibility of collecting and labeling data, historical discrimination, and individual biases. In this paper, we introduce a new framework for certifying and ensuring the fairness of predictive models trained on biased data. We take inspiration from query answering over incomplete and inconsistent databases to present and formalize the problem of consistent range approximation (CRA) of answers to queries about aggregate information for the target population. We aim to leverage background knowledge about the data collection process, biased data, and limited or no auxiliary data sources to compute a range of answers for aggregate queries over the target population that are consistent with available information. We then develop methods that use CRA of such aggregate queries to build predictive models that are certifiably fair on the target population even when no external information about that population is available during training. We evaluate our methods on real data and demonstrate improvements over state of the art. Significantly, we show that enforcing fairness using our methods can lead to predictive models that are not only fair, but more accurate on the target population.
translated by 谷歌翻译
公平的机器学习旨在避免基于\ textit {敏感属性}(例如性别和种族)对个人或子人群的治疗。公平机器学习中的那些方法是基于因果推理确定的歧视和偏见的。尽管基于因果关系的公平学习吸引了越来越多的关注,但当前的方法假设真正的因果图是完全已知的。本文提出了一种一般方法,以实现反事实公平的概念时,当真实的因果图未知。为了能够选择导致反事实公平性的功能,我们得出了条件和算法,以识别\ textit上变量之间的祖先关系{部分定向的无循环图(pdag)},具体来说,可以从一类可学到的dag中学到。观察数据与域知识相结合。有趣的是,我们发现可以实现反事实公平,就好像真正的因果图是完全知道的一样,当提供了特定的背景知识时:敏感属性在因果图中没有祖先。模拟和实际数据集的结果证明了我们方法的有效性。
translated by 谷歌翻译
在个性化决策中,需要证据来确定诉讼(治疗)是否适合个人。可以通过对亚组中的治疗效应异质性进行建模来获得此类证据。现有的可解释的建模方法采用自上而下的方法来寻找具有异质治疗效果的亚组,它们可能会错过个人最具体和最相关的环境。在本文中,我们设计了\ emph {治疗效果模式(TEP)}来表示数据中的治疗效果异质性。为了实现TEP的可解释呈现,我们使用围绕结果的局部因果结构,以明确说明如何在建模中使用这些重要变量。我们还得出了一个公正估计\ emph {条件平均因果效应(CATE)}的公式,它使用我们的问题设置中的局部结构进行了估计。在发现过程中,我们旨在最大程度地减少以模式表示的每个子组中的异质性。我们提出了一种自下而上的搜索算法,以发现适合个性化决策的最具体情况的最特定模式。实验表明,所提出的方法模型治疗效果的异质性比合成和现实世界数据集中的其他三种基于树的方法更好。
translated by 谷歌翻译
A common assumption in causal inference from observational data is that there is no hidden confounding. Yet it is, in general, impossible to verify the presence of hidden confounding factors from a single dataset. Under the assumption of independent causal mechanisms underlying the data generating process, we demonstrate a way to detect unobserved confounders when having multiple observational datasets coming from different environments. We present a theory for testable conditional independencies that are only absent during hidden confounding and examine cases where we violate its assumptions: degenerate & dependent mechanisms, and faithfulness violations. Additionally, we propose a procedure to test these independencies and study its empirical finite-sample behavior using simulation studies and semi-synthetic data based on a real-world dataset. In most cases, our theory correctly predicts the presence of hidden confounding, particularly when the confounding bias is~large.
translated by 谷歌翻译
This review presents empirical researchers with recent advances in causal inference, and stresses the paradigmatic shifts that must be undertaken in moving from traditional statistical analysis to causal analysis of multivariate data. Special emphasis is placed on the assumptions that underly all causal inferences, the languages used in formulating those assumptions, the conditional nature of all causal and counterfactual claims, and the methods that have been developed for the assessment of such claims. These advances are illustrated using a general theory of causation based on the Structural Causal Model (SCM) described in Pearl (2000a), which subsumes and unifies other approaches to causation, and provides a coherent mathematical foundation for the analysis of causes and counterfactuals. In particular, the paper surveys the development of mathematical tools for inferring (from a combination of data and assumptions) answers to three types of causal queries: (1) queries about the effects of potential interventions, (also called "causal effects" or "policy evaluation") (2) queries about probabilities of counterfactuals, (including assessment of "regret," "attribution" or "causes of effects") and (3) queries about direct and indirect effects (also known as "mediation"). Finally, the paper defines the formal and conceptual relationships between the structural and potential-outcome frameworks and presents tools for a symbiotic analysis that uses the strong features of both.
translated by 谷歌翻译
常用图是表示和可视化因果关系的。对于少量变量,这种方法提供了简洁和清晰的方案的视图。随着下属的变量数量增加,图形方法可能变得不切实际,并且表示的清晰度丢失。变量的聚类是减少因果图大小的自然方式,但如果任意实施,可能会错误地改变因果关系的基本属性。我们定义了一种特定类型的群集,称为Transit Cluster,保证在某些条件下保留因果效应的可识别性属性。我们提供了一种用于在给定图中查找所有传输群集的声音和完整的算法,并演示集群如何简化因果效应的识别。我们还研究了逆问题,其中一个人以群集的图形开始,寻找扩展图,其中因果效应的可识别性属性保持不变。我们表明这种结构稳健性与过境集群密切相关。
translated by 谷歌翻译
因果推断对于跨业务参与,医疗和政策制定等领域的数据驱动决策至关重要。然而,关于因果发现的研究已经与推理方法分开发展,从而阻止了两个领域方法的直接组合。在这项工作中,我们开发了深层端到端因果推理(DECI),这是一种基于流动的非线性添加噪声模型,该模型具有观察数据,并且可以执行因果发现和推理,包括有条件的平均治疗效果(CATE) )估计。我们提供了理论上的保证,即DECI可以根据标准因果发现假设恢复地面真实因果图。受应用影响的激励,我们将该模型扩展到具有缺失值的异质,混合型数据,从而允许连续和离散的治疗决策。我们的结果表明,与因果发现的相关基线相比,DECI的竞争性能和(c)在合成数据集和因果机器学习基准测试基准的一千多个实验中,跨数据类型和缺失水平进行了估计。
translated by 谷歌翻译
因果关系是理解世界的科学努力的基本组成部分。不幸的是,在心理学和社会科学中,因果关系仍然是禁忌。由于越来越多的建议采用因果方法进行研究的重要性,我们重新制定了心理学研究方法的典型方法,以使不可避免的因果理论与其余的研究渠道协调。我们提出了一个新的过程,该过程始于从因果发现和机器学习的融合中纳入技术的发展,验证和透明的理论形式规范。然后,我们提出将完全指定的理论模型的复杂性降低到与给定目标假设相关的基本子模型中的方法。从这里,我们确定利息量是否可以从数据中估算出来,如果是的,则建议使用半参数机器学习方法来估计因果关系。总体目标是介绍新的研究管道,该管道可以(a)促进与测试因果理论的愿望兼容的科学询问(b)鼓励我们的理论透明代表作为明确的数学对象,(c)将我们的统计模型绑定到我们的统计模型中该理论的特定属性,因此减少了理论到模型间隙通常引起的规范不足问题,以及(d)产生因果关系和可重复性的结果和估计。通过具有现实世界数据的教学示例来证明该过程,我们以摘要和讨论来结论。
translated by 谷歌翻译
我们研究了给定因果模型的公平约束的最佳臂识别问题。目标是在给定节点上找到软干预,以通过仅通过因果模型的部分知识来满足公平约束的同时最大化结果。问题是通过确保在线市场的公平性的动机。我们提供了对误差概率的理论保证,并经验与两级基线进行算法的效果。
translated by 谷歌翻译
随着人工智能的兴起,算法已经变得更好地从培训数据中学习基本模式,包括基于性别,种族等基于性别的社会偏见。部署此类算法对招聘,医疗保健,执法等领域的部署已经提高了严重的领域。对机器学习算法中的公平,问责制,信任和解释性的关注。为了减轻这个问题,我们提出了D-Bias,这是一种视觉交互式工具,它体现了人类在循环AI方法,以审核和减轻表格数据集的社交偏见。它使用图形因果模型来表示数据集中不同特征之间的因果关系,并作为注入域知识的媒介。用户可以通过识别因果网络中的不公平因果关系并使用一系列公平指标来检测对群体(例如女性或亚组)的偏见。此后,用户可以通过在不公平的因果边缘作用来减轻偏见。对于每种相互作用,例如弱化/删除有偏见的因果边缘,系统使用一种新方法来模拟基于当前因果模型的新(cla依)数据集。用户可以在视觉上评估其相互作用对不同公平指标,公用事业指标,数据失真和基础数据分布的影响。一旦满足,他们就可以下载依据的数据集并将其用于任何下游应用程序以进行更公正的预测。我们通过对3个数据集进行实验以及一项正式的用户研究来评估D偏差。我们发现,与不同公平指标的基线偏差方法相比,D偏差有助于显着降低偏差,同时几乎没有数据失真和效用较小的损失。此外,我们基于人类的方法极大地超过了关于信任,解释性和问责制的自动方法。
translated by 谷歌翻译
In this review, we discuss approaches for learning causal structure from data, also called causal discovery. In particular, we focus on approaches for learning directed acyclic graphs (DAGs) and various generalizations which allow for some variables to be unobserved in the available data. We devote special attention to two fundamental combinatorial aspects of causal structure learning. First, we discuss the structure of the search space over causal graphs. Second, we discuss the structure of equivalence classes over causal graphs, i.e., sets of graphs which represent what can be learned from observational data alone, and how these equivalence classes can be refined by adding interventional data.
translated by 谷歌翻译