反事实解释是作为一种有吸引力的选择,以便向算法决策提供不利影响的个人的诉讼选择。由于它们在关键应用中部署(例如,执法,财务贷款),确保我们清楚地了解这些方法的漏洞并找到解决这些方法的漏洞是重要的。但是,对反事实解释的脆弱性和缺点几乎没有了解。在这项工作中,我们介绍了第一个框架,它描述了反事解释的漏洞,并显示了如何操纵它们。更具体地,我们显示反事实解释可能会聚到众所周知的不同反应性,指示它们不稳健。利用这种洞察力,我们介绍了一部小说目标来培训看似公平的模特,反事实解释在轻微的扰动下发现了更低的成本追索。我们描述了这些模型如何在对审计师出现公平的情况下为数据中的特定子组提供低成本追索。我们对贷款和暴力犯罪预测数据集进行实验,其中某些子组在扰动下达到高达20倍的成本追索性。这些结果提高了关于当前反事实解释技术的可靠性的担忧,我们希望在强大的反事实解释中激发调查。
translated by 谷歌翻译
Post-hoc explanations of machine learning models are crucial for people to understand and act on algorithmic predictions. An intriguing class of explanations is through counterfactuals, hypothetical examples that show people how to obtain a different prediction. We posit that effective counterfactual explanations should satisfy two properties: feasibility of the counterfactual actions given user context and constraints, and diversity among the counterfactuals presented. To this end, we propose a framework for generating and evaluating a diverse set of counterfactual explanations based on determinantal point processes. To evaluate the actionability of counterfactuals, we provide metrics that enable comparison of counterfactual-based methods to other local explanation methods. We further address necessary tradeoffs and point to causal implications in optimizing for counterfactuals. Our experiments on four real-world datasets show that our framework can generate a set of counterfactuals that are diverse and well approximate local decision boundaries, outperforming prior approaches to generating diverse counterfactuals. We provide an implementation of the framework at https://github.com/microsoft/DiCE. CCS CONCEPTS• Applied computing → Law, social and behavioral sciences.
translated by 谷歌翻译
Counterfactual explanations are a popular type of explanation for making the outcomes of a decision making system transparent to the user. Counterfactual explanations tell the user what to do in order to change the outcome of the system in a desirable way. However, it was recently discovered that the recommendations of what to do can differ significantly in their complexity between protected groups of individuals. Providing more difficult recommendations of actions to one group leads to a disadvantage of this group compared to other groups. In this work we propose a model-agnostic method for computing counterfactual explanations that do not differ significantly in their complexity between protected groups.
translated by 谷歌翻译
在文献中提出了各种各样的公平度量和可解释的人工智能(XAI)方法,以确定在关键现实环境中使用的机器学习模型中的偏差。但是,仅报告模型的偏差,或使用现有XAI技术生成解释不足以定位并最终减轻偏差源。在这项工作中,我们通过识别对这种行为的根本原因的训练数据的连贯子集来引入Gopher,该系统产生紧凑,可解释和意外模型行为的偏差或意外模型行为。具体而言,我们介绍了因果责任的概念,这些责任通过删除或更新其数据集来解决培训数据的程度可以解决偏差。建立在这一概念上,我们开发了一种有效的方法,用于生成解释模型偏差的顶级模式,该模型偏置利用来自ML社区的技术来实现因果责任,并使用修剪规则来管理模式的大搜索空间。我们的实验评估表明了Gopher在为识别和调试偏置来源产生可解释解释时的有效性。
translated by 谷歌翻译
反事实解释(CES)是了解如何更改算法的决策的强大手段。研究人员提出了许多CES应该满足的Desiderata实际上有用,例如需要最少的努力来制定或遵守因果模型。我们考虑了提高CES的可用性的另一个方面:对不良扰动的鲁棒性,这可能是由于不幸的情况而自然发生的。由于CES通常会规定干预的稀疏形式(即,仅应更改特征的子集),因此我们研究了针对建议更改的特征和不进行的特征分别解决鲁棒性的效果。我们的定义是可行的,因为它们可以将其作为罚款术语纳入用于发现CES的损失功能。为了实验鲁棒性,我们创建和发布代码,其中五个数据集(通常在公平和可解释的机器学习领域使用)已丰富了特定于功能的注释,这些注释可用于采样有意义的扰动。我们的实验表明,CES通常不健壮,如果发生不良扰动(即使不是最坏的情况),他们规定的干预措施可能需要比预期的要大得多,甚至变得不可能。但是,考虑搜索过程中的鲁棒性,可以很容易地完成,可以系统地发现健壮的CES。强大的CES进行额外的干预,以对比扰动的扰动比非稳定的CES降低得多。我们还发现,鲁棒性更容易实现功能更改,这为选择哪种反事实解释最适合用户提出了重要的考虑点。我们的代码可在以下网址获得:https://github.com/marcovirgolin/robust-counterfactuals。
translated by 谷歌翻译
尽管机器学习和基于排名的系统在广泛用于敏感决策过程(例如,确定职位候选者,分配信用评分)时,他们对成果的意外偏见充满了疑虑,这使算法公平(例如,人口统计学公平)平等,机会平等)的目标。 “算法追索”提供了可行的恢复动作,通过修改属性来改变不良结果。我们介绍了排名级别的追索权公平的概念,并开发了一个“追索意识的排名”解决方案,该解决方案满足了排名的追索公平约束,同时最大程度地减少了建议的修改成本。我们的解决方案建议干预措施可以重新排序数据库记录的排名列表并减轻组级别的不公平性;具体而言,子组的不成比例表示和追索权成本不平衡。此重新排列可确定对数据点的最小修改,这些属性修改根据其易于解决方案进行了加权。然后,我们提出了一个有效的基于块的扩展,该扩展可以在任何粒度上重新排序(例如,银行贷款利率的多个括号,搜索引擎结果的多页)。对真实数据集的评估表明,尽管现有方法甚至可能加剧诉求不公平,但我们的解决方案 - raguel-可以显着改善追索性的公平性。 Raguel通过反事实生成和重新排列的结合过程优于改善追索性公平的替代方案,同时对大型数据集保持了有效的效率。
translated by 谷歌翻译
As machine learning black boxes are increasingly being deployed in domains such as healthcare and criminal justice, there is growing emphasis on building tools and techniques for explaining these black boxes in an interpretable manner. Such explanations are being leveraged by domain experts to diagnose systematic errors and underlying biases of black boxes. In this paper, we demonstrate that post hoc explanations techniques that rely on input perturbations, such as LIME and SHAP, are not reliable. Specifically, we propose a novel scaffolding technique that effectively hides the biases of any given classifier by allowing an adversarial entity to craft an arbitrary desired explanation. Our approach can be used to scaffold any biased classifier in such a way that its predictions on the input data distribution still remain biased, but the post hoc explanations of the scaffolded classifier look innocuous. Using extensive evaluation with multiple real world datasets (including COMPAS), we demonstrate how extremely biased (racist) classifiers crafted by our framework can easily fool popular explanation techniques such as LIME and SHAP into generating innocuous explanations which do not reflect the underlying biases. CCS CONCEPTS• Computing methodologies → Machine learning; Supervised learning by classification; • Human-centered computing → Interactive systems and tools.
translated by 谷歌翻译
识别受机器学习模型决策影响的人算法追索的问题最近受到了很多关注。一些最近的作品模型用户产生的成本,直接与用户满意相关联。但他们假设在所有用户共享的单一全局成本函数。当用户对其对其愿意行动的愿意和与改变该功能相关的不同成本具有相似的偏好时,这是一个不切实际的假设。在这项工作中,我们正式化了用户特定成本函数的概念,并引入了一种用于用户识别可操作的辅助的新方法。默认情况下,我们假设用户的成本函数是从追索方法隐藏的,尽管我们的框架允许用户部分或完全指定其偏好或成本函数。我们提出了一个客观函数,预期的最低成本(EMC),基于两个关键的想法:(1)在向用户呈现一组选项时,用户可以采用至少一个低成本解决方案至关重要; (2)当我们不了解用户的真实成本函数时,我们可以通过首先采样合理的成本函数来满足用户满意度,然后找到一个达到用户在期望中的良好成本的集合。我们以新颖的离散优化算法优化EMC,成本优化的本地搜索(COL),保证可以在迭代中提高追索性质量​​。具有模拟用户成本的流行实际数据集的实验评估表明,与强基线方法相比,我们的方法多达25.89个百分点。使用标准公平度量,我们还表明,我们的方法可以在人口统计组中提供比较可比方法的更公平的解决方案,我们验证了我们的方法是否稳健地击败成本函数分布。
translated by 谷歌翻译
由于算法预测对人类的影响增加,模型解释性已成为机器学习(ML)的重要问题。解释不仅可以帮助用户了解为什么ML模型做出某些预测,还可以帮助用户了解这些预测如何更改。在本论文中,我们研究了从三个有利位置的ML模型的解释性:算法,用户和教学法,并为解释性问题贡献了一些新颖的解决方案。
translated by 谷歌翻译
为了减轻模型中不希望的偏差的影响,几种方法建议预先处理输入数据集,以通过防止敏感属性的推断来减少歧视风险。不幸的是,这些预处理方法中的大多数导致一代新分布与原始分布有很大不同,因此通常导致不切实际的数据。作为副作用,这种新的数据分布意味着需要重新训练现有模型才能做出准确的预测。为了解决这个问题,我们提出了一种新颖的预处理方法,我们将根据保护组的分布转换为所选目标一个,并具有附加的隐私约束,其目的是防止敏感敏感的推断属性。更确切地说,我们利用Wasserstein Gan和Attgan框架的最新作品来实现数据点的最佳运输以及强制保护属性推断的歧视器。我们提出的方法可以保留数据的可解释性,并且可以在不定义敏感组的情况下使用。此外,我们的方法可以专门建模现有的最新方法,从而提出对这些方法的统一观点。最后,关于真实和合成数据集的一些实验表明,我们的方法能够隐藏敏感属性,同时限制数据的变形并改善了后续数据分析任务的公平性。
translated by 谷歌翻译
可解释的机器学习旨在了解复杂的黑盒系统的推理过程,这些系统因缺乏解释性而臭名昭著。一种不断增长的解释方法是通过反事实解释,这超出了为什么系统做出一定决定,以进一步提供有关用户可以采取哪些方法来改变结果的建议。反事实示例必须能够应对黑框分类器的原始预测,同时还满足实用应用程序的各种约束。这些限制存在于一个和另一个之间的权衡处,对现有作品提出了根本的挑战。为此,我们提出了一个基于随机学习的框架,可以有效地平衡反事实权衡。该框架由具有互补角色的一代和特征选择模块组成:前者的目标是建模有效的反事实的分布,而后者则以允许可区分训练和摊销优化的方式执行其他约束。我们证明了我们方法在产生可行和合理的反事实中的有效性,这些反事实比现有方法更多样化,尤其是比具有相同能力的对应物更有效的方式。
translated by 谷歌翻译
由于事后解释方法越来越多地被利用以在高风险环境中解释复杂的模型,因此确保在包括少数群体在内的各个种群亚组中,所得解释的质量始终高。例如,与与其他性别相关的实例(例如,女性)相关的实例(例如,女性)的说明不应该是与其他性别相关的解释。但是,几乎没有研究能够评估通过最先进的解释方法在输出的解释质量上是否存在这种基于群体的差异。在这项工作中,我们通过启动确定基于群体的解释质量差异的研究来解决上述差距。为此,我们首先概述了构成解释质量以及差异尤其有问题的关键属性。然后,我们利用这些属性提出了一个新的评估框架,该框架可以通过最新方法定量测量解释质量的差异。使用此框架,我们进行了严格的经验分析,以了解是否出现了解释质量的基于小组的差异。我们的结果表明,当所解释的模型复杂且高度非线性时,这种差异更可能发生。此外,我们还观察到某些事后解释方法(例如,综合梯度,外形)更有可能表现出上述差异。据我们所知,这项工作是第一个强调和研究解释质量差异的问题。通过这样做,我们的工作阐明了以前未开发的方式,其中解释方法可能在现实世界决策中引入不公平。
translated by 谷歌翻译
As predictive models are increasingly being employed to make consequential decisions, there is a growing emphasis on developing techniques that can provide algorithmic recourse to affected individuals. While such recourses can be immensely beneficial to affected individuals, potential adversaries could also exploit these recourses to compromise privacy. In this work, we make the first attempt at investigating if and how an adversary can leverage recourses to infer private information about the underlying model's training data. To this end, we propose a series of novel membership inference attacks which leverage algorithmic recourse. More specifically, we extend the prior literature on membership inference attacks to the recourse setting by leveraging the distances between data instances and their corresponding counterfactuals output by state-of-the-art recourse methods. Extensive experimentation with real world and synthetic datasets demonstrates significant privacy leakage through recourses. Our work establishes unintended privacy leakage as an important risk in the widespread adoption of recourse methods.
translated by 谷歌翻译
There exist several methods that aim to address the crucial task of understanding the behaviour of AI/ML models. Arguably, the most popular among them are local explanations that focus on investigating model behaviour for individual instances. Several methods have been proposed for local analysis, but relatively lesser effort has gone into understanding if the explanations are robust and accurately reflect the behaviour of underlying models. In this work, we present a survey of the works that analysed the robustness of two classes of local explanations (feature importance and counterfactual explanations) that are popularly used in analysing AI/ML models in finance. The survey aims to unify existing definitions of robustness, introduces a taxonomy to classify different robustness approaches, and discusses some interesting results. Finally, the survey introduces some pointers about extending current robustness analysis approaches so as to identify reliable explainability methods.
translated by 谷歌翻译
可解释的人工智能(XAI)是一系列技术,可以理解人工智能(AI)系统的技术和非技术方面。 Xai至关重要,帮助满足\ emph {可信赖}人工智能的日益重要的需求,其特点是人类自主,防止危害,透明,问责制等的基本特征,反事实解释旨在提供最终用户需要更改的一组特征(及其对应的值)以实现所需的结果。目前的方法很少考虑到实现建议解释所需的行动的可行性,特别是他们缺乏考虑这些行为的因果影响。在本文中,我们将反事实解释作为潜在空间(CEILS)的干预措施,一种方法来生成由数据从数据设计潜在的因果关系捕获的反事实解释,并且同时提供可行的建议,以便到达所提出的配置文件。此外,我们的方法具有以下优点,即它可以设置在现有的反事实发生器算法之上,从而最小化施加额外的因果约束的复杂性。我们展示了我们使用合成和实际数据集的一组不同实验的方法的有效性(包括金融领域的专有数据集)。
translated by 谷歌翻译
这项研究通过对三种不同类型的模型进行基准评估来调查机器学习模型对产生反事实解释的影响:决策树(完全透明,可解释的,白色盒子模型),随机森林(一种半解释,灰色盒模型)和神经网络(完全不透明的黑盒模型)。我们在五个不同数据集(Compas,成人,德国,德语,糖尿病和乳腺癌)中使用四种算法(DICE,WatchERCF,原型和GrowingSpheresCF)测试了反事实生成过程。我们的发现表明:(1)不同的机器学习模型对反事实解释的产生没有影响; (2)基于接近性损失函数的唯一算法是不可行的,不会提供有意义的解释; (3)在不保证反事实生成过程中的合理性的情况下,人们无法获得有意义的评估结果。如果对当前的最新指标进行评估,则不考虑其内部机制中不合理的算法将导致偏见和不可靠的结论; (4)强烈建议对定性分析(以及定量分析),以确保对反事实解释和偏见的潜在识别进行强有力的分析。
translated by 谷歌翻译
The goal of algorithmic recourse is to reverse unfavorable decisions (e.g., from loan denial to approval) under automated decision making by suggesting actionable feature changes (e.g., reduce the number of credit cards). To generate low-cost recourse the majority of methods work under the assumption that the features are independently manipulable (IMF). To address the feature dependency issue the recourse problem is usually studied through the causal recourse paradigm. However, it is well known that strong assumptions, as encoded in causal models and structural equations, hinder the applicability of these methods in complex domains where causal dependency structures are ambiguous. In this work, we develop \texttt{DEAR} (DisEntangling Algorithmic Recourse), a novel and practical recourse framework that bridges the gap between the IMF and the strong causal assumptions. \texttt{DEAR} generates recourses by disentangling the latent representation of co-varying features from a subset of promising recourse features to capture the main practical recourse desiderata. Our experiments on real-world data corroborate our theoretically motivated recourse model and highlight our framework's ability to provide reliable, low-cost recourse in the presence of feature dependencies.
translated by 谷歌翻译
可说明的机器学习(ML)近年来由于许多部门的ML基系统的增加而增加了近年来。算法refurrses(ARS)提供“如果输入数据点为x'而不是x的形式的反馈,那么基于ML的系统的输出将是Y'而不是Y.”由于其可行的反馈,对现有的法律框架和忠诚于底层ML模型,ARS由于其可行的反馈而具有吸引力。然而,当前的AR方法是单次拍摄 - 也就是说,它们假设X可以在单个时间段内更改为X'。我们提出了一种新的基于随机控制的方法,它产生序贯ARS,即允许X随机X移动到最终状态X'的ARS。我们的方法是模型不可知论和黑匣子。此外,ARS的计算被摊销,使得一旦训练,它适用于多个DataPoints,而无需重新优化。除了这些主要特征之外,我们的方法还承认可选的Desiderata,例如遵守数据歧管,尊重因果关系和稀疏性 - 通过过去的研究确定的ARS的理想性质。我们使用三个现实世界数据集评估我们的方法,并表现出尊重其他追索者的顺序ARS的成功生成。
translated by 谷歌翻译
随着机器学习(ML)模型越来越多地用于做出结果决定,人们对开发可以为受影响个人提供求助的技术越来越兴趣。这些技术中的大多数提供了追索权,假设受影响的个体将实施规定的recourses \ emph {prirent}。但是,由于各种原因,要求将薪水提高\ $ 500的人可能会获得嘈杂和不一致的方式实施,这可能会获得晋升,而增加了505美元。在此激励的情况下,我们研究了面对嘈杂的人类反应时追索性无效的问题。更具体地说,我们从理论上和经验上分析了最新算法的行为,并证明这些算法产生的记录很可能是无效的(即,如果对它们做出的小变化,则可能导致负面结果) 。我们进一步提出了一个新颖的框架,期望嘈杂的响应(\ texttt {Expect}),该框架通过在嘈杂的响应中明确最大程度地减少追索性无效的可能性来解决上述问题。我们的框架可以确保最多$ r \%$的最多$ r $作为最终用户请求追索权的输入。通过这样做,我们的框架为最终用户提供了更大的控制权,可以在追索性成本和稳定性之间的稳定性之间进行权衡。具有多个现实世界数据集的实验评估证明了所提出的框架的功效,并验证了我们的理论发现。
translated by 谷歌翻译