文献中有许多不同的方法来解释机器学习结果。但是,这些方法的方法有所不同,通常没有提供相同的解释。在本文中,我们考虑了两种最新方法:集成梯度(Sundararajan,Taly和Yan,2017年)和基线Shapley(Sundararajan和Najmi,2020年)。原始作者已经研究了两种方法的公理属性,并提供了一些比较。我们的工作为表格数据提供了一些有关其比较行为的其他见解。我们讨论两者提供相同解释及其不同的常见情况。我们还使用仿真研究来检查具有Relu激活函数的神经网络拟合模型时的差异。
translated by 谷歌翻译
由于其理想的特性,与Shapley相关的技术已成为全球和局部解释工具的关注。但是,他们使用条件期望的计算在计算上是昂贵的。文献中建议的近似方法有局限性。本文提出了基于条件期望的基于替代模型的树来计算沙普利和塑造值。仿真研究表明,拟议的算法可提供准确性的提高,统一全球沙普利和外形解释,而阈值方法为折衷运行时间和准确性提供了一种方法。
translated by 谷歌翻译
可解释的AI(XAI)的基本任务是确定黑匣子功能$ f $做出的预测背后的最重要功能。 Petsiuk等人的插入和缺失测试。 (2018年)用于判断从最重要的对分类至最不重要的算法的质量。在回归问题的激励下,我们在曲线标准(AUC)标准下建立了一个公式,就$ f $的锚定分解中的某些主要效果和相互作用而言。我们找到了在输入到$ f $的随机排序下AUC的期望值的表达式,并提出了回归设置的直线上方的替代区域。我们使用此标准将集成梯度(IG)计算出的特征与内核Shap(KS)以及石灰,DeepLift,Vanilla梯度和输入$ \ times $ \ times $梯度方法进行比较。 KS在我们考虑的两个数据集中具有最好的总体性能,但是计算非常昂贵。我们发现IG几乎和KS一样好,同时更快。我们的比较问题包括一些对IG构成挑战的二进制输入,因为它必须使用可能的变量级别之间的值,因此我们考虑处理IG中二进制变量的方法。我们表明,通过其shapley值进行排序变量并不一定给出插入插入测试的最佳排序。但是,对于加性模型的单调函数(例如逻辑回归),它将做到这一点。
translated by 谷歌翻译
Understanding why a model makes a certain prediction can be as crucial as the prediction's accuracy in many applications. However, the highest accuracy for large modern datasets is often achieved by complex models that even experts struggle to interpret, such as ensemble or deep learning models, creating a tension between accuracy and interpretability. In response, various methods have recently been proposed to help users interpret the predictions of complex models, but it is often unclear how these methods are related and when one method is preferable over another. To address this problem, we present a unified framework for interpreting predictions, SHAP (SHapley Additive exPlanations). SHAP assigns each feature an importance value for a particular prediction. Its novel components include: (1) the identification of a new class of additive feature importance measures, and (2) theoretical results showing there is a unique solution in this class with a set of desirable properties. The new class unifies six existing methods, notable because several recent methods in the class lack the proposed desirable properties. Based on insights from this unification, we present new methods that show improved computational performance and/or better consistency with human intuition than previous approaches.
translated by 谷歌翻译
可解释的人工智能方法(XAI)用于地球科学应用中,以洞悉神经网络(NNS)的决策策略(NNS),强调了输入中哪些功能对NN预测的影响最大。在这里,我们讨论了我们的教训,了解到将预测归因于输入的任务没有单个解决方案。相反,归因结果及其解释在很大程度上取决于XAI方法使用的考虑的基线(有时称为参考点)。到目前为止,这一事实在文献中被忽略了。该基线可以由用户选择,也可以是通过方法S算法中的构造设置的,通常没有用户意识到该选择。我们强调说,不同的基线可以为不同的科学问题提供不同的见解,因此应相应地选择。为了说明基线的影响,我们使用SSP3-7.0场景强迫的历史和未来气候模拟的大量合奏,并训练完全连接的NN来预测集团和全球均值温度(即强迫全球变暖信号)给定单个合奏成员的年度温度图。然后,我们使用各种XAI方法和不同的基线将网络预测归因于输入。我们表明,在考虑不同的基准时,归因在于回答不同的科学问题,因为它们会有很大差异。我们通过讨论有关基准在XAI研究中使用的一些重要含义和考虑因素来结束。
translated by 谷歌翻译
研究人员提出了多种模型解释方法,但目前尚不清楚大多数方法如何相关或何时一种方法比另一种方法更可取。我们研究了文献,发现许多方法都是基于通过删除来解释的共同原理 - 本质上是测量从模型中删除一组特征的影响。这些方法在几个方面有所不同,因此我们为基于删除的解释开发了一个沿三个维度表征每个方法的框架:1)该方法如何删除特征,2)该方法解释的模型行为以及3)方法如何汇总每个方法功能的影响。我们的框架统一了26种现有方法,其中包括几种最广泛使用的方法(Shap,Lime,有意义的扰动,排列测试)。揭露这些方法之间的基本相似性使用户能够推荐使用哪种工具,并为正在进行的模型解释性研究提出了有希望的方向。
translated by 谷歌翻译
在可解释的机器学习中,当地的事后解释算法和固有的可解释模型通常被视为竞争方法。在这项工作中,提供了有关Shapley Values的新颖观点,即Shapley Values,这是一种突出的事后解释技术,并表明它与玻璃盒 - 玻璃盒 - gams密切相关,Glassbox-Gam是一种流行的可解释模型。我们介绍了$ n $ -Shapley值,这是Shapley值的自然扩展,该值解释了具有交互条款的个人预测,直到$ n $。随着$ n $的增加,$ n $ shapley的值会收敛于Shapley-Gam,这是原始功能的独特确定分解。从Shapley-GAM中,我们可以计算出任意秩序的Shapley值,从而确切的见解对这些解释的局限性。然后,我们证明Shapley值恢复了订单$ n $的通用添加剂模型,假设我们允许交互条款在解释中订购$ n $。这意味着原始的Shapley值恢复了玻璃盒煤气。在技​​术端,我们表明,选择值函数的不同方式与原始函数的不同功能分解之间存在一对一的对应关系。这为如何选择值函数的问题提供了一个新的观点。我们还对各种标准分类器中存在的可变相互作用程度进行了经验分析,并讨论了我们结果对算法解释的含义。一个用于计算$ n $ shapley值的Python软件包,并在本文中复制结果,请访问\ url {https://github.com/tml-tuebingen/nshap}。
translated by 谷歌翻译
Besides accuracy, recent studies on machine learning models have been addressing the question on how the obtained results can be interpreted. Indeed, while complex machine learning models are able to provide very good results in terms of accuracy even in challenging applications, it is difficult to interpret them. Aiming at providing some interpretability for such models, one of the most famous methods, called SHAP, borrows the Shapley value concept from game theory in order to locally explain the predicted outcome of an instance of interest. As the SHAP values calculation needs previous computations on all possible coalitions of attributes, its computational cost can be very high. Therefore, a SHAP-based method called Kernel SHAP adopts an efficient strategy that approximate such values with less computational effort. In this paper, we also address local interpretability in machine learning based on Shapley values. Firstly, we provide a straightforward formulation of a SHAP-based method for local interpretability by using the Choquet integral, which leads to both Shapley values and Shapley interaction indices. Moreover, we also adopt the concept of $k$-additive games from game theory, which contributes to reduce the computational effort when estimating the SHAP values. The obtained results attest that our proposal needs less computations on coalitions of attributes to approximate the SHAP values.
translated by 谷歌翻译
Shap是一种衡量机器学习模型中可变重要性的流行方法。在本文中,我们研究了用于估计外形评分的算法,并表明它是功能性方差分析分解的转换。我们使用此连接表明,在Shap近似中的挑战主要与选择功能分布的选择以及估计的$ 2^p $ ANOVA条款的数量有关。我们认为,在这种情况下,机器学习解释性和敏感性分析之间的联系是有照明的,但是直接的实际后果并不明显,因为这两个领域面临着不同的约束。机器学习的解释性问题模型可评估,但通常具有数百个(即使不是数千个)功能。敏感性分析通常处理物理或工程的模型,这些模型可能非常耗时,但在相对较小的输入空间上运行。
translated by 谷歌翻译
基于Shapley值的功能归因在解释机器学习模型中很受欢迎。但是,从理论和计算的角度来看,它们的估计是复杂的。我们将这种复杂性分解为两个因素:(1)〜删除特征信息的方法,以及(2)〜可拖动估计策略。这两个因素提供了一种天然镜头,我们可以更好地理解和比较24种不同的算法。基于各种特征删除方法,我们描述了多种类型的Shapley值特征属性和计算每个类型的方法。然后,基于可进行的估计策略,我们表征了两个不同的方法家族:模型 - 不合时宜的和模型特定的近似值。对于模型 - 不合稳定的近似值,我们基准了广泛的估计方法,并将其与Shapley值的替代性但等效的特征联系起来。对于特定于模型的近似值,我们阐明了对每种方法的线性,树和深模型的障碍至关重要的假设。最后,我们确定了文献中的差距以及有希望的未来研究方向。
translated by 谷歌翻译
探索黑盒机器学习(ML)模型的重要技术称为Shap(Shapley添加说明)。Shap值以公平的方式将预测分解为功能的贡献。我们将证明,对于具有添加性建模的一些或所有功能的增强树模型,此类特征的外形依赖图与其部分依赖图相对应,直到垂直移动。我们用XGBoost说明了结果。
translated by 谷歌翻译
沙普利价值是衡量单个特征影响的流行方法。尽管Shapley功能归因是基于游戏理论的Desiderata,但在某些机器学习设置中,其某些约束可能不太自然,从而导致不直觉的模型解释。特别是,Shapley值对所有边际贡献都使用相同的权重 - 即,当给出大量其他功能时,当给出少数其他功能时,它具有相同的重要性。如果较大的功能集比较小的功能集更具信息性,则此属性可能是有问题的。我们的工作对沙普利特征归因的潜在局限性进行了严格的分析。我们通过为较小的影响力特征分配较大的属性来确定Shapley值在数学上是次优的设置。在这一观察结果的驱动下,我们提出了加权图,它概括了沙普利的价值,并了解到直接从数据中关注哪些边际贡献。在几个现实世界数据集上,我们证明,与沙普利值确定的功能相比,加权图确定的有影响力的特征可以更好地概括模型的预测。
translated by 谷歌翻译
我们通过将回归或分类函数的全局解释分解为主组件和任意顺序的相互作用组件的总和。当添加由因果解释激励的识别约束时,我们发现Q交互作用是该约束的独特解决方案。在这里,Q表示分解中存在的最高相互作用。我们的结果为具有各种实践和理论含义的外形值提供了新的视角:如果将塑形值分解为主要和所有相互作用效应,它们提供了带有因果解释的全球解释。原则上,分解可以应用于任何机器学习模型。但是,由于可能的相互作用的数量随特征的数量呈指数增长,因此精确的计算仅对于适合低维结构或这些组合的方法可行。我们为梯度增压树提供了一种算法和有效的实施(Xgboost和随机种植的森林,计算出这种分解。进行的实验表明,我们的方法提供了有意义的解释,并揭示了更高阶的相互作用。我们还通过利用新见解的进一步的潜力来利用新见解的进一步的潜力。全球解释,用于激励特征重要性的新量度,以及通过删除事后删除来减少直接和间接偏见。
translated by 谷歌翻译
基于树的算法,如随机森林和渐变增强树,继续成为多学科最受欢迎和强大的机器学习模型之一。估计基于树模型中特征的影响的传统智慧是测量\脑缩小{节目减少损失函数},(i)仅收集全球重要性措施和(ii)遭受严重影响偏见。条件特征贡献(CFC)通过遵循决策路径并将模型的预期输出的更改归因于路径的每个功能,提供对预测的\ yourceit {local},逐个案例说明。但是,Lundberg等人。指出了CFC的潜在偏见,这取决于与树根的距离。现在是现在非常受欢迎的替代方案,福芙添加剂解释(Shap)值似乎减轻了这种偏差,但计算得多更昂贵。在这里,我们有助于对两种公开可用的分类问题的两种方法计算的解释进行了彻底的比较,以便向当前研究人员提供数据驱动算法的建议。对于随机森林,我们发现本地和全球形状值和CFC分数的极高相似之处和相关性,导致非常相似的排名和解释。类似的结论对于使用全局特征重要性分数的保真度作为与每个特征相关的预测电力的代理。
translated by 谷歌翻译
在人类循环机器学习应用程序的背景下,如决策支持系统,可解释性方法应在不使用户等待的情况下提供可操作的见解。在本文中,我们提出了加速的模型 - 不可知论解释(ACME),一种可解释的方法,即在全球和本地层面迅速提供特征重要性分数。可以将acme应用于每个回归或分类模型的后验。 ACME计算功能排名不仅提供了一个什么,但它还提供了一个用于评估功能值的变化如何影响模型预测的原因 - 如果分析工具。我们评估了综合性和现实世界数据集的建议方法,同时也与福芙添加剂解释(Shap)相比,我们制作了灵感的方法,目前是最先进的模型无关的解释性方法。我们在生产解释的质量方面取得了可比的结果,同时急剧减少计算时间并为全局和局部解释提供一致的可视化。为了促进该领域的研究,为重复性,我们还提供了一种存储库,其中代码用于实验。
translated by 谷歌翻译
测量黑匣子预测算法中变量重要性的最流行方法是利用合成输入,这些输入结合了来自多个受试者的预测变量。这些输入可能是不可能的,身体上不可能的,甚至在逻辑上是不可能的。结果,对这种情况的预测可以基于数据,这与对黑匣子的训练非常不同。我们认为,当解释使用此类值时,用户不能相信预测算法的决定的解释。取而代之的是,我们主张一种称为同类沙普利的方法,该方法基于经济游戏理论,与大多数其他游戏理论方法不同,它仅使用实际观察到的数据来量化可变重要性。莎普利队的同伙通过缩小判断的主题的缩小,被认为与一个或多个功能上的目标主题相似。如果使用它来缩小队列对队列平均值有很大的不同,则功能很重要。我们在算法公平问题上进行了说明,其中必须将重要性归因于未经训练模型的保护变量。对于每个主题和每个预测变量,我们可以计算该预测因子对受试者的预测响应或对其实际响应的重要性。这些值可以汇总,例如在所有黑色受试者上,我们提出了一个贝叶斯引导程序来量化个人和骨料莎普利值的不确定性。
translated by 谷歌翻译
We introduce the XPER (eXplainable PERformance) methodology to measure the specific contribution of the input features to the predictive or economic performance of a model. Our methodology offers several advantages. First, it is both model-agnostic and performance metric-agnostic. Second, XPER is theoretically founded as it is based on Shapley values. Third, the interpretation of the benchmark, which is inherent in any Shapley value decomposition, is meaningful in our context. Fourth, XPER is not plagued by model specification error, as it does not require re-estimating the model. Fifth, it can be implemented either at the model level or at the individual level. In an application based on auto loans, we find that performance can be explained by a surprisingly small number of features. XPER decompositions are rather stable across metrics, yet some feature contributions switch sign across metrics. Our analysis also shows that explaining model forecasts and model performance are two distinct tasks.
translated by 谷歌翻译
即使有效,模型的使用也必须伴随着转换数据的各个级别的理解(上游和下游)。因此,需求增加以定义单个数据与算法可以根据其分析可以做出的选择(例如,一种产品或一种促销报价的建议,或代表风险的保险费率)。模型用户必须确保模型不会区分,并且也可以解释其结果。本文介绍了模型解释的重要性,并解决了模型透明度的概念。在保险环境中,它专门说明了如何使用某些工具来强制执行当今可以利用机器学习的精算模型的控制。在一个简单的汽车保险中损失频率估计的示例中,我们展示了一些解释性方法的兴趣,以适应目标受众的解释。
translated by 谷歌翻译
越来越多的电子健康记录(EHR)数据和深度学习技术进步的越来越多的可用性(DL)已经引发了在开发基于DL的诊断,预后和治疗的DL临床决策支持系统中的研究兴趣激增。尽管承认医疗保健的深度学习的价值,但由于DL的黑匣子性质,实际医疗环境中进一步采用的障碍障碍仍然存在。因此,有一个可解释的DL的新兴需求,它允许最终用户评估模型决策,以便在采用行动之前知道是否接受或拒绝预测和建议。在这篇综述中,我们专注于DL模型在医疗保健中的可解释性。我们首先引入深入解释性的方法,并作为该领域的未来研究人员或临床从业者的方法参考。除了这些方法的细节之外,我们还包括对这些方法的优缺点以及它们中的每个场景都适合的讨论,因此感兴趣的读者可以知道如何比较和选择它们供使用。此外,我们讨论了这些方法,最初用于解决一般域问题,已经适应并应用于医疗保健问题以及如何帮助医生更好地理解这些数据驱动技术。总的来说,我们希望这项调查可以帮助研究人员和从业者在人工智能(AI)和临床领域了解我们为提高其DL模型的可解释性并相应地选择最佳方法。
translated by 谷歌翻译
随着现代复杂的神经网络不断破坏记录并解决更严重的问题,它们的预测也变得越来越少。目前缺乏解释性通常会破坏敏感设置中精确的机器学习工具的部署。在这项工作中,我们提出了一种基于Shapley系数的层次扩展的图像分类的模型 - 不足的解释方法 - 层次结构(H-SHAP)(H-SHAP) - 解决了当前方法的某些局限性。与其他基于沙普利的解释方法不同,H-shap是可扩展的,并且可以计算而无需近似。在某些分布假设下,例如在多个实例学习中常见的假设,H-shap检索了确切的Shapley系数,并具有指数改善的计算复杂性。我们将我们的分层方法与基于Shapley的流行基于Shapley和基于Shapley的方法进行比较,而基于Shapley的方法,医学成像方案以及一般的计算机视觉问题,表明H-Shap在准确性和运行时都超过了最先进的状态。代码和实验已公开可用。
translated by 谷歌翻译