Deep learning models for learning analytics have become increasingly popular over the last few years; however, these approaches are still not widely adopted in real-world settings, likely due to a lack of trust and transparency. In this paper, we tackle this issue by implementing explainable AI methods for black-box neural networks. This work focuses on the context of online and blended learning and the use case of student success prediction models. We use a pairwise study design, enabling us to investigate controlled differences between pairs of courses. Our analyses cover five course pairs that differ in one educationally relevant aspect and two popular instance-based explainable AI methods (LIME and SHAP). We quantitatively compare the distances between the explanations across courses and methods. We then validate the explanations of LIME and SHAP with 26 semi-structured interviews of university-level educators regarding which features they believe contribute most to student success, which explanations they trust most, and how they could transform these insights into actionable course design decisions. Our results show that quantitatively, explainers significantly disagree with each other about what is important, and qualitatively, experts themselves do not agree on which explanations are most trustworthy. All code, extended results, and the interview protocol are provided at https://github.com/epfl-ml4ed/trusting-explainers.
translated by 谷歌翻译
神经网络无处不在用于教育的应用机器学习。他们在预测性能方面的普遍成功伴随着严重的弱点,缺乏决策的解释性,尤其是在以人为中心的领域中。我们实施了五种最先进的方法,用于解释黑盒机器学习模型(Lime,PermiputationShap,kernelshap,dice,CEM),并检查每种方法的优势在学生绩效预测的下游任务上,用于五个大规模开放的在线在线公开培训班。我们的实验表明,解释者的家属在与同一代表学生集的同一双向LSTM模型中相互重要性不同意。我们使用主成分分析,詹森 - 香农距离以及Spearman的等级相关性,以跨方法和课程进行定量的盘问解释。此外,我们验证了基于课程的先决条件之间的解释器表现。我们的结果得出的结论是,解释器的选择是一个重要的决定,实际上对预测结果的解释至关重要,甚至比模型的课程更重要。源代码和模型在http://github.com/epfl-ml4ed/evaluating-explainers上发布。
translated by 谷歌翻译
Student success models might be prone to develop weak spots, i.e., examples hard to accurately classify due to insufficient representation during model creation. This weakness is one of the main factors undermining users' trust, since model predictions could for instance lead an instructor to not intervene on a student in need. In this paper, we unveil the need of detecting and characterizing unknown unknowns in student success prediction in order to better understand when models may fail. Unknown unknowns include the students for which the model is highly confident in its predictions, but is actually wrong. Therefore, we cannot solely rely on the model's confidence when evaluating the predictions quality. We first introduce a framework for the identification and characterization of unknown unknowns. We then assess its informativeness on log data collected from flipped courses and online courses using quantitative analyses and interviews with instructors. Our results show that unknown unknowns are a critical issue in this domain and that our framework can be applied to support their detection. The source code is available at https://github.com/epfl-ml4ed/unknown-unknowns.
translated by 谷歌翻译
Time series is the most prevalent form of input data for educational prediction tasks. The vast majority of research using time series data focuses on hand-crafted features, designed by experts for predictive performance and interpretability. However, extracting these features is labor-intensive for humans and computers. In this paper, we propose an approach that utilizes irregular multivariate time series modeling with graph neural networks to achieve comparable or better accuracy with raw time series clickstreams in comparison to hand-crafted features. Furthermore, we extend concept activation vectors for interpretability in raw time series models. We analyze these advances in the education domain, addressing the task of early student performance prediction for downstream targeted interventions and instructional support. Our experimental analysis on 23 MOOCs with millions of combined interactions over six behavioral dimensions show that models designed with our approach can (i) beat state-of-the-art educational time series baselines with no feature extraction and (ii) provide interpretable insights for personalized interventions. Source code: https://github.com/epfl-ml4ed/ripple/.
translated by 谷歌翻译
Explainable AI (XAI) is widely viewed as a sine qua non for ever-expanding AI research. A better understanding of the needs of XAI users, as well as human-centered evaluations of explainable models are both a necessity and a challenge. In this paper, we explore how HCI and AI researchers conduct user studies in XAI applications based on a systematic literature review. After identifying and thoroughly analyzing 85 core papers with human-based XAI evaluations over the past five years, we categorize them along the measured characteristics of explanatory methods, namely trust, understanding, fairness, usability, and human-AI team performance. Our research shows that XAI is spreading more rapidly in certain application domains, such as recommender systems than in others, but that user evaluations are still rather sparse and incorporate hardly any insights from cognitive or social sciences. Based on a comprehensive discussion of best practices, i.e., common models, design choices, and measures in user studies, we propose practical guidelines on designing and conducting user studies for XAI researchers and practitioners. Lastly, this survey also highlights several open research directions, particularly linking psychological science and human-centered XAI.
translated by 谷歌翻译
我们在数字世界中采取的每一步都会落后于我们行为的记录;数字足迹。研究表明,算法可以将这些数字足迹转化为精确的心理特征估计,包括人格特质,心理健康或情报。然而,AI产生这些见解的机制通常保持不透明。在本文中,我们展示了如何解释AI(XAI)可以帮助域专家和数据主体验证,问题和改进分类数字足迹的心理特征的模型。我们在来自金融交易数据的大五个人格预测(特征和方面)的范围内,详细说明了两个流行的XAI方法(规则提取和反事实解释)(n = 6,408)。首先,我们展示了全球规则提取在模型中标识的消费模式中如何阐明了最重要的人格,并讨论这些规则如何用于解释,验证和改进模型。其次,我们实施当地规则提取,以表明,由于其独特的财务行为,个人分配给个性课程,并且模型的预测信心与促进预测的特征数量之间存在积极的联系。我们的实验突出了全球和本地XAI方法的重要性。通过更好地了解预测模型如何工作,以及他们如何获得特定人的结果,Xai促进了一个世界的问责制,其中AI影响了世界各地数十亿人的生命。
translated by 谷歌翻译
由于算法预测对人类的影响增加,模型解释性已成为机器学习(ML)的重要问题。解释不仅可以帮助用户了解为什么ML模型做出某些预测,还可以帮助用户了解这些预测如何更改。在本论文中,我们研究了从三个有利位置的ML模型的解释性:算法,用户和教学法,并为解释性问题贡献了一些新颖的解决方案。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
机器学习(ML)方法可以有效地分析数据,识别其中的模式并做出高质量的预测。良好的预测通常与无法以人类可读的方式呈现检测到的模式一起进行。技术发展最近导致了可解释的人工智能(XAI)技术,旨在打开此类黑盒,并使人类能够从检测到的模式中获得新的见解。我们研究了XAI在特定见解可能对消费者行为产生重大影响的领域,即用电。知道对个人电力消耗的特定反馈触发了资源保护,我们从电力消耗时间序列中创建了五个可视化,考虑到现有的特定领域的设计知识,从电力消耗时间序列中获得了五个可视化。我们对152名参与者进行的实验评估表明,人类可以通过XAI可视化表现出的模式来吸收,但是这种可视化应遵循已知的可视化模式,以便用户妥善理解。
translated by 谷歌翻译
随着AI系统表现出越来越强烈的预测性能,它们的采用已经在许多域中种植。然而,在刑事司法和医疗保健等高赌场域中,由于安全,道德和法律问题,往往是完全自动化的,但是完全手工方法可能是不准确和耗时的。因此,对研究界的兴趣日益增长,以增加人力决策。除了为此目的开发AI技术之外,人民AI决策的新兴领域必须采用实证方法,以形成对人类如何互动和与AI合作做出决定的基础知识。为了邀请和帮助结构研究努力了解理解和改善人为 - AI决策的研究,我们近期对本课题的实证人体研究的文献。我们总结了在三个重要方面的100多篇论文中的研究设计选择:(1)决定任务,(2)AI模型和AI援助要素,以及(3)评估指标。对于每个方面,我们总结了当前的趋势,讨论了现场当前做法中的差距,并列出了未来研究的建议。我们的调查强调了开发共同框架的需要考虑人类 - AI决策的设计和研究空间,因此研究人员可以在研究设计中进行严格的选择,研究界可以互相构建并产生更广泛的科学知识。我们还希望这项调查将成为HCI和AI社区的桥梁,共同努力,相互塑造人类决策的经验科学和计算技术。
translated by 谷歌翻译
自我跟踪可以提高人们对他们不健康的行为的认识,为行为改变提供见解。事先工作探索了自动跟踪器如何反映其记录数据,但它仍然不清楚他们从跟踪反馈中学到多少,以及哪些信息更有用。实际上,反馈仍然可以压倒,并简明扼要可以通过增加焦点和减少解释负担来改善学习。为了简化反馈,我们提出了一个自动跟踪反馈显着框架,以定义提供反馈的特定信息,为什么这些细节以及如何呈现它们(手动引出或自动反馈)。我们从移动食品跟踪的实地研究中收集了调查和膳食图像数据,并实施了Salientrack,一种机器学习模型,以预测用户从跟踪事件中学习。使用可解释的AI(XAI)技术,SalientRack识别该事件的哪些特征是最突出的,为什么它们导致正面学习结果,并优先考虑如何根据归属分数呈现反馈。我们展示了用例,并进行了形成性研究,以展示Salientrack的可用性和有用性。我们讨论自动跟踪中可读性的影响,以及如何添加模型解释性扩大了提高反馈体验的机会。
translated by 谷歌翻译
在学习分析领域的最新研究重点是利用机器学习方法来预测高危学生,以便及时启动干预措施,从而提高保留率和完成率。这些研究大多数的总体特征仅在预测科学方面。与解释模型内部的预测分析的组成部分,并在很大程度上忽略了其对利益相关者的个人案例的预测。此外,尝试使用数据驱动的规范分析来自动为高危学习者生成基于证据的补救建议的工作仍处于起步阶段。可解释的AI是一个最近出现的领域,它提供了尖端工具,该工具支持透明的预测分析和技术,以为高危学生生成量身定制的建议。这项研究提出了一个新的框架,该框架既可以统一透明的机器学习,又可以实现规定性分析的技术。这项工作实际上使用了使用预测模型来识别计划不完整的高危学习者的预测模型。然后,该研究进一步证明了如何通过两项案例研究的规定性分析来增强预测性建模,以便为有危险的人产生可读的规定反馈。
translated by 谷歌翻译
与此同时,在可解释的人工智能(XAI)的研究领域中,已经开发了各种术语,动机,方法和评估标准。随着XAI方法的数量大大增长,研究人员以及从业者以及从业者需要一种方法:掌握主题的广度,比较方法,并根据特定用例所需的特征选择正确的XAI方法语境。在文献中,可以找到许多不同细节水平和深度水平的XAI方法分类。虽然他们经常具有不同的焦点,但它们也表现出许多重叠点。本文统一了这些努力,并提供了XAI方法的分类,这是关于目前研究中存在的概念的概念。在结构化文献分析和元研究中,我们识别并审查了XAI方法,指标和方法特征的50多个最引用和最新的调查。总结在调查调查中,我们将文章的术语和概念合并为统一的结构化分类。其中的单一概念总计超过50个不同的选择示例方法,我们相应地分类。分类学可以为初学者,研究人员和从业者提供服务作为XAI方法特征和方面的参考和广泛概述。因此,它提供了针对有针对性的,用例导向的基础和上下文敏感的未来研究。
translated by 谷歌翻译
机器学习算法可以在当代智能系统中进行高级决策。研究表明,它们的模型性能与解释性之间存在权衡。具有较高性能的机器学习模型通常基于更复杂的算法,因此缺乏解释性,反之亦然。但是,从最终用户的角度来看,这种权衡几乎没有经验证据。我们旨在通过进行两个用户实验来提供经验证据。使用两个不同的数据集,我们首先测量五种常见的机器学习算法的权衡。其次,我们解决了最终用户对可解释的人工智能增强的看法的问题,旨在增加对高性能复杂模型的决策逻辑的理解。我们的结果与权衡曲线的广泛假设有所不同,并表明模型性能和解释性之间的权衡在最终用户的感知中逐渐少得多。这与假定的固有模型可解释性形成鲜明对比。此外,我们发现折衷是由于数据复杂性而成为情境。我们的第二次实验的结果表明,尽管可以使用可解释的人工智能增强来提高解释性,但解释的类型在最终用户感知中起着至关重要的作用。
translated by 谷歌翻译
人工智能(AI)使机器能够从人类经验中学习,适应新的输入,并执行人类的人类任务。 AI正在迅速发展,从过程自动化到认知增强任务和智能流程/数据分析的方式转换业务方式。然而,人类用户的主要挑战是理解和适当地信任AI算法和方法的结果。在本文中,为了解决这一挑战,我们研究并分析了最近在解释的人工智能(XAI)方法和工具中所做的最新工作。我们介绍了一种新颖的XAI进程,便于生产可解释的模型,同时保持高水平的学习性能。我们提出了一种基于互动的证据方法,以帮助人类用户理解和信任启用AI的算法创建的结果和输出。我们在银行域中采用典型方案进行分析客户交易。我们开发数字仪表板以促进与算法的互动结果,并讨论如何提出的XAI方法如何显着提高数据科学家对理解启用AI的算法结果的置信度。
translated by 谷歌翻译
自2015年首次介绍以来,深入增强学习(DRL)方案的使用已大大增加。尽管在许多不同的应用中使用了使用,但他们仍然存在缺乏可解释性的问题。面包缺乏对研究人员和公众使用DRL解决方案的使用。为了解决这个问题,已经出现了可解释的人工智能(XAI)领域。这是各种不同的方法,它们希望打开DRL黑框,范围从使用可解释的符号决策树到诸如Shapley值之类的数值方法。这篇评论研究了使用哪些方法以及使用了哪些应用程序。这样做是为了确定哪些模型最适合每个应用程序,或者是否未充分利用方法。
translated by 谷歌翻译
与经典的统计学习方法相比,机器和深度学习生存模型表现出相似甚至改进事件的预测能力,但太复杂了,无法被人类解释。有几种模型不合时宜的解释可以克服这个问题。但是,没有一个直接解释生存函数预测。在本文中,我们介绍了Survhap(t),这是第一个允许解释生存黑盒模型的解释。它基于Shapley添加性解释,其理论基础稳定,并在机器学习从业人员中广泛采用。拟议的方法旨在增强精确诊断和支持领域的专家做出决策。关于合成和医学数据的实验证实,survhap(t)可以检测具有时间依赖性效果的变量,并且其聚集是对变量对预测的重要性的决定因素,而不是存活。 survhap(t)是模型不可屈服的,可以应用于具有功能输出的所有型号。我们在http://github.com/mi2datalab/survshap中提供了python中时间相关解释的可访问实现。
translated by 谷歌翻译
越来越多的研究进行了人类主题评估,以研究为用户提供机器学习模型的解释是否可以帮助他们制定实际现实世界中的用例。但是,运行的用户研究具有挑战性且昂贵,因此每个研究通常只评估有限的不同设置,例如,研究通常只评估一些任意选择的解释方法。为了应对这些挑战和援助用户研究设计,我们介绍了用用例的模拟评估(Simevals)。 SIMEVALS涉及培训算法剂,以输入信息内容(例如模型解释),这些信息内容将在人类学科研究中提交给每个参与者,以预测感兴趣的用例的答案。算法代理的测试集精度提供了衡量下游用例信息内容的预测性。我们对三种现实世界用例(正向模拟,模型调试和反事实推理)进行全面评估,以证明Simevals可以有效地确定哪种解释方法将为每个用例提供帮助。这些结果提供了证据表明,Simevals可用于有效筛选一组重要的用户研究设计决策,例如在进行潜在昂贵的用户研究之前,选择应向用户提供哪些解释。
translated by 谷歌翻译
为了提高模型透明度并允许用户形成训练有素的ML模型的心理模型,解释对AI和机器学习(ML)社区的兴趣越来越高。但是,解释可以超越这种方式通信作为引起用户控制的机制,因为一旦用户理解,他们就可以提供反馈。本文的目的是介绍研究概述,其中解释与交互式功能相结合,是从头开始学习新模型并编辑和调试现有模型的手段。为此,我们绘制了最先进的概念图,根据其预期目的以及它们如何构建相互作用,突出它们之间的相似性和差异来分组相关方法。我们还讨论开放研究问题并概述可能的方向,希望促使人们对这个开花研究主题进行进一步的研究。
translated by 谷歌翻译
机器学习的进步(ML)引起了人们对这项技术支持决策的浓厚兴趣。尽管复杂的ML模型提供的预测通常比传统工具的预测更准确,但这种模型通常隐藏了用户预测背后的推理,这可能导致采用和缺乏洞察力。在这种张力的激励下,研究提出了可解释的人工智能(XAI)技术,这些技术发现了ML发现的模式。尽管ML和XAI都有很高的希望,但几乎没有经验证据表明传统企业的好处。为此,我们分析了220,185家能源零售商的客户的数据,预测具有多达86%正确性的交叉购买(AUC),并表明XAI方法的Shap提供了为实际买家提供的解释。我们进一步概述了信息系统,XAI和关系营销中的研究的影响。
translated by 谷歌翻译