基于人工智能和机器学习算法的数据驱动的预测模型的解释性技术使我们能够更好地了解此类系统的运行,并有助于使它们负责。新的透明度方法以惊人的速度开发,使我们能够在这些黑匣子内窥视并解释他们的决策。这些技术中的许多被引入了整体工具,给人以有限的可自定义性的一定程度和端到端算法的印象。然而,这种方法通常由多个可互换的模块组成,这些模块需要调整到手头的问题以产生有意义的解释。本文介绍了动手培训材料的集合 - 幻灯片,视频录制和jupyter笔记本 - 通过构建和评估定制的模块化替代解释器的过程为表格数据提供指导。这些资源涵盖了该技术的三个核心构建基础:可解释的表示组成,数据采样和解释生成。
translated by 谷歌翻译
预测系统,特别是机器学习算法,可以对我们的日常生活做出重要的,有时甚至具有法律约束力的决定。但是,在大多数情况下,这些系统和决策既没有受到监管也不经过认证。鉴于这些算法可能造成的潜在伤害,因此公平,问责制和透明度(FAT)等质量至关重要。为了确保高质量,公平,透明和可靠的预测系统,我们开发了一个名为Fat Forensics的开源Python软件包。它可以检查预测算法的重要公平,问责制和透明度方面,以自动并客观地将其报告给此类系统的工程师和用户。我们的工具箱可以评估预测管道的所有元素:数据(及其功能),模型和预测。根据BSD 3范围的开源许可发布,Fat Forensics供个人和商业用法开放。
translated by 谷歌翻译
约翰·威利(John Wiley)于1994年首次出版了彼得·弗拉奇(Peter Flach系统)。 2007年,版权恢复了作者,此时本书和节目在网上免费提供。印刷版不再通过John Wiley Publishers分发。在2015年,作为一名飞行员,我们使用Swi-Prolog的Swish平台将大部分原始书籍移植到了在线交互式网站中。从那时起,我们启动了简单的逻辑开源组织,致力于维护与Prolog有关人工智能和逻辑编程的一系列免费可用的交互式在线教育资源。随着新的教育技术的出现,我们启发了使用Jupyter Book Platform从头开始重建这本书,并通过一系列定制插件来增强,该插件的集合,除其他外,还可以直接在一个可以直接在一个中执行的交互式SWI-Prolog代码块网页浏览器。此新版本更具模块化,更易于维护,并且可以分为自定义的教学模块,除了具有现代外观,视觉上吸引人,并且与一系列不同屏幕尺寸的(移动)设备兼容。
translated by 谷歌翻译
可解释的人工智能和可解释的机器学习是重要性越来越重要的研究领域。然而,潜在的概念仍然难以捉摸,并且缺乏普遍商定的定义。虽然社会科学最近的灵感已经重新分为人类受助人的需求和期望的工作,但该领域仍然错过了具体的概念化。通过审查人类解释性的哲学和社会基础,我们采取措施来解决这一挑战,然后我们转化为技术领域。特别是,我们仔细审查了算法黑匣子的概念,并通过解释过程确定的理解频谱并扩展了背景知识。这种方法允许我们将可解释性(逻辑)推理定义为在某些背景知识下解释的透明洞察(进入黑匣子)的解释 - 这是一个从事在Admoleis中理解的过程。然后,我们采用这种概念化来重新审视透明度和预测权力之间的争议权差异,以及对安特 - 人穴和后宫后解释者的影响,以及可解释性发挥的公平和问责制。我们还讨论机器学习工作流程的组件,可能需要可解释性,从以人为本的可解释性建立一系列思想,重点介绍声明,对比陈述和解释过程。我们的讨论调整并补充目前的研究,以帮助更好地导航开放问题 - 而不是试图解决任何个人问题 - 从而为实现的地面讨论和解释的人工智能和可解释的机器学习的未来进展奠定了坚实的基础。我们结束了我们的研究结果,重新审视了实现所需的算法透明度水平所需的人以人为本的解释过程。
translated by 谷歌翻译
本文介绍了分类器校准原理和实践的简介和详细概述。校准的分类器正确地量化了与其实例明智的预测相关的不确定性或信心水平。这对于关键应用,最佳决策,成本敏感的分类以及某些类型的上下文变化至关重要。校准研究具有丰富的历史,其中几十年来预测机器学习作为学术领域的诞生。然而,校准兴趣的最近增加导致了新的方法和从二进制到多种子体设置的扩展。需要考虑的选项和问题的空间很大,并导航它需要正确的概念和工具集。我们提供了主要概念和方法的介绍性材料和最新的技术细节,包括适当的评分规则和其他评估指标,可视化方法,全面陈述二进制和多字数分类的HOC校准方法,以及几个先进的话题。
translated by 谷歌翻译
识别不确定性和减轻行动对于安全可靠的强化学习代理至关重要,特别是在高风险环境中部署时。在本文中,通过利用动态模型的引导集合来估计环境认知不确定性的基于模型的增强学习算法,在基于模型的增强学习算法中促进了风险敏感性。我们提出了不确定的引导跨熵方法规划,该方法规划,其惩罚导致在模型卷展栏期间产生高方差状态预测的动作序列,将代理引导到具有低不确定性的状态空间的已知区域。实验显示了代理在规划期间识别状态空间的不确定区域,并采取维持代理在高置信区内的行动,而无需明确限制。结果是在获得奖励方面的性能下降,表现出风险与返回之间的权衡。
translated by 谷歌翻译
如今,由机器学习算法驱动的人工智能系统可以对我们的日常生活做出重要的,有时甚至具有法律约束力的决定。但是,在许多情况下,这些系统及其行动既不受到监管也不经过认证。为了应对这种算法可能导致的潜在危害,我们开发了一个开源工具箱,该工具箱可以分析机器学习过程的选定公平性,问责制和透明性方面:数据(及其功能),模型和预测,允许自动和客观地报告他们与相关的利益相关者。在本文中,我们描述了此Python软件包的设计,范围,用法和影响,该软件包于第3条规定BSD开源许可下发布。
translated by 谷歌翻译
Supervised Question Answering systems (QA systems) rely on domain-specific human-labeled data for training. Unsupervised QA systems generate their own question-answer training pairs, typically using secondary knowledge sources to achieve this outcome. Our approach (called PIE-QG) uses Open Information Extraction (OpenIE) to generate synthetic training questions from paraphrased passages and uses the question-answer pairs as training data for a language model for a state-of-the-art QA system based on BERT. Triples in the form of <subject, predicate, object> are extracted from each passage, and questions are formed with subjects (or objects) and predicates while objects (or subjects) are considered as answers. Experimenting on five extractive QA datasets demonstrates that our technique achieves on-par performance with existing state-of-the-art QA systems with the benefit of being trained on an order of magnitude fewer documents and without any recourse to external reference data sources.
translated by 谷歌翻译
This paper presents a machine learning approach to multidimensional item response theory (MIRT), a class of latent factor models that can be used to model and predict student performance from observed assessment data. Inspired by collaborative filtering, we define a general class of models that includes many MIRT models. We discuss the use of penalized joint maximum likelihood (JML) to estimate individual models and cross-validation to select the best performing model. This model evaluation process can be optimized using batching techniques, such that even sparse large-scale data can be analyzed efficiently. We illustrate our approach with simulated and real data, including an example from a massive open online course (MOOC). The high-dimensional model fit to this large and sparse dataset does not lend itself well to traditional methods of factor interpretation. By analogy to recommender-system applications, we propose an alternative "validation" of the factor model, using auxiliary information about the popularity of items consulted during an open-book exam in the course.
translated by 谷歌翻译
We introduce Argoverse 2 (AV2) - a collection of three datasets for perception and forecasting research in the self-driving domain. The annotated Sensor Dataset contains 1,000 sequences of multimodal data, encompassing high-resolution imagery from seven ring cameras, and two stereo cameras in addition to lidar point clouds, and 6-DOF map-aligned pose. Sequences contain 3D cuboid annotations for 26 object categories, all of which are sufficiently-sampled to support training and evaluation of 3D perception models. The Lidar Dataset contains 20,000 sequences of unlabeled lidar point clouds and map-aligned pose. This dataset is the largest ever collection of lidar sensor data and supports self-supervised learning and the emerging task of point cloud forecasting. Finally, the Motion Forecasting Dataset contains 250,000 scenarios mined for interesting and challenging interactions between the autonomous vehicle and other actors in each local scene. Models are tasked with the prediction of future motion for "scored actors" in each scenario and are provided with track histories that capture object location, heading, velocity, and category. In all three datasets, each scenario contains its own HD Map with 3D lane and crosswalk geometry - sourced from data captured in six distinct cities. We believe these datasets will support new and existing machine learning research problems in ways that existing datasets do not. All datasets are released under the CC BY-NC-SA 4.0 license.
translated by 谷歌翻译