诊断出红斑的偏头膜(EM)皮肤病变,使用深度学习技术的莱姆病最常见的早期症状可以有效预防长期并发症。现有的基于深度学习的EM识别的作品仅由于缺乏与相关患者数据相关的莱姆病相关图像的数据集,因此仅利用病变图像。医师依靠患者有关皮肤病变背景的信息来确认其诊断。为了协助深度学习模型,根据患者数据计算出的概率分数,这项研究引起了15位医生的意见。对于启发过程,准备了一份与EM相关的问题和可能的答案的问卷。医生为问题的不同答案提供了相对权重。我们使用基于高斯混合物的密度估计将医生评估转换为概率得分。为了引起概率模型验证,我们利用了形式的概念分析和决策树。引起的概率得分可用于使基于图像的深度学习莱姆病预扫描剂稳健。
translated by 谷歌翻译
本文介绍了一种使用旨在解决现实世界应用中CDSS的低适用性和可扩展性问题的数据驱动的预测模型来构建一致和适用的临床决策支持系统(CDSS)的方法。该方法基于域特定和数据驱动的支持程序的三种特定于域和数据驱动的支持程序,该程序将被纳入临床业务流程,具有更高的信任和预测结果和建议的解释性。在考虑的三个阶段,监管策略,数据驱动模式和解释程序被集成,以实现与决策者的自然域特定的互动,具有智能决策支持焦点的连续缩小。该提出的方法能够实现更高水平的自动化,可扩展性和CDSS的语义解释性。该方法是在软件解决方案中实现的,并在T2DM预测中进行了测试,使我们能够改善已知的临床尺度(例如FindRisk),同时保持与现有应用程序类似的特定问题的推理界面。这种继承与三分阶段的方法一起提供了更高的解决方案兼容性,并导致数据驱动的解决方案在现实案件中的信任,有效和解释应用。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
高斯混合物模型(GMM)提供了一个简单而原则的框架,具有适用于统计推断的属性。在本文中,我们提出了一种新的基于模型的聚类算法,称为EGMM(证据GMM),在信念函数的理论框架中,以更好地表征集群成员的不确定性。通过代表每个对象的群集成员的质量函数,提出了由所需群集的功率组组成的组件组成的证据高斯混合物分布来对整个数据集进行建模。 EGMM中的参数通过特殊设计的预期最大化(EM)算法估算。还提供了允许自动确定正确数量簇的有效性指数。所提出的EGMM与经典GMM一样简单,但可以为所考虑的数据集生成更有信息的证据分区。合成和真实数据集实验表明,所提出的EGMM的性能比其他代表性聚类算法更好。此外,通过应用多模式脑图像分割的应用也证明了其优势。
translated by 谷歌翻译
装袋和升压是在机器学习(ml)中的两个流行的集合方法,产生许多单独的决策树。由于这些方法的固有组合特性,它们通常以预测性能更优于单决定树或其他ML模型。然而,为每个决策树生成许多决定路径,增加了模型的整体复杂性,并阻碍了其在需要值得信赖和可解释的决策的域中的域,例如金融,社会护理和保健。因此,随着决策的数量升高,袋装和升降算法(例如随机森林和自适应升压)的解释性降低。在本文中,我们提出了一种视觉分析工具,该工具旨在帮助用户通过彻底的视觉检查工作流程从这种ML模型中提取决策,包括选择一套鲁棒和不同的模型(源自不同的集合学习算法),选择重要的功能根据他们的全球贡献,决定哪些决定对于全球解释(或本地,具体案件)是必不可少的。结果是基于多个模型的协议和用户出口的探索手动决策的最终决定。最后,我们通过用例,使用场景和用户学习评估患者的适用性和有效性。
translated by 谷歌翻译
本报告探讨了机器学习技术在短时间内基因表达数据中的应用。虽然标准机器学习算法在更长的时间系列中工作良好,但它们通常无法从更少的时间点中找到有意义的见解。在本报告中,我们探索基于模型的群集技术。我们将流行无监督的学习技术相结合,如K-means,高斯混合模型,贝叶斯网络,隐藏的马尔可夫模型,具有众所周知的期望最大化算法。K-means和高斯混合模型是相当标准的,而隐藏的马尔可夫模型和贝叶斯网络聚类是更加新颖的想法,适合时间序列基因表达数据。
translated by 谷歌翻译
在医疗保健系统中,需要患者使用可穿戴设备进行远程数据收集和对健康数据的实时监控以及健康状况的状态。可穿戴设备的这种采用导致收集和传输的数据量显着增加。由于设备由较小的电池电源运行,因此由于设备的高处理要求以进行数据收集和传输,因此可以快速减少它们。鉴于医疗数据的重要性,必须所有传输数据遵守严格的完整性和可用性要求。减少医疗保健数据的量和传输频率将通过使用推理算法改善设备电池寿命。有一个以准确性和效率改善传输指标的问题,彼此之间的权衡,例如提高准确性会降低效率。本文表明,机器学习可用于分析复杂的健康数据指标,例如数据传输的准确性和效率,以使用Levenberg-Marquardt算法来克服权衡问题,从而增强这两个指标,从而通过少较少的样本来传输,同时保持维护准确性。使用标准心率数据集测试该算法以比较指标。结果表明,LMA最好以3.33倍的效率进行样本数据尺寸和79.17%的精度,在7种不同的采样案例中具有相似的准确性,用于测试,但表明效率提高。与具有高效率的现有方法相比,这些提出的方法使用机器学习可以显着改善两个指标,而无需牺牲其他指标。
translated by 谷歌翻译
对于使用高性能机器学习算法通常不透明的决策,人们越来越担心。用特定于领域的术语对推理过程的解释对于在医疗保健等风险敏感领域中采用至关重要。我们认为,机器学习算法应该可以通过设计来解释,并且表达这些解释的语言应与域和任务有关。因此,我们将模型的预测基于数据的用户定义和特定于任务的二进制函数,每个都对最终用户有明确的解释。然后,我们最大程度地减少了在任何给定输入上准确预测所需的预期查询数。由于解决方案通常是棘手的,因此在事先工作之后,我们根据信息增益顺序选择查询。但是,与以前的工作相反,我们不必假设查询在有条件地独立。取而代之的是,我们利用随机生成模型(VAE)和MCMC算法(未经调整的Langevin)来选择基于先前的查询 - 答案的输入的最有用的查询。这使得在线确定要解决预测歧义所需的任何深度的查询链。最后,关于视觉和NLP任务的实验证明了我们的方法的功效及其优越性比事后解释的优势。
translated by 谷歌翻译
In the last years many accurate decision support systems have been constructed as black boxes, that is as systems that hide their internal logic to the user. This lack of explanation constitutes both a practical and an ethical issue. The literature reports many approaches aimed at overcoming this crucial weakness sometimes at the cost of scarifying accuracy for interpretability. The applications in which black box decision systems can be used are various, and each approach is typically developed to provide a solution for a specific problem and, as a consequence, delineating explicitly or implicitly its own definition of interpretability and explanation. The aim of this paper is to provide a classification of the main problems addressed in the literature with respect to the notion of explanation and the type of black box system. Given a problem definition, a black box type, and a desired explanation this survey should help the researcher to find the proposals more useful for his own work. The proposed classification of approaches to open black box models should also be useful for putting the many research open questions in perspective.
translated by 谷歌翻译
在整个大学附近,教师必须在每个学期中选择一些合格的教授参加尊敬的课程。从这个意义上讲,考虑了教学经验,学术培训,竞争等的因素。这项工作通常是由专家(例如教师董事)完成的。到目前为止,已经提出了几个半自动系统来协助头部。在本文中,开发了一个全自动规则的专家系统。拟议的专家系统包括三个主要阶段。首先,将人类专家的知识输入并设计为决策树。在第二步中,根据生成的决策树的提供规则设计了专家系统。在第三步中,提出了一种算法,以根据专家的质量来加重树的结果。为了提高专家系统的性能,开发了大多数投票算法作为后期制作的步骤,以选择满足每门课程最专业决策树的合格培训师。使用伊朗大学的真实数据评估拟议的专家系统的质量。计算出的准确率为85.55,证明了所提出的系统的鲁棒性和准确性。与相关的有效工作相比,所提出的系统几乎没有计算复杂性。此外,简单的实现和透明框是提出系统的其他功能。
translated by 谷歌翻译
许多政府举措(例如欧盟的GDPR)正在得出结论,即现代软件系统的越来越复杂程度必须与对这些工具的影响评估的一些权利和指标形成鲜明对比,使人们能够理解和监督产出自动化决策系统。可解释的ai诞生于允许人类探索和理解复杂系统的内部工作的途径。但是,建立什么是解释和客观地评估可解释性,不是琐碎的任务。通过本文,我们提出了一种新的模型 - 不可知性的指标,以测量以客观方式测量(正确)信息的解释程度,利用普通语言哲学的特定理论模型,称为ACHINSTEIN的解释理论,通过依赖于算法实现知识图提取和信息检索的深语模型。为了了解这种度量是否实际表现为可解释性,我们已经设计了一些实验和用户研究,涉及超过160名参与者评估了使用包括人工神经网络的着名AI技术的医疗保健和金融的基于医疗保健和金融的基于医疗保健系统和treeshap。我们获得的结果非常令人鼓舞,这表明我们拟议的测量可解释程度的指标对若干情景是强大的,并且最终可以利用自动决策系统的合法影响评估。
translated by 谷歌翻译
异常检测领域中的大多数建议仅集中在检测阶段,特别是在最近的深度学习方法上。在提供高度准确的预测的同时,这些模型通常缺乏透明度,充当“黑匣子”。这种批评已经越来越多,即解释在可接受性和可靠性方面被认为非常相关。在本文中,我们通过检查ADMNC(混合数值和分类空间的异常检测)模型来解决此问题,这是一种现有的非常准确的,尽管不透明的异常检测器能够使用数值和分类输入进行操作。这项工作介绍了扩展EADMNC(在混合数值和分类空间上可解释的异常检测),这为原始模型获得的预测提供了解释性。通过Apache Spark Framework,我们保留了原始方法的可伸缩性。 EADMNC利用了先前的ADMNC模型的配方,以提供事前和事后解释性,同时保持原始体系结构的准确性。我们提出了一个事前模型,该模型在全球范围内通过将输入数据分割为均质组,仅使用少数变量来解释输出。我们设计了基于回归树的图形表示,主管可以检查以了解正常数据和异常数据之间的差异。我们的事后解释由基于文本的模板方法组成,该方法在本地提供了支持每个检测的文本参数。我们报告了广泛的现实数据,特别是在网络入侵检测领域的实验结果。使用网络入侵域中的专家知识来评估解释的有用性。
translated by 谷歌翻译
Originally, tangles were invented as an abstract tool in mathematical graph theory to prove the famous graph minor theorem. In this paper, we showcase the practical potential of tangles in machine learning applications. Given a collection of cuts of any dataset, tangles aggregate these cuts to point in the direction of a dense structure. As a result, a cluster is softly characterized by a set of consistent pointers. This highly flexible approach can solve clustering problems in various setups, ranging from questionnaires over community detection in graphs to clustering points in metric spaces. The output of our proposed framework is hierarchical and induces the notion of a soft dendrogram, which can help explore the cluster structure of a dataset. The computational complexity of aggregating the cuts is linear in the number of data points. Thus the bottleneck of the tangle approach is to generate the cuts, for which simple and fast algorithms form a sufficient basis. In our paper we construct the algorithmic framework for clustering with tangles, prove theoretical guarantees in various settings, and provide extensive simulations and use cases. Python code is available on github.
translated by 谷歌翻译
通过生物手段自动验证一个人的身份是在每天的日常活动,如在机场访问银行服务和安全控制的一个重要应用。为了提高系统的可靠性,通常使用几个生物识别设备。这种组合系统被称为多模式生物测定系统。本文报道生物安全DS2(访问控制)评估由英国萨里大学举办的活动,包括面部,指纹和虹膜的个人认证生物特征的框架内进行基准研究,在媒体针对物理访问控制中的应用-size建立一些500人。虽然多峰生物测定是公调查对象,不存在基准融合算法的比较。朝着这个目标努力,我们设计了两组实验:质量依赖性和成本敏感的评估。质量依赖性评价旨在评估融合算法如何可以在变化的原始图像的质量主要是由于设备的变化来执行。在对成本敏感的评价,另一方面,研究了一种融合算法可以如何执行给定的受限的计算和在软件和硬件故障的存在,从而导致错误,例如失败到获取和失败到匹配。由于多个捕捉设备可用,融合算法应该能够处理这种非理想但仍然真实的场景。在这两种评价中,各融合算法被提供有从每个生物统计比较子系统以及两个模板和查询数据的质量度量得分。在活动的号召的响应证明是非常令人鼓舞的,与提交22个融合系统。据我们所知,这是第一次尝试基准品质为基础多模态融合算法。
translated by 谷歌翻译
在许多情况下,基于一些高级概念来解释人为的决定。在这项工作中,我们通过检查其内部代表或神经元对概念的激活来迈出神经网络的可解释性。一个概念的特征在于一组具有共同特征的样本。我们提出了一个框架来检查概念(或其否定)和任务类之间存在因果关系的存在。虽然以前的方法专注于概念对任务类的重要性,但我们进一步进一步介绍了四项措施来定量地确定因果关系的顺序。此外,我们提出了一种以基于概念的决策树的形式构建一种概念的层次结构,其可以阐明各种概念如何在神经网络内交互朝向预测输出类。通过实验,我们展示了提出方法在解释神经网络的概念与预测行为之间的因果关系中的有效性以及通过构建概念层次结构来确定不同概念之间的相互作用。
translated by 谷歌翻译
我们介绍了一种解释各种线性和分层多标准决策(MCDM)技术(例如WSM和AHP)的结果。这两个关键思想是(a)维持这些技术操纵的值的细粒度表示,以及(b)通过合并,过滤和汇总操作从这些表示形式中得出解释。我们模型中的一个解释对MCDM问题中的两种替代方案进行了高级比较,大概是一个最佳和非最佳选择,这阐明了为什么一种选择比另一个选择更优于另一个替代方案。我们通过为MCDM文献中的两个众所周知的示例生成解释来展示我们的技术的有用性。最后,我们通过执行计算实验来显示它们的功效。
translated by 谷歌翻译
研究表明,心血管疾病(CVD)对人类健康是恶性的研究。因此,重要的是具有有效的CVD预后方法。为此,医疗保健行业采用了基于机器学习的智能解决方案,以减轻CVD预后的手动过程。因此,这项工作提出了一种信息融合技术,该技术通过分析方差(ANOVA)和域专家的知识结合了人的关键属性。它还引入了新的CVD数据样本集,用于新兴研究。进行了三十八个实验,以验证四个公开可用基准数据集中提出的框架的性能以及在这项工作中新创建的数据集。消融研究表明,所提出的方法可以达到竞争平均平均准确性(MAA)为99.2%,平均AUC平均AUC为97.9%。
translated by 谷歌翻译
Precision Medicine根据患者的特征为患者提供定制的治疗方法,是提高治疗效率的一种有希望的方法。大规模的OMICS数据对于患者表征很有用,但是它们的测量经常会随着时间而变化,从而导致纵向数据。随机森林是用于构建预测模型的最先进的机器学习方法之一,并且可以在精密医学中发挥关键作用。在本文中,我们回顾了标准随机森林方法的扩展,以进行纵向数据分析。扩展方法根据其设计的数据结构进行分类。我们考虑单变量和多变量响应,并根据时间效应是否相关,进一步对重复测量进行分类。还提供了审查扩展程序的可用软件实现信息。最后,我们讨论了我们审查的局限性和一些未来的研究指示。
translated by 谷歌翻译
The technology for building knowledge-based systems by inductive inference from examples has been demonstrated successfully in several practical applications. This paper summarizes an approach to synthesizing decision trees that has been used in a variety of systems, and it describes one such system, ID3, in detail. Results from recent studies show ways in which the methodology can be modified to deal with information that is noisy and/or incomplete. A reported shortcoming of the basic algorithm is discussed and two means of overcoming it are compared. The paper concludes with illustrations of current research directions.
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译