机器预测算法(例如,二进制分类器)通常是基于使用经典指标(例如敏感性和预测价值)所声称的性能来采用的。但是,分类器的性能在很大程度上取决于分类器在其中运行的上下文(工作流)。除非达到某些隐式假设,否则经典指标不能反映预测变量的实用性,并且在许多常见的临床情况下无法实现这些假设。这通常会导致次优的实现,并在没有实现预期结果时感到失望。当可以对同一事件做出多个预测时,出现经典指标的一种常见故障模式,尤其是当冗余的真实积极预测几乎没有额外的价值时。这描述了许多临床警报系统。我们解释了为什么经典指标无法在这种情况下正确地表示预测指标的性能,并使用实用程序功能引入改进的性能评估技术,以根据其在特定工作流程中的效用进行预测。由此产生的公用事业指标(U-Metrics)明确解释了时间关系对预测实用程序的影响。与传统措施相比,U-Metrics更准确地反映了在现场临床背景下运行的预测因子的现实成本和收益。改进可能很重要。我们还描述了一种正式的打sn饮方法,这是一种缓解策略,其中一些预测被抑制以通过在保留事件捕获的同时降低假阳性来改善预测性绩效。 Snoozing对于产生干扰性警报的预测因素特别有用。 U-Metrics正确测量并预测了Snooing的性能优势,而传统指标则没有。
translated by 谷歌翻译
尽管自动图像分析的重要性不断增加,但最近的元研究揭示了有关算法验证的主要缺陷。性能指标对于使用的自动算法的有意义,客观和透明的性能评估和验证尤其是关键,但是在使用特定的指标进行给定的图像分析任务时,对实际陷阱的关注相对较少。这些通常与(1)无视固有的度量属性,例如在存在类不平衡或小目标结构的情况下的行为,(2)无视固有的数据集属性,例如测试的非独立性案例和(3)无视指标应反映的实际生物医学领域的兴趣。该动态文档的目的是说明图像分析领域通常应用的性能指标的重要局限性。在这种情况下,它重点介绍了可以用作图像级分类,语义分割,实例分割或对象检测任务的生物医学图像分析问题。当前版本是基于由全球60多家机构的国际图像分析专家进行的关于指标的Delphi流程。
translated by 谷歌翻译
台湾对全球碎片流的敏感性和死亡人数最高。台湾现有的碎屑流警告系统,该系统使用降雨量的时间加权度量,当该措施超过预定义的阈值时,会导致警报。但是,该系统会产生许多错误的警报,并错过了实际碎屑流的很大一部分。为了改善该系统,我们实施了五个机器学习模型,以输入历史降雨数据并预测是否会在选定的时间内发生碎屑流。我们发现,随机的森林模型在五个模型中表现最好,并优于台湾现有系统。此外,我们确定了与碎屑流的发生密切相关的降雨轨迹,并探索了缺失碎屑流的风险与频繁的虚假警报之间的权衡。这些结果表明,仅在小时降雨数据中训练的机器学习模型的潜力可以挽救生命,同时减少虚假警报。
translated by 谷歌翻译
Receiver operating characteristics (ROC) graphs are useful for organizing classifiers and visualizing their performance. ROC graphs are commonly used in medical decision making, and in recent years have been used increasingly in machine learning and data mining research. Although ROC graphs are apparently simple, there are some common misconceptions and pitfalls when using them in practice. The purpose of this article is to serve as an introduction to ROC graphs and as a guide for using them in research.
translated by 谷歌翻译
Teaser: How seemingly trivial experiment design choices to simplify the evaluation of human-ML systems can yield misleading results.
translated by 谷歌翻译
自动生物医学图像分析的领域至关重要地取决于算法验证的可靠和有意义的性能指标。但是,当前的度量使用通常是不明智的,并且不能反映基本的域名。在这里,我们提出了一个全面的框架,该框架指导研究人员以问题意识的方式选择绩效指标。具体而言,我们专注于生物医学图像分析问题,这些问题可以解释为图像,对象或像素级别的分类任务。该框架首先编译域兴趣 - 目标结构 - ,数据集和算法与输出问题相关的属性的属性与问题指纹相关,同时还将其映射到适当的问题类别,即图像级分类,语义分段,实例,实例细分或对象检测。然后,它指导用户选择和应用一组适当的验证指标的过程,同时使他们意识到与个人选择相关的潜在陷阱。在本文中,我们描述了指标重新加载推荐框架的当前状态,目的是从图像分析社区获得建设性的反馈。当前版本是在由60多个图像分析专家的国际联盟中开发的,将在社区驱动的优化之后公开作为用户友好的工具包提供。
translated by 谷歌翻译
Objectives: Discussions of fairness in criminal justice risk assessments typically lack conceptual precision. Rhetoric too often substitutes for careful analysis. In this paper, we seek to clarify the tradeoffs between different kinds of fairness and between fairness and accuracy.Methods: We draw on the existing literatures in criminology, computer science and statistics to provide an integrated examination of fairness and accuracy in criminal justice risk assessments. We also provide an empirical illustration using data from arraignments.Results: We show that there are at least six kinds of fairness, some of which are incompatible with one another and with accuracy.Conclusions: Except in trivial cases, it is impossible to maximize accuracy and fairness at the same time, and impossible simultaneously to satisfy all kinds of fairness. In practice, a major complication is different base rates across different legally protected groups. There is a need to consider challenging tradeoffs.
translated by 谷歌翻译
公平性是确保机器学习(ML)预测系统不会歧视特定个人或整个子人群(尤其是少数族裔)的重要要求。鉴于观察公平概念的固有主观性,文献中已经引入了几种公平概念。本文是一项调查,说明了通过大量示例和场景之间的公平概念之间的微妙之处。此外,与文献中的其他调查不同,它解决了以下问题:哪种公平概念最适合给定的现实世界情景,为什么?我们试图回答这个问题的尝试包括(1)确定手头现实世界情景的一组与公平相关的特征,(2)分析每个公平概念的行为,然后(3)适合这两个元素以推荐每个特定设置中最合适的公平概念。结果总结在决策图中可以由从业者和政策制定者使用,以导航相对较大的ML目录。
translated by 谷歌翻译
通过比较算法性能,公共攀爬的攀岩可以大大加速ML研究。但是,它需要与任务相关的指标。对于涉及寄生虫负荷的疾病,例如疟疾和被忽视的热带疾病(NTDS),例如血吸虫病,目前在ML论文中报道的指标(例如AUC,F1分数)不适合临床任务。结果,爬山系统并没有使解决这些严重疾病的解决方案取得进展。本文借鉴了疟疾和NTD的示例,在当前的ML实践中强调了两个差距,并提出了改进的方法:(i)我们描述了ML开发的方面,尤其是性能指标,需要将其牢固地基于临床用途案例。 ,我们提供获取此领域知识的方法。 (ii)我们详细描述了绩效指标,以指导涉及寄生虫负荷的疾病的ML模型的开发。我们强调了患者级别的观点,室内变异性,假阳性率,检测限制和不同类型的错误的重要性。我们还讨论了在这种情况下常用的ROC曲线和AUC的问题。
translated by 谷歌翻译
根据研究人员在歧视和校准性能方面采用的标准评估实践,这项工作旨在了解阶级不平衡对胸部X射线分类器的性能的影响。首先,我们进行了一项文献研究,分析了普通科学实践并确认:(1)即使在处理高度不平衡的数据集时,社区也倾向于使用由大多数阶级主导的指标; (2)包括包括胸部X射线分类器的校准研究仍然罕见,尽管其在医疗保健的背景下的重要性。其次,我们对两个主要胸部X射线数据集进行了系统实验,探讨了不同类别比率下的几种性能指标的行为,并显示了广泛采用的指标可以隐藏少数阶级中的性能。最后,我们提出了通过两个替代度量,精密召回曲线和平衡的Brier得分,这更好地反映了系统在这种情况下的性能。我们的研究结果表明,胸部X射线分类器研究界采用的当前评估实践可能无法反映真实临床情景中计算机辅助诊断系统的性能,并建议改善这种情况的替代方案。
translated by 谷歌翻译
作为一种预测模型的评分系统具有可解释性和透明度的显着优势,并有助于快速决策。因此,评分系统已广泛用于各种行业,如医疗保健和刑事司法。然而,这些模型中的公平问题长期以来一直受到批评,并且使用大数据和机器学习算法在评分系统的构建中提高了这个问题。在本文中,我们提出了一般框架来创建公平知识,数据驱动评分系统。首先,我们开发一个社会福利功能,融入了效率和群体公平。然后,我们将社会福利最大化问题转换为机器学习中的风险最小化任务,并在混合整数编程的帮助下导出了公平感知评分系统。最后,导出了几种理论界限用于提供参数选择建议。我们拟议的框架提供了适当的解决方案,以解决进程中的分组公平问题。它使政策制定者能够设置和定制其所需的公平要求以及其他特定于应用程序的约束。我们用几个经验数据集测试所提出的算法。实验证据支持拟议的评分制度在实现利益攸关方的最佳福利以及平衡可解释性,公平性和效率的需求方面的有效性。
translated by 谷歌翻译
人类服务系统做出关键决策,影响社会中的个人。美国儿童福利系统做出了这样的决定,从筛查热线报告的报告报告,涉嫌虐待或忽视儿童保护性调查,使儿童接受寄养,再到将儿童返回永久家庭环境。这些对儿童生活的复杂而有影响力的决定取决于儿童福利决策者的判断。儿童福利机构一直在探索使用包括机器学习(ML)的经验,数据信息的方法来支持这些决策的方法。本文描述了ML支持儿童福利决策的概念框架。 ML框架指导儿童福利机构如何概念化ML可以解决的目标问题;兽医可用的管理数据用于构建ML;制定和开发ML规格,以反映机构正在进行的相关人群和干预措施;随着时间的流逝,部署,评估和监视ML作为儿童福利环境,政策和实践变化。道德考虑,利益相关者的参与以及避免框架的影响和成功的共同陷阱。从摘要到具体,我们描述了该框架的一种应用,以支持儿童福利决策。该ML框架虽然以儿童福利为中心,但可以推广用于解决其他公共政策问题。
translated by 谷歌翻译
随着信用卡交易量的增长,欺诈百分比也在上升,包括机构打击和补偿受害者的间接费用。将机器学习用于金融部门可以更有效地保护欺诈和其他经济犯罪。经过适当训练的机器学习分类器有助于主动欺诈检测,改善利益相关者的信任和对非法交易的鲁棒性。但是,由于欺诈数据的极为不平衡的性质以及准确,完全完全确定欺诈行为的挑战,以创建金标准的地面真相,因此基于机器学习的欺诈检测算法的设计是具有挑战性和缓慢的。此外,没有基准或标准分类器评估指标来衡量和识别更好的性能分类器,从而使研究人员处于黑暗状态。在这项工作中,我们建立了一个理论基础,以模拟人类注释错误和现实世界欺诈检测数据集中典型的极端失衡。通过对假设分类器进行经验实验,并具有近似于流行的现实世界信用卡欺诈数据集的合成数据分布,我们模拟了人类注释错误和极端失衡,以观察流行的机器学习分类器评估矩阵的行为。我们证明,按照特定顺序,合并的F1分数和G均值是典型不平衡欺诈检测模型分类的最佳评估指标。
translated by 谷歌翻译
在本文中,我们对机器学习文献中统计公平性辩论的两个标准进行道德分析:1)组之间的校准和2)组之间的假阳性和假负率的平等。在我们的论文中,我们专注于支持任何一种措施的道德论点。群体校准与假阳性和假负率平等之间的冲突是有关从业者团体公平定义的辩论中的核心问题之一。对于任何彻底的道德分析,必须明确并正确定义公平性的含义。对于我们的论文,我们将公平等同于(非)歧视,这是关于群体公平的讨论中的合理理解。更具体地说,我们将其等同于表面上的错误歧视,从某种意义上说,这用于Lippert-Rasmussen教授对此定义的处理。在本文中,我们认为违反群体校准的行为在某些情况下可能是不公平的,但在其他情况下并不公平。这与文献中已经提出的主张一致,即应以对上下文敏感的方式定义算法公平性。最重要的实际含义是基于基于示例的论点,即公平性需要组间校准或假阳性/假阴性率的平等性,并没有概括。因为在一种情况下,组校准可能是公平的要求,而不是另一种情况。
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
We propose a criterion for discrimination against a specified sensitive attribute in supervised learning, where the goal is to predict some target based on available features. Assuming data about the predictor, target, and membership in the protected group are available, we show how to optimally adjust any learned predictor so as to remove discrimination according to our definition. Our framework also improves incentives by shifting the cost of poor classification from disadvantaged groups to the decision maker, who can respond by improving the classification accuracy.In line with other studies, our notion is oblivious: it depends only on the joint statistics of the predictor, the target and the protected attribute, but not on interpretation of individual features. We study the inherent limits of defining and identifying biases based on such oblivious measures, outlining what can and cannot be inferred from different oblivious tests.We illustrate our notion using a case study of FICO credit scores.
translated by 谷歌翻译
提出了一个深度学习模型,以便在未来60分钟的五分钟时间分辨率下以闪电的形式出现。该模型基于反复横向的结构,该结构使其能够识别并预测对流的时空发展,包括雷暴细胞的运动,生长和衰变。预测是在固定网格上执行的,而无需使用风暴对象检测和跟踪。从瑞士和周围的区域收集的输入数据包括地面雷达数据,可见/红外卫星数据以及衍生的云产品,闪电检测,数值天气预测和数字高程模型数据。我们分析了不同的替代损失功能,班级加权策略和模型特征,为将来的研究提供了指南,以最佳地选择损失功能,并正确校准其模型的概率预测。基于这些分析,我们在这项研究中使用焦点损失,但得出结论,它仅在交叉熵方面提供了较小的好处,如果模型的重新校准不实用,这是一个可行的选择。该模型在60分钟的现有周期内实现了0.45的像素临界成功指数(CSI)为0.45,以预测8 km的闪电发生,范围从5分钟的CSI到5分钟的提前时间到CSI到CSI的0.32在A处。收货时间60分钟。
translated by 谷歌翻译
随着天文学中检测到的瞬变数量的迅速增加,基于机器学习的分类方法正在越来越多地使用。他们的目标通常是要获得瞬态的确定分类,并且出于良好的性能,他们通常需要存在大量观察。但是,精心设计,有针对性的模型可以通过更少的计算资源来达到其分类目标。本文介绍了Snguess,该模型旨在找到高纯度附近的年轻外乳旋转瞬变。 Snguess可以使用一组功能,这些功能可以从天文警报数据中有效计算。其中一些功能是静态的,并且与警报元数据相关联,而其他功能必须根据警报中包含的光度观测值计算。大多数功能都足够简单,可以在其检测后的瞬态生命周期的早期阶段获得或计算。我们为从Zwicky Transient设施(ZTF)的一组标记的公共警报数据计算了这些功能。 Snguess的核心模型由一组决策树组成,这些集合是通过梯度提升训练的。 SNGUESS建议的候选人中约有88%的ZTF从2020年4月至2021年8月的一组警报中被发现是真正的相关超新星(SNE)。对于具有明亮检测的警报,此数字在92%至98%之间。自2020年4月以来,Snguess确定为ZTF Alert流中潜在SNE的瞬变已发布到AMPEL_ZTF_NEW组标识符下的瞬态名称服务器(TNS)。可以通过Web服务访问ZTF观察到的任何暂时性的SNGUESS分数。 Snguess的源代码可公开使用。
translated by 谷歌翻译
The cyber-physical convergence is opening up new business opportunities for industrial operators. The need for deep integration of the cyber and the physical worlds establishes a rich business agenda towards consolidating new system and network engineering approaches. This revolution would not be possible without the rich and heterogeneous sources of data, as well as the ability of their intelligent exploitation, mainly due to the fact that data will serve as a fundamental resource to promote Industry 4.0. One of the most fruitful research and practice areas emerging from this data-rich, cyber-physical, smart factory environment is the data-driven process monitoring field, which applies machine learning methodologies to enable predictive maintenance applications. In this paper, we examine popular time series forecasting techniques as well as supervised machine learning algorithms in the applied context of Industry 4.0, by transforming and preprocessing the historical industrial dataset of a packing machine's operational state recordings (real data coming from the production line of a manufacturing plant from the food and beverage domain). In our methodology, we use only a single signal concerning the machine's operational status to make our predictions, without considering other operational variables or fault and warning signals, hence its characterization as ``agnostic''. In this respect, the results demonstrate that the adopted methods achieve a quite promising performance on three targeted use cases.
translated by 谷歌翻译
业务分析(BA)的广泛采用带来了财务收益和提高效率。但是,当BA以公正的影响为决定时,这些进步同时引起了人们对法律和道德挑战的不断增加。作为对这些关注的回应,对算法公平性的新兴研究涉及算法输出,这些算法可能会导致不同的结果或其他形式的对人群亚组的不公正现象,尤其是那些在历史上被边缘化的人。公平性是根据法律合规,社会责任和效用是相关的;如果不充分和系统地解决,不公平的BA系统可能会导致社会危害,也可能威胁到组织自己的生存,其竞争力和整体绩效。本文提供了有关算法公平的前瞻性,注重BA的评论。我们首先回顾有关偏见来源和措施的最新研究以及偏见缓解算法。然后,我们对公用事业关系的详细讨论进行了详细的讨论,强调经常假设这两种构造之间经常是错误的或短视的。最后,我们通过确定企业学者解决有效和负责任的BA的关键的有影响力的公开挑战的机会来绘制前进的道路。
translated by 谷歌翻译