学习推迟(L2D)框架有可能使AI系统更安全。对于给定的输入,如果人类比模型更有可能采取正确的行动,则系统可以将决定推迟给人类。我们研究L2D系统的校准,研究它们输出的概率是否合理。我们发现Mozannar&Sontag(2020)多类框架没有针对专家正确性进行校准。此外,由于其参数化是为此目的而退化的,因此甚至不能保证产生有效的概率。我们提出了一个基于单VS-ALL分类器的L2D系统,该系统能够产生专家正确性的校准概率。此外,我们的损失功能也是多类L2D的一致替代,例如Mozannar&Sontag(2020)。我们的实验验证了我们的系统校准不仅是我们的系统校准,而且这种好处无需准确。我们的模型的准确性始终可与Mozannar&Sontag(2020)模型的模型相当(通常是优越),从仇恨言语检测到星系分类到诊断皮肤病变的任务。
translated by 谷歌翻译
本文介绍了分类器校准原理和实践的简介和详细概述。校准的分类器正确地量化了与其实例明智的预测相关的不确定性或信心水平。这对于关键应用,最佳决策,成本敏感的分类以及某些类型的上下文变化至关重要。校准研究具有丰富的历史,其中几十年来预测机器学习作为学术领域的诞生。然而,校准兴趣的最近增加导致了新的方法和从二进制到多种子体设置的扩展。需要考虑的选项和问题的空间很大,并导航它需要正确的概念和工具集。我们提供了主要概念和方法的介绍性材料和最新的技术细节,包括适当的评分规则和其他评估指标,可视化方法,全面陈述二进制和多字数分类的HOC校准方法,以及几个先进的话题。
translated by 谷歌翻译
当可能的许多标签是可能的时,选择单个可以导致低精度。一个常见的替代方案,称为顶级k $分类,是选择一些数字$ k $(通常约5),并返回最高分数的$ k $标签。不幸的是,对于明确的案例,$ k> 1 $太多,对于非常暧昧的情况,$ k \ leq 5 $(例如)太小。另一种明智的策略是使用一种自适应方法,其中返回的标签数量随着计算的歧义而变化,但必须平均到所有样本的某些特定的$ k $。我们表示这种替代方案 - $ k $分类。本文在平均值的含量较低的误差率时,本文正式地表征了模糊性曲线,比固定的顶级k $分类更低。此外,它为固定尺寸和自适应分类器提供了自然估计程序,并证明了它们的一致性。最后,它报告了实际图像数据集的实验,揭示了平均值的效益 - 在实践中的价格超过高度k $分类。总的来说,当含糊不清的歧义时,平均值-$ k $永远不会比Top-$ K $更差,并且在我们的实验中,当估计时,这也持有。
translated by 谷歌翻译
当疑问以获得更好的有效精度时,选择性分类允许模型放弃预测(例如,说“我不知道”)。尽管典型的选择性模型平均可以有效地产生更准确的预测,但它们仍可能允许具有很高置信度的错误预测,或者跳过置信度较低的正确预测。提供校准的不确定性估计以及预测(与真实频率相对应的概率)以及具有平均准确的预测一样重要。但是,不确定性估计对于某些输入可能不可靠。在本文中,我们开发了一种新的选择性分类方法,其中我们提出了一种拒绝“不确定”不确定性的示例的方法。通过这样做,我们旨在通过对所接受示例的分布进行{良好校准}的不确定性估计进行预测,这是我们称为选择性校准的属性。我们提出了一个用于学习选择性校准模型的框架,其中训练了单独的选择器网络以改善给定基本模型的选择性校准误差。特别是,我们的工作重点是实现强大的校准,该校准有意地设计为在室外数据上进行测试。我们通过受分配强大的优化启发的训练策略实现了这一目标,在该策略中,我们将模拟输入扰动应用于已知的,内域培训数据。我们证明了方法对多个图像分类和肺癌风险评估任务的经验有效性。
translated by 谷歌翻译
The ability to quickly and accurately identify covariate shift at test time is a critical and often overlooked component of safe machine learning systems deployed in high-risk domains. While methods exist for detecting when predictions should not be made on out-of-distribution test examples, identifying distributional level differences between training and test time can help determine when a model should be removed from the deployment setting and retrained. In this work, we define harmful covariate shift (HCS) as a change in distribution that may weaken the generalization of a predictive model. To detect HCS, we use the discordance between an ensemble of classifiers trained to agree on training data and disagree on test data. We derive a loss function for training this ensemble and show that the disagreement rate and entropy represent powerful discriminative statistics for HCS. Empirically, we demonstrate the ability of our method to detect harmful covariate shift with statistical certainty on a variety of high-dimensional datasets. Across numerous domains and modalities, we show state-of-the-art performance compared to existing methods, particularly when the number of observed test samples is small.
translated by 谷歌翻译
我们正式化并研究通过嵌入设计凸替代损失函数的自然方法,例如分类,排名或结构化预测等问题。在这种方法中,一个人将每一个有限的预测(例如排名)嵌入$ r^d $中的一个点,将原始损失值分配给这些要点,并以某种方式“凸出”损失以获得替代物。我们在这种方法和多面体(分段线性凸)的替代损失之间建立了牢固的联系:每个离散损失都被一些多面体损失嵌入,并且每个多面体损失都嵌入了一些离散的损失。此外,嵌入会产生一致的链接功能以及线性替代遗憾界限。正如我们用几个示例所说明的那样,我们的结果具有建设性。特别是,我们的框架为文献中各种多面体替代物以及不一致的替代物提供了简洁的证据或不一致的证据,它进一步揭示了这些代理人一致的离散损失。我们继续展示嵌入的其他结构,例如嵌入和匹配贝叶斯风险的等效性以及各种非算术概念的等效性。使用这些结果,我们确定与多面体替代物一起工作时,间接启发是一致性的必要条件也足够了。
translated by 谷歌翻译
We introduce a tunable loss function called $\alpha$-loss, parameterized by $\alpha \in (0,\infty]$, which interpolates between the exponential loss ($\alpha = 1/2$), the log-loss ($\alpha = 1$), and the 0-1 loss ($\alpha = \infty$), for the machine learning setting of classification. Theoretically, we illustrate a fundamental connection between $\alpha$-loss and Arimoto conditional entropy, verify the classification-calibration of $\alpha$-loss in order to demonstrate asymptotic optimality via Rademacher complexity generalization techniques, and build-upon a notion called strictly local quasi-convexity in order to quantitatively characterize the optimization landscape of $\alpha$-loss. Practically, we perform class imbalance, robustness, and classification experiments on benchmark image datasets using convolutional-neural-networks. Our main practical conclusion is that certain tasks may benefit from tuning $\alpha$-loss away from log-loss ($\alpha = 1$), and to this end we provide simple heuristics for the practitioner. In particular, navigating the $\alpha$ hyperparameter can readily provide superior model robustness to label flips ($\alpha > 1$) and sensitivity to imbalanced classes ($\alpha < 1$).
translated by 谷歌翻译
多条证据表明预测模型可能受益于算法分类。在算法分类下,预测模型不会预测所有情况,而是将其中一些人迁移到人类专家。然而,在算法分类下模型的预测准确性与人类专家之间的相互作用并不充分理解。在这项工作中,我们首先正式表征在这种情况下,在这种情况下,预测模型可能受益于算法分类。在这样做时,我们还证明了用于完整自动化培训的模型可能是在分类下的次优。然后,给定任何模型和所需的分类级别,我们示出了最佳分类策略是确定性阈值规则,其中通过在每个实例级别上的模型和人为错误之间的差异来确定分类决策。建立这些结果,我们介绍了一种实用的基于梯度的算法,保证找到一系列分类策略和提高性能的预测模型。来自两个重要应用的合成和实际数据的各种监督学习任务的实验 - 内容调度和科学发现 - 说明了我们的理论结果,并表明我们的梯度基算法提供的模型和分类策略优于所提供的算法几个竞争的基线。
translated by 谷歌翻译
由于模型可信度对于敏感的现实世界应用至关重要,因此从业者越来越重视改善深神经网络的不确定性校准。校准误差旨在量化概率预测的可靠性,但其估计器通常是偏见且不一致的。在这项工作中,我们介绍了适当的校准误差的框架,该校准误差将每个校准误差与适当的分数联系起来,并提供具有最佳估计属性的相应上限。这种关系可用于可靠地量化模型校准改进。与我们的方法相比,我们从理论上和经验上证明了常用估计量的缺点。由于适当的分数的广泛适用性,这可以自然地扩展到分类之外的重新校准。
translated by 谷歌翻译
适应数据分布的结构(例如对称性和转型Imarerces)是机器学习中的重要挑战。通过架构设计或通过增强数据集,可以内在学习过程中内置Inhormces。两者都需要先验的了解对称性的确切性质。缺乏这种知识,从业者求助于昂贵且耗时的调整。为了解决这个问题,我们提出了一种新的方法来学习增强变换的分布,以新的\ emph {转换风险最小化}(trm)框架。除了预测模型之外,我们还优化了从假说空间中选择的转换。作为算法框架,我们的TRM方法是(1)有效(共同学习增强和模型,以\ emph {单训练环}),(2)模块化(使用\ emph {任何训练算法),以及(3)一般(处理\ \ ich {离散和连续}增强)。理论上与标准风险最小化的TRM比较,并在其泛化误差上给出PAC-Bayes上限。我们建议通过块组成的新参数化优化富裕的增强空间,导致新的\ EMPH {随机成分增强学习}(SCALE)算法。我们在CIFAR10 / 100,SVHN上使用先前的方法(快速自身自动化和武术器)进行实际比较规模。此外,我们表明规模可以在数据分布中正确地学习某些对称性(恢复旋转Mnist上的旋转),并且还可以改善学习模型的校准。
translated by 谷歌翻译
标签 - 不平衡和组敏感分类中的目标是优化相关的指标,例如平衡错误和相同的机会。经典方法,例如加权交叉熵,在训练深网络到训练(TPT)的终端阶段时,这是超越零训练误差的训练。这种观察发生了最近在促进少数群体更大边值的直观机制之后开发启发式替代品的动力。与之前的启发式相比,我们遵循原则性分析,说明不同的损失调整如何影响边距。首先,我们证明,对于在TPT中训练的所有线性分类器,有必要引入乘法,而不是添加性的Logit调整,以便对杂项边缘进行适当的变化。为了表明这一点,我们发现将乘法CE修改的连接到成本敏感的支持向量机。也许是违反,我们还发现,在培训开始时,相同的乘法权重实际上可以损害少数群体。因此,虽然在TPT中,添加剂调整无效,但我们表明它们可以通过对乘法重量的初始负效应进行抗衡来加速会聚。通过这些发现的动机,我们制定了矢量缩放(VS)丢失,即捕获现有技术作为特殊情况。此外,我们引入了对群体敏感分类的VS损失的自然延伸,从而以统一的方式处理两种常见类型的不平衡(标签/组)。重要的是,我们对最先进的数据集的实验与我们的理论见解完全一致,并确认了我们算法的卓越性能。最后,对于不平衡的高斯 - 混合数据,我们执行泛化分析,揭示平衡/标准错误和相同机会之间的权衡。
translated by 谷歌翻译
现在通常用于高风险设置,如医疗诊断,如医疗诊断,那么需要不确定量化,以避免后续模型失败。无分发的不确定性量化(无分布UQ)是用户友好的范式,用于为这种预测创建统计上严格的置信区间/集合。批判性地,间隔/集合有效而不进行分布假设或模型假设,即使具有最多许多DataPoints也具有显式保证。此外,它们适应输入的难度;当输入示例很困难时,不确定性间隔/集很大,信号传达模型可能是错误的。在没有多大的工作和没有再培训的情况下,可以在任何潜在的算法(例如神经网络)上使用无分​​发方法,以产生置信度集,以便包含用户指定概率,例如90%。实际上,这些方法易于理解和一般,应用于计算机视觉,自然语言处理,深度加强学习等领域出现的许多现代预测问题。这种实践介绍是针对对无需统计学家的免费UQ的实际实施感兴趣的读者。我们通过实际的理论和无分发UQ的应用领导读者,从保形预测开始,并使无关的任何风险的分布控制,如虚假发现率,假阳性分布检测,等等。我们将包括Python中的许多解释性插图,示例和代码样本,具有Pytorch语法。目标是提供读者对无分配UQ的工作理解,使它们能够将置信间隔放在算法上,其中包含一个自包含的文档。
translated by 谷歌翻译
如果预测类的概率(顶级标签)是校准的,则在顶部标签上进行条件,则据说多类分类器将是顶级标签的校准。在密切相关和流行的置信度校准概念中,这种条件不存在,我们认为这使得置信校准难以解释决策。我们提出顶级标签校准作为置信校准的纠正。此外,我们概述了一个多类对二进制(M2B)还原框架,该框架统一了信心,顶级标签和班级校准等。顾名思义,M2B通过将多类校准减少到众多二元校准问题来起作用,每个二进制校准问题都可以使用简单的二进制校准例程来解决。我们将M2B框架实例化使用经过良好研究的直方图(HB)二进制校准器,并证明整体过程是多类校准的,而无需对基础数据分布进行任何假设。在CIFAR-10和CIFAR-100上具有四个深净体系结构的经验评估中,我们发现M2B + HB程序比其他方法(例如温度缩放)获得了较低的顶级标签和类别校准误差。这项工作的代码可在\ url {https://github.com/aigen/df-posthoc-calibration}中获得。
translated by 谷歌翻译
Confidence calibration -the problem of predicting probability estimates representative of the true correctness likelihood -is important for classification models in many applications. We discover that modern neural networks, unlike those from a decade ago, are poorly calibrated. Through extensive experiments, we observe that depth, width, weight decay, and Batch Normalization are important factors influencing calibration. We evaluate the performance of various post-processing calibration methods on state-ofthe-art architectures with image and document classification datasets. Our analysis and experiments not only offer insights into neural network learning, but also provide a simple and straightforward recipe for practical settings: on most datasets, temperature scaling -a singleparameter variant of Platt Scaling -is surprisingly effective at calibrating predictions.
translated by 谷歌翻译
在本文中,我们研究了现代神经网络的事后校准,这个问题近年来引起了很多关注。已经为任务提出了许多不同复杂性的校准方法,但是关于这些任务的表达方式尚无共识。我们专注于置信度缩放的任务,特别是在概括温度缩放的事后方法上,我们将其称为自适应温度缩放家族。我们分析了改善校准并提出可解释方法的表达功能。我们表明,当有大量数据复杂模型(例如神经网络)产生更好的性能时,但是当数据量受到限制时,很容易失败,这是某些事后校准应用(例如医学诊断)的常见情况。我们研究表达方法在理想条件和设计更简单的方法下学习但对这些表现良好的功能具有强烈的感应偏见的功能。具体而言,我们提出了基于熵的温度缩放,这是一种简单的方法,可根据其熵缩放预测的置信度。结果表明,与其他方法相比,我们的方法可获得最先进的性能,并且与复杂模型不同,它对数据稀缺是可靠的。此外,我们提出的模型可以更深入地解释校准过程。
translated by 谷歌翻译
在在下游决策取决于预测概率的安全关键应用中,校准神经网络是最重要的。测量校准误差相当于比较两个实证分布。在这项工作中,我们引入了由经典Kolmogorov-Smirnov(KS)统计测试的自由校准措施,其中主要思想是比较各自的累积概率分布。由此,通过通过Quidsime使用可微分函数来近似经验累积分布,我们获得重新校准函数,将网络输出映射到实际(校准的)类分配概率。使用停滞校准组进行脊柱拟合,并在看不见的测试集上评估所获得的重新校准功能。我们测试了我们对各种图像分类数据集的现有校准方法的方法,并且我们的样条键的重新校准方法始终如一地优于KS错误的现有方法以及其他常用的校准措施。我们的代码可在https://github.com/kartikgupta-at-anu/spline-calibration获得。
translated by 谷歌翻译
我们介绍了学习然后测试,校准机器学习模型的框架,使其预测满足明确的,有限样本统计保证,无论底层模型如何和(未知)数据生成分布。框架地址,以及在其他示例中,在多标签分类中的错误发现速率控制,在实例分割中交叉联盟控制,以及同时控制分类或回归中的异常检测和置信度覆盖的类型误差。为实现这一目标,我们解决了一个关键的技术挑战:控制不一定单调的任意风险。我们的主要洞察力是将风险控制问题重新构建为多个假设检测,使技术和数学论据不同于先前文献中的技术。我们使用我们的框架为多个核心机器学习任务提供新的校准方法,在计算机视觉中具有详细的工作示例。
translated by 谷歌翻译
神经网络校准是深度学习的重要任务,以确保模型预测的信心与真正的正确性可能性之间的一致性。在本文中,我们提出了一种称为Neural夹紧的新的后处理校准方法,该方法通过可学习的通用输入扰动和输出温度扩展参数在预训练的分类器上采用简单的联合输入输出转换。此外,我们提供了理论上的解释,说明为什么神经夹具比温度缩放更好。在CIFAR-100和Imagenet图像识别数据集以及各种深神经网络模型上进行了评估,我们的经验结果表明,神经夹具明显优于最先进的后处理校准方法。
translated by 谷歌翻译
Deep neural network (DNN) classifiers are often overconfident, producing miscalibrated class probabilities. Most existing calibration methods either lack theoretical guarantees for producing calibrated outputs or reduce the classification accuracy in the process. This paper proposes a new Kernel-based calibration method called KCal. Unlike other calibration procedures, KCal does not operate directly on the logits or softmax outputs of the DNN. Instead, it uses the penultimate-layer latent embedding to train a metric space in a supervised manner. In effect, KCal amounts to a supervised dimensionality reduction of the neural network embedding, and generates a prediction using kernel density estimation on a holdout calibration set. We first analyze KCal theoretically, showing that it enjoys a provable asymptotic calibration guarantee. Then, through extensive experiments, we confirm that KCal consistently outperforms existing calibration methods in terms of both the classification accuracy and the (confidence and class-wise) calibration error.
translated by 谷歌翻译
学习算法的目标之一是补充和减轻人类决策者的负担。算法可以自行预测的专家延期设置,也可以将决定推迟到下游专家有助于实现这一目标。这种环境的一个基本方面是需要学习改善人类弱点的互补预测因子,而不是学习预测因素以优化平均错误。在这项工作中,我们提供了对专家延期中学习补充预测指标的好处的第一个理论分析。为了有效地学习此类预测因素,我们考虑了一个始终如一的替代损失功能的家族,以延期专家并分析其理论特性。最后,我们设计的主动学习方案需要最少的人类专家预测数据,以学习准确的延期系统。
translated by 谷歌翻译