Aleatoric不确定性量化寻求对随机响应的分配知识,这对于机器学习应用中的可靠性分析和鲁棒性改善非常重要。先前对息肉不确定性估计的研究主要针对封闭形成的条件密度或方差,这需要对数据分布或维度的强大限制。为了克服这些限制,我们研究了有条件的生成模型,以估计不确定性。我们介绍了两个指标,以测量适合这些模型的两个条件分布之间的差异。这两个指标都可以通过对条件生成模型的蒙特卡洛模拟轻松而公正地计算,从而促进其评估和培训。我们以数字方式证明了我们的指标如何提供有条件分布差异的正确度量,并可用于训练有条件的模型与现有基准有竞争力。
translated by 谷歌翻译
We investigate the training and performance of generative adversarial networks using the Maximum Mean Discrepancy (MMD) as critic, termed MMD GANs. As our main theoretical contribution, we clarify the situation with bias in GAN loss functions raised by recent work: we show that gradient estimators used in the optimization process for both MMD GANs and Wasserstein GANs are unbiased, but learning a discriminator based on samples leads to biased gradients for the generator parameters. We also discuss the issue of kernel choice for the MMD critic, and characterize the kernel corresponding to the energy distance used for the Cramér GAN critic. Being an integral probability metric, the MMD benefits from training strategies recently developed for Wasserstein GANs. In experiments, the MMD GAN is able to employ a smaller critic network than the Wasserstein GAN, resulting in a simpler and faster-training algorithm with matching performance. We also propose an improved measure of GAN convergence, the Kernel Inception Distance, and show how to use it to dynamically adapt learning rates during GAN training.
translated by 谷歌翻译
标准化流是构建概率和生成模型的流行方法。但是,由于需要计算雅各布人的计算昂贵决定因素,因此对流量的最大似然训练是具有挑战性的。本文通过引入一种受到两样本测试启发的流动训练的方法来解决这一挑战。我们框架的核心是能源目标,这是适当评分规则的多维扩展,该规则基于随机预测,可以接受有效的估计器,并且超过了一系列可以在我们的框架中得出的替代两样本目标。至关重要的是,能量目标及其替代方案不需要计算决定因素,因此支持不适合最大似然训练的一般流量体系结构(例如,密度连接的网络)。我们从经验上证明,能量流达到竞争性生成建模性能,同时保持快速产生和后部推断。
translated by 谷歌翻译
我们提出和分析了一种新颖的统计程序,即创建的Agrasst,以评估可能以明确形式可用的图形生成器的质量。特别是,Agrasst可用于确定学习的图生成过程是否能够生成类似给定输入图的图。受到随机图的Stein运算符的启发,Agrasst的关键思想是基于从图生成器获得的操作员的内核差异的构建。Agrasst可以为图形生成器培训程序提供可解释的批评,并帮助确定可靠的下游任务样品批次。使用Stein的方法,我们为广泛的随机图模型提供了理论保证。我们在两个合成输入图上提供了经验结果,并具有已知的图生成过程,以及对图形最新的(深)生成模型进行训练的现实输入图。
translated by 谷歌翻译
使用显式密度建模的生成模型(例如,变形式自动码码器,基于流动的生成模型)涉及从已知分布的映射,例如,从已知分布中找到映射。高斯,到未知的输入分布。这通常需要搜索一类非线性函数(例如,由深神经网络表示)。在实践中有效,相关的运行时/内存成本可以迅速增加,通常是应用程序中所需性能的函数。我们提出了一个更便宜的(更简单)的策略来估算基于内核传输运算符中的已知结果的此映射。我们表明我们的配方能够实现高效的分布近似和采样,并提供令人惊讶的良好的经验性能,与强大的基线有利,但有很大的运行时储蓄。我们表明该算法在小样本大小设置(脑成像)中也表现良好。
translated by 谷歌翻译
We propose a framework for analyzing and comparing distributions, which we use to construct statistical tests to determine if two samples are drawn from different distributions. Our test statistic is the largest difference in expectations over functions in the unit ball of a reproducing kernel Hilbert space (RKHS), and is called the maximum mean discrepancy (MMD). We present two distributionfree tests based on large deviation bounds for the MMD, and a third test based on the asymptotic distribution of this statistic. The MMD can be computed in quadratic time, although efficient linear time approximations are available. Our statistic is an instance of an integral probability metric, and various classical metrics on distributions are obtained when alternative function classes are used in place of an RKHS. We apply our two-sample tests to a variety of problems, including attribute matching for databases using the Hungarian marriage method, where they perform strongly. Excellent performance is also obtained when comparing distributions over graphs, for which these are the first such tests.
translated by 谷歌翻译
在概率密度范围内相对于Wassersein度量的空间的梯度流程通常具有很好的特性,并且已在几种机器学习应用中使用。计算Wasserstein梯度流量的标准方法是有限差异,使网格上的基础空间离散,并且不可扩展。在这项工作中,我们提出了一种可扩展的近端梯度型算法,用于Wassersein梯度流。我们的方法的关键是目标函数的变分形式,这使得可以通过引流 - 双重优化实现JKO近端地图。可以通过替代地更新内部和外环中的参数来有效地解决该原始问题。我们的框架涵盖了包括热方程和多孔介质方程的所有经典Wasserstein梯度流。我们展示了若干数值示例的算法的性能和可扩展性。
translated by 谷歌翻译
在包括生成建模的各种机器学习应用中的两个概率措施中,已经证明了切片分歧的想法是成功的,并且包括计算两种测量的一维随机投影之间的“基地分歧”的预期值。然而,这种技术的拓扑,统计和计算后果尚未完整地确定。在本文中,我们的目标是弥合这种差距并导出切片概率分歧的各种理论特性。首先,我们表明切片保留了公制公理和分歧的弱连续性,这意味着切片分歧将共享相似的拓扑性质。然后,我们在基本发散属于积分概率度量类别的情况下精确结果。另一方面,我们在轻度条件下建立了切片分歧的样本复杂性并不依赖于问题尺寸。我们终于将一般结果应用于几个基地分歧,并说明了我们对合成和实际数据实验的理论。
translated by 谷歌翻译
本文介绍了一种新的基于仿真的推理程序,以对访问I.I.D. \ samples的多维概率分布进行建模和样本,从而规避明确建模密度函数或设计Markov Chain Monte Carlo的通常方法。我们提出了一个称为可逆的Gromov-monge(RGM)距离的新概念的距离和同构的动机,并研究了RGM如何用于设计新的转换样本,以执行基于模拟的推断。我们的RGM采样器还可以估计两个异质度量度量空间之间的最佳对齐$(\ cx,\ mu,c _ {\ cx})$和$(\ cy,\ cy,\ nu,c _ {\ cy})$从经验数据集中,估计的地图大约将一个量度$ \ mu $推向另一个$ \ nu $,反之亦然。我们研究了RGM距离的分析特性,并在轻度条件下得出RGM等于经典的Gromov-Wasserstein距离。奇怪的是,与Brenier的两极分解结合了连接,我们表明RGM采样器以$ C _ {\ cx} $和$ C _ {\ cy} $的正确选择诱导了强度同构的偏见。研究了有关诱导采样器的收敛,表示和优化问题的统计率。还展示了展示RGM采样器有效性的合成和现实示例。
translated by 谷歌翻译
监督表示学习的目标是为预测构建有效的数据表示。在高维复杂数据的理想非参数表示的所有特征中,充分性,低维度和脱离是最重要的。我们提出了一种深层缩小方法,以使用这些特征来学习表示表示。提出的方法是对足够降低方法的非参数概括。我们制定理想的表示学习任务是找到非参数表示,该任务最小化了表征条件独立性并促进人口层面的分离的目标函数。然后,我们使用深层神经网络在非参数上估计样品级别的目标表示。我们表明,估计的深度非参数表示是一致的,因为它的过剩风险会收敛到零。我们使用模拟和真实基准数据的广泛数值实验表明,在分类和回归的背景下,所提出的方法比现有的几种降低方法和标准深度学习模型具有更好的性能。
translated by 谷歌翻译
条件分布是描述响应与预测因子之间关系的基本数量。我们提出了一种学习条件分布的Wasserstein生成方法。所提出的方法使用条件发生器将已知分布转换为目标条件分布。通过匹配涉及条件发生器和目标关节分布的联合分布估计条件发生器,使用Wassersein距离作为这些关节分布的差异测量。我们建立了所提出的方法产生的条件采样分布的非渐近误差,并表明它能够减轻维度的诅咒,假设数据分布被支持在低维集上。我们进行数值实验以验证提出的方法,并将其应用于条件采样生成,非参数条件密度估计,预测不确定性量化,二抗体响应数据,图像重构和图像生成的应用。
translated by 谷歌翻译
For distributions $\mathbb{P}$ and $\mathbb{Q}$ with different supports or undefined densities, the divergence $\textrm{D}(\mathbb{P}||\mathbb{Q})$ may not exist. We define a Spread Divergence $\tilde{\textrm{D}}(\mathbb{P}||\mathbb{Q})$ on modified $\mathbb{P}$ and $\mathbb{Q}$ and describe sufficient conditions for the existence of such a divergence. We demonstrate how to maximize the discriminatory power of a given divergence by parameterizing and learning the spread. We also give examples of using a Spread Divergence to train implicit generative models, including linear models (Independent Components Analysis) and non-linear models (Deep Generative Networks).
translated by 谷歌翻译
We consider the problem of learning deep generative models from data. We formulate a method that generates an independent sample via a single feedforward pass through a multilayer preceptron, as in the recently proposed generative adversarial networks (Goodfellow et al., 2014). Training a generative adversarial network, however, requires careful optimization of a difficult minimax program. Instead, we utilize a technique from statistical hypothesis testing known as maximum mean discrepancy (MMD), which leads to a simple objective that can be interpreted as matching all orders of statistics between a dataset and samples from the model, and can be trained by backpropagation. We further boost the performance of this approach by combining our generative network with an auto-encoder network, using MMD to learn to generate codes that can then be decoded to produce samples. We show that the combination of these techniques yields excellent generative models compared to baseline approaches as measured on MNIST and the Toronto Face Database.
translated by 谷歌翻译
生成对抗网络(GAN)在数据生成方面取得了巨大成功。但是,其统计特性尚未完全理解。在本文中,我们考虑了GAN的一般$ f $ divergence公式的统计行为,其中包括Kullback- Leibler Divergence与最大似然原理密切相关。我们表明,对于正确指定的参数生成模型,在适当的规律性条件下,所有具有相同歧视类别类别的$ f $ divergence gans均在渐近上等效。 Moreover, with an appropriately chosen local discriminator, they become equivalent to the maximum likelihood estimate asymptotically.对于被误解的生成模型,具有不同$ f $ -Divergences {收敛到不同估计器}的gan,因此无法直接比较。但是,结果表明,对于某些常用的$ f $ -Diverences,原始的$ f $ gan并不是最佳的,因为当更换原始$ f $ gan配方中的判别器培训时,可以实现较小的渐近方差通过逻辑回归。结果估计方法称为对抗梯度估计(年龄)。提供了实证研究来支持该理论,并证明了年龄的优势,而不是模型错误的原始$ f $ gans。
translated by 谷歌翻译
Copulas是一种强大的工具,用于建模多变量分布,因为它们允许分别估计单变量边缘分布和联合依赖结构。然而,已知的参数Copulas提供有限的灵活性,特别是高尺寸,而常用的非参数方法遭受维度的诅咒。受欢迎的补救措施是构建一个基于树的条件双变量Copulas的层次结构。在本文中,我们提出了一种基于隐含生成神经网络的灵活,概念性的简单替代品。关键挑战是确保估计的拷贝分布的边际均匀性。我们通过学习具有未指定的边缘的多变量潜在分布而是所需的依赖结构来实现这一目标。通过应用概率积分变换,我们可以从高维拷贝分布中获得样本而不依赖参数假设或需要找到合适的树结构。来自金融,物理和图​​像生成的合成和实数据的实验证明了这种方法的性能。
translated by 谷歌翻译
考虑到其协变量$ \ boldsymbol x $的连续或分类响应变量$ \ boldsymbol y $的分布是统计和机器学习中的基本问题。深度神经网络的监督学习算法在预测给定$ \ boldsymbol x $的$ \ boldsymbol y $的平均值方面取得了重大进展,但是他们经常因其准确捕捉预测的不确定性的能力而受到批评。在本文中,我们引入了分类和回归扩散(卡)模型,该模型结合了基于扩散的条件生成模型和预训练的条件估计器,以准确预测给定$ \ boldsymbol y $的分布,给定$ \ boldsymbol x $。我们证明了通过玩具示例和现实世界数据集的有条件分配预测的卡片的出色能力,实验结果表明,一般的卡在一般情况下都优于最先进的方法,包括基于贝叶斯的神经网络的方法专为不确定性估计而设计,尤其是当给定$ \ boldsymbol y $的条件分布给定的$ \ boldsymbol x $是多模式时。
translated by 谷歌翻译
标准化流动,扩散归一化流量和变形自动置换器是强大的生成模型。在本文中,我们提供了一个统一的框架来通过马尔可夫链处理这些方法。实际上,我们考虑随机标准化流量作为一对马尔可夫链,满足一些属性,并表明许多用于数据生成的最先进模型适合该框架。马尔可夫链的观点使我们能够将确定性层作为可逆的神经网络和随机层作为大都会加速层,Langevin层和变形自身偏移,以数学上的声音方式。除了具有Langevin层的密度的层,扩散层或变形自身形式,也可以处理与确定性层或大都会加热器层没有密度的层。因此,我们的框架建立了一个有用的数学工具来结合各种方法。
translated by 谷歌翻译
我们提出了一种基于最大平均差异(MMD)的新型非参数两样本测试,该测试是通过具有不同核带宽的聚合测试来构建的。这种称为MMDAGG的聚合过程可确保对所使用的内核的收集最大化测试能力,而无需持有核心选择的数据(这会导致测试能力损失)或任意内核选择,例如中位数启发式。我们在非反应框架中工作,并证明我们的聚集测试对Sobolev球具有最小自适应性。我们的保证不仅限于特定的内核,而是符合绝对可集成的一维翻译不变特性内核的任何产品。此外,我们的结果适用于流行的数值程序来确定测试阈值,即排列和野生引导程序。通过对合成数据集和现实世界数据集的数值实验,我们证明了MMDAGG优于MMD内核适应的替代方法,用于两样本测试。
translated by 谷歌翻译
Simulator-based models are models for which the likelihood is intractable but simulation of synthetic data is possible. They are often used to describe complex real-world phenomena, and as such can often be misspecified in practice. Unfortunately, existing Bayesian approaches for simulators are known to perform poorly in those cases. In this paper, we propose a novel algorithm based on the posterior bootstrap and maximum mean discrepancy estimators. This leads to a highly-parallelisable Bayesian inference algorithm with strong robustness properties. This is demonstrated through an in-depth theoretical study which includes generalisation bounds and proofs of frequentist consistency and robustness of our posterior. The approach is then assessed on a range of examples including a g-and-k distribution and a toggle-switch model.
translated by 谷歌翻译
比较概率分布是许多机器学习算法的关键。最大平均差异(MMD)和最佳运输距离(OT)是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件,可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习(CSL)理论的推动,资源有效的大规模学习的一般框架,其中训练数据总结在单个向量(称为草图)中,该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发,我们介绍了H \“较旧的较低限制的等距属性(H \”较旧的LRIP)并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系,我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证,即概率分布之间的某些特定于特定的特定度量,可以由Wassersein界定距离。
translated by 谷歌翻译