密度比估计(DRE)是一种用于比较两个概率分布的基本机器学习技术。然而,现有方法在高维设置中斗争,因为难以基于有限样本进行准确地比较概率分布。在这项工作中,我们提出了Dre-\ idty,一种分歧和征服方法来减少DRE到一系列更简单的子问题。灵感来自Monte Carlo方法,我们通过无限连续的中间桥接桥分布平稳地插入两种分布。然后,我们估计索引索引的桥接分布的瞬时变化率(“时间分数”) - 与数据(Stein)分数类似地定义的量 - 具有新的时间得分匹配目标。粗略地,然后可以集成学习的时间评分以计算所需的密度比。此外,我们表明,传统(Stein)得分可用于获得在分布中连接高密度区域,提高实践性能的集成路径。经验上,我们证明我们的方法在复杂的高维数据集上的相互信息估计和基于能量的建模等下游任务中表现出很好。
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
引入后二十年多,退火重要性采样(AIS)仍然是边际可能性估计的最有效方法之一。它依赖于一系列分布序列在可聊天的初始分布和利益的目标分布之间插值,我们从大约使用非均匀的马尔可夫链中模拟了分布。为了获得边际可能性的重要性采样估计,AIS引入了扩展的目标分布,以重新持续马尔可夫链提案。尽管已经大量努力通过更改AIS使用的提案分布,通过更改中间分布和相应的马尔可夫内核,但不被评估的问题是AIS使用方便但次优的扩展目标分布。这可能会阻碍其性能。我们在这里利用基于分数的生成建模(SGM)的最新进展来近似与Langevin和Hamiltonian Dynamics离散化相对应的AIS建议的最佳扩展目标分布。我们在许多合成基准分布和变异自动编码器上展示了这些新颖的,可区分的AIS程序。
translated by 谷歌翻译
基于分数的生成模型(SGMS)已经证明了显着的合成质量。 SGMS依赖于扩散过程,逐渐将数据逐渐渗透到贸易分布,而生成式模型则学会去噪。除了数据分布本身,这种去噪任务的复杂性是由扩散过程独特地确定的。我们认为当前的SGMS采用过于简单的扩散,导致不必要的复杂的去噪流程,限制了生成的建模性能。根据与统计力学的联系,我们提出了一种新型危及阻尼Langevin扩散(CLD),并表明基于CLD的SGMS实现了优异的性能。 CLD可以被解释为在扩展空间中运行关节扩散,其中辅助变量可以被视为耦合到数据变量的“速度”,如Hamiltonian动态。我们推导了一种用于CLD的小说得分匹配目标,并表明该模型仅需要了解给定数据的速度分布的条件分布的得分函数,而不是直接学习数据的分数。我们还导出了一种新的采样方案,用于从基于CLD的扩散模型有效合成。我们发现CLD在类似的网络架构和采样计算预算中优于综合质量的先前SGM。我们展示我们的CLD的新型采样器显着优于欧拉 - 玛雅山等求解器。我们的框架为基于刻痕的去噪扩散模型提供了新的见解,并且可以随时用于高分辨率图像合成。项目页面和代码:https://nv-tlabs.github.io/cld-sgm。
translated by 谷歌翻译
可以通过去噪得分匹配有效地估计数据密度的第一阶导数,并且已成为许多应用中的重要组成部分,例如图像生成和音频合成。高阶导数提供有关数据分发的其他本地信息并启用新应用程序。尽管可以通过自动分化估计学习密度模型,但这可以放大估计误差,并且在高维设置中昂贵。为了克服这些限制,我们提出了一种方法来直接从样本中直接估计数据密度的高阶导数(得分)。首先表明可以将去噪得分匹配作为Tweedie公式的特定情况解释。通过利用Tweedie在高阶时刻的公式,我们概括了去噪得分与估计高阶衍生物的匹配。我们经验证明,用所提出的方法训练的模型可以比通过自动分化更有效和准确地近似二阶衍生物。我们表明,我们的模型可用于量化去噪的不确定性,并通过Ozaki离散化来提高Langevin动力学的混合速度,以便采样合成数据和自然图像。
translated by 谷歌翻译
基于扩散的生成模型已经证明了感知上令人印象深刻的合成能力,但是它们也可以是基于可能性的模型吗?我们以肯定的方式回答了这一点,并介绍了一个基于扩散的生成模型家族,该模型可以在标准图像密度估计基准上获得最先进的可能性。与其他基于扩散的模型不同,我们的方法允许与其他模型的其余部分共同对噪声时间表进行有效优化。我们表明,根据扩散数据的信噪比,变异下限(VLB)简化为非常短的表达,从而改善了我们对该模型类别的理论理解。使用这种见解,我们证明了文献中提出的几个模型之间的等效性。此外,我们表明连续时间VLB在噪声方面不变,除了其端点处的信噪比。这使我们能够学习一个噪声时间表,以最大程度地减少所得VLB估计器的差异,从而更快地优化。将这些进步与建筑改进相结合,我们获得了图像密度估计基准的最先进的可能性,超过了多年来主导这些基准测试的自回旋模型,通常优化了很多年。此外,我们展示了如何将模型用作BITS背包压缩方案的一部分,并展示了接近理论最佳的无损压缩率。代码可在https://github.com/google-research/vdm上找到。
translated by 谷歌翻译
基于分数的生成模型(SGMS)最近在样品质量和分配覆盖范围内表现出令人印象深刻的结果。但是,它们通常直接应用于数据空间,并且通常需要数千个网络评估来采样。在这里,我们提出了基于潜在的分数的生成模型(LSGM),这是一种在潜在空间中培训SGM的新方法,依赖于变分性AutoEncoder框架。从数据移动到潜伏空间允许我们培训更具表现力的生成模型,将SGMS应用于非连续数据,并在较小的空间中学习更顺畅的SGM,导致更少的网络评估和更快的采样。要以可扩展且稳定的方式启用培训LSGMS端到端,我们(i)我们(i)引入了适合于LSGM设置的新分数匹配目标,(ii)提出了一个新颖的分数函数参数化,允许SGM专注于关于简单正常的目标分布的不匹配,(III)分析了多种技术,用于减少训练目标的方差。 LSGM在CIFAR-10上获得最先进的FID分数为2.10,优先表现出此数据集的所有现有生成结果。在Celeba-HQ-256上,LSGM在样品质量上与先前的SGMS相同,同时以两个数量级的采样时间表现出来。在模拟二进制图像中,LSGM在二值化omniglot数据集上实现了最先进的可能性。我们的项目页面和代码可以在https://nvlabs.github.io/lsgm找到。
translated by 谷歌翻译
在这项工作中,我们研究了基于分数的梯度学习在判别和生成分类设置中的应用。分数函数可用于将数据分布描述为密度的替代方案。它可以通过分数匹配有效地学习,并用于灵活地生成可靠的样本以增强判别性分类质量,以恢复密度并构建生成性分类器。我们分析了涉及基于分数表示的决策理论,并对模拟和现实世界数据集进行了实验,证明了其在实现和改善算法分类性能以及对扰动的鲁棒性方面的有效性,尤其是在高维和不平衡状况下。
translated by 谷歌翻译
标准化流是可易处理的密度模型,可以近似复杂的目标分布,例如物理系统的玻尔兹曼分布。但是,当前的训练流量要么具有寻求模式的行为,要么使用昂贵的MCMC模拟事先生成的目标样本,要么使用具有很高差异的随机损失。为了避免这些问题,我们以退火重要性采样(AIS)增强流量,并最大程度地减少覆盖$ \ alpha $ -divergence的质量,并使用$ \ alpha = 2 $,从而最大程度地减少了重要性的重量差异。我们的方法是流动性Bootstrap(Fab),使用AIS在流动较差的目标区域中生成样品,从而促进了新模式的发现。我们以AIS的最小差异分布来定位,以通过重要性抽样来估计$ \ alpha $ -Divergence。我们还使用优先的缓冲区来存储和重复使用AIS样本。这两个功能显着提高了Fab的性能。我们将FAB应用于复杂的多模式目标,并表明我们可以在以前的方法失败的情况下非常准确地近似它们。据我们所知,我们是第一个仅使用非均衡目标密度学习丙氨酸二肽分子的玻璃体分布,而无需通过分子动力学(MD)模拟生成的样品:FAB与通过最大可能性训练更好的效果,而不是通过最大可能性产生的结果。在MD样品上使用100倍的目标评估。在重新获得重要权重的样品后,我们获得了与地面真相几乎相同的二面角的无偏直方图。
translated by 谷歌翻译
DeNoising扩散模型代表了计算机视觉中最新的主题,在生成建模领域表现出了显着的结果。扩散模型是一个基于两个阶段的深层生成模型,一个正向扩散阶段和反向扩散阶段。在正向扩散阶段,通过添加高斯噪声,输入数据在几个步骤中逐渐受到干扰。在反向阶段,模型的任务是通过学习逐步逆转扩散过程来恢复原始输入数据。尽管已知的计算负担,即由于采样过程中涉及的步骤数量,扩散模型对生成样品的质量和多样性得到了广泛赞赏。在这项调查中,我们对视觉中应用的denoising扩散模型的文章进行了全面综述,包括该领域的理论和实际贡献。首先,我们识别并介绍了三个通用扩散建模框架,这些框架基于扩散概率模型,噪声调节得分网络和随机微分方程。我们进一步讨论了扩散模型与其他深层生成模型之间的关系,包括变异自动编码器,生成对抗网络,基于能量的模型,自回归模型和正常流量。然后,我们介绍了计算机视觉中应用的扩散模型的多角度分类。最后,我们说明了扩散模型的当前局限性,并设想了一些有趣的未来研究方向。
translated by 谷歌翻译
尽管存在扩散模型的各种变化,但将线性扩散扩散到非线性扩散过程中仅由几项作品研究。非线性效应几乎没有被理解,但是直觉上,将有更多有希望的扩散模式来最佳地训练生成分布向数据分布。本文介绍了基于分数扩散模型的数据自适应和非线性扩散过程。提出的隐式非线性扩散模型(INDM)通过结合归一化流量和扩散过程来学习非线性扩散过程。具体而言,INDM通过通过流网络利用\ textIt {litex {litex {littent Space}的线性扩散来隐式构建\ textIt {data Space}的非线性扩散。由于非线性完全取决于流网络,因此该流网络是形成非线性扩散的关键。这种灵活的非线性是针对DDPM ++的非MLE训练,将INDM的学习曲线提高到了几乎最大的似然估计(MLE)训练,事实证明,这是具有身份流量的INDM的特殊情况。同样,训练非线性扩散可以通过离散的步骤大小产生采样鲁棒性。在实验中,INDM实现了Celeba的最新FID。
translated by 谷歌翻译
我们正式地用密度$ p_x $中的未知分发问题映射了从$ \ mathbb {r} ^ d $上学习和采样$ p_ \ mathbf {y} $ in $ \ mathbb {r} ^ {使用固定因子内核将$ P_X $获得的MD} $获取:$ p_ \ mathbf {y} $被称为m密度和因子内核作为多索静音噪声模型(MNM)。 m-litess比$ p_x $更顺畅,更容易学习和示例,但对于大量的$ m $来说,由于估计$ x $来估计$ \ mathbf {y} = \ mathbf {y $使用贝叶斯估算器$ \ widehat {x}(\ mathbf {y})= \ mathbb {e} [x \ vert \ mathbf {y} = \ mathbf {y}。为了制定问题,我们从无通知$ P_ \ MATHBF {Y} $以封闭式表达以封闭式表示的泊松和高斯MNMS获得$ \ widehat {x}(\ mathbf {y})$。这导致了用于学习参数能量和得分功能的简单最小二乘目标。我们展示了各种兴趣的参数化方案,包括研究高斯M密度直接导致多营养的自动化器 - 这是在文献中的去噪自动化器和经验贝叶斯之间进行的第一个理论连接。来自$ P_X $的示例由步行跳转采样(Saremi&Hyvarinen,2019)通过欠款Langevin MCMC(Walk)从$ P_ \ Mathbf {Y} $和Multimeasurement Bayes估算$ x $(跳转)。我们研究Mnist,CiFar-10和FFHQ-256数据集上的置换不变高斯M密度,并证明了该框架的有效性,以实现高尺寸的快速混合稳定的马尔可夫链。
translated by 谷歌翻译
当我们希望将其用作生成模型时,任何显式的功能表示$ f $都会受到两个主要障碍的阻碍:设计$ f $,以便采样快速,并估计$ z = \ int f $ ^{ - 1} f $集成到1。随着$ f $本身变得复杂,这变得越来越复杂。在本文中,我们表明,当通过让网络代表目标密度的累积分布函数并应用积极的基本定理,可以通过神经网络对一维条件密度进行建模时,可以精确地计算出$ z $。 。我们还得出了一种快速算法,用于通过逆变换方法从产生的表示。通过将这些原理扩展到更高的维度,我们介绍了\ textbf {神经逆变换采样器(NITS)},这是一个新颖的深度学习框架,用于建模和从一般,多维,紧凑的概率密度。 NIT是一个高度表达性的密度估计器,具有端到端的可不同性,快速采样以及精确且廉价的可能性评估。我们通过将其应用于现实,高维密度估计任务来证明NIT的适用性:基于CIFAR-10数据集对基于可能性的生成模型,以及基于基准数据集的UCI套件的密度估计,nits可以在其中产生令人信服的结果或超越或超越或超越或超越或超越或超越或超越或超越。艺术状态。
translated by 谷歌翻译
扩散模型是一类深入生成模型,在具有密集理论建立的各种任务上显示出令人印象深刻的结果。尽管与其他最先进的模型相比,扩散模型的样本合成质量和多样性令人印象深刻,但它们仍然遭受了昂贵的抽样程序和次优可能的估计。最近的研究表明,对提高扩散模型的性能的热情非常热情。在本文中,我们对扩散模型的现有变体进行了首次全面综述。具体而言,我们提供了扩散模型的第一个分类法,并将它们分类为三种类型,即采样加速增强,可能性最大化的增强和数据将来增强。我们还详细介绍了其他五个生成模型(即变异自动编码器,生成对抗网络,正常流量,自动回归模型和基于能量的模型),并阐明扩散模型与这些生成模型之间的连接。然后,我们对扩散模型的应用进行彻底研究,包括计算机视觉,自然语言处理,波形信号处理,多模式建模,分子图生成,时间序列建模和对抗性纯化。此外,我们提出了与这种生成模型的发展有关的新观点。
translated by 谷歌翻译
我们引入隐深自适应设计(iDAD),在实时与隐性模型进行适应性实验的新方法。iDAD通过学习设计政策网络的前期,然后可以在实验时快速部署摊销贝叶斯优化实验设计(BOED)的成本。该iDAD网络可以在其模拟微样品,不同于需要一个封闭的形式可能性和条件独立实验以前的设计政策工作的任何模型进行训练。在部署时,iDAD允许以毫秒为单位进行设计决策,而相比之下,需要实验本身期间繁重的计算传统BOED方法。我们说明了多项实验iDAD的适用性,并表明它提供了与隐式模型进行适应性设计一个快速和有效的机制。
translated by 谷歌翻译
最近推出的热集成技术已经了解并改善变推理(VI),提供了一个新的框架。在这项工作中,我们提出了热力学变目标(TVO)的仔细分析,弥合现有的变分目标和脱落的新见解,以推动该领域的差距。特别是,我们阐明了如何将TVO自然连接三个关键变方案,即重要性加权VI,仁义-VI,和MCMC-VI,它包含了最VI目标在实践中采用。为了解释理论和实践之间的性能差距,我们揭示热力学曲线的病理几何形状是如何产生负面影响TVO。通过推广加权平均持有人从几何平均值的整合路径,我们扩展TVO的理论和发现提高VI新的机遇。这促使我们的新VI的目标,命名为持有人的边界,这拼合热力学曲线和承诺,以实现精确的边缘数似然的一步逼近。提供对数字估计的选择的全面讨论。我们目前的合成和真实世界的数据集强有力的实证证据来支持我们的要求。
translated by 谷歌翻译
Denoising diffusions are state-of-the-art generative models which exhibit remarkable empirical performance and come with theoretical guarantees. The core idea of these models is to progressively transform the empirical data distribution into a simple Gaussian distribution by adding noise using a diffusion. We obtain new samples whose distribution is close to the data distribution by simulating a "denoising" diffusion approximating the time reversal of this "noising" diffusion. This denoising diffusion relies on approximations of the logarithmic derivatives of the noised data densities, known as scores, obtained using score matching. Such models can be easily extended to perform approximate posterior simulation in high-dimensional scenarios where one can only sample from the prior and simulate synthetic observations from the likelihood. These methods have been primarily developed for data on $\mathbb{R}^d$ while extensions to more general spaces have been developed on a case-by-case basis. We propose here a general framework which not only unifies and generalizes this approach to a wide class of spaces but also leads to an original extension of score matching. We illustrate the resulting class of denoising Markov models on various applications.
translated by 谷歌翻译
Estimating and optimizing Mutual Information (MI) is core to many problems in machine learning; however, bounding MI in high dimensions is challenging. To establish tractable and scalable objectives, recent work has turned to variational bounds parameterized by neural networks, but the relationships and tradeoffs between these bounds remains unclear. In this work, we unify these recent developments in a single framework. We find that the existing variational lower bounds degrade when the MI is large, exhibiting either high bias or high variance. To address this problem, we introduce a continuum of lower bounds that encompasses previous bounds and flexibly trades off bias and variance. On high-dimensional, controlled problems, we empirically characterize the bias and variance of the bounds and their gradients and demonstrate the effectiveness of our new bounds for estimation and representation learning.
translated by 谷歌翻译
我们提出了连续重复的退火流传输蒙特卡洛(CRAFT),该方法结合了顺序的蒙特卡洛(SMC)采样器(本身是退火重要性采样的概括)与使用归一化流量的变异推断。直接训练了归一化的流量,可用于使用KL差异进行每个过渡,以在退火温度之间运输。使用归一化流/SMC近似值估算了此优化目标。我们从概念上展示并使用多个经验示例,这些示例可以改善退火流运输蒙特卡洛(Arbel等,2021),并在其上建造,也可以在基于马尔可夫链蒙特卡洛(MCMC)基于基于的随机归一化流(Wu等人。2020)。通过将工艺纳入粒子MCMC中,我们表明,这种学识渊博的采样器可以在具有挑战性的晶格场理论示例中获得令人印象深刻的准确结果。
translated by 谷歌翻译
我们提出了整流的流程,这是一种令人惊讶的简单学习方法(神经)的普通微分方程(ODE)模型,用于在两个经验观察到的分布\ pi_0和\ pi_1之间运输,因此为生成建模和域转移提供了统一的解决方案,以及其他各种任务。涉及分配运输。整流流的想法是学习ode,以遵循尽可能多的连接从\ pi_0和\ pi_1的直径。这是通过解决直接的非线性最小二乘优化问题来实现的,该问题可以轻松地缩放到大型模型,而无需在标准监督学习之外引入额外的参数。直径是特殊的,因此是特殊的,因为它们是两个点之间的最短路径,并且可以精确模拟而无需时间离散,因此可以在计算上产生高效的模型。我们表明,从数据(称为整流)中学习的整流流的过程将\ pi_0和\ pi_1的任意耦合转变为新的确定性耦合,并证明是非侵入的凸面运输成本。此外,递归应用矫正使我们能够获得具有越来越直的路径的流动序列,可以在推理阶段进行粗略的时间离散化来准确地模拟。在实证研究中,我们表明,整流流对图像产生,图像到图像翻译和域的适应性表现出色。特别是,在图像生成和翻译上,我们的方法几乎产生了几乎直流的流,即使是单个Euler离散步骤,也会产生高质量的结果。
translated by 谷歌翻译