智能论文笔记

Bayesian imaging using Plug & Play priors: when Langevin meets Tweedie

Rémi Laumont , Valentin de Bortoli , Andrés Almansa , Julie Delon , Alain Durmus , Marcelo Pereyra

分类：计算机视觉 | (统计)机器学习

2021-03-08

自Venkatakrishnan等人的开创性工作以来。 2013年，即插即用（PNP）方法在贝叶斯成像中变得普遍存在。这些方法通过将显式似然函数与预定由图像去噪算法隐式定义的明确定义，导出用于成像中的逆问题的最小均方误差（MMSE）或最大后验误差（MAP）估计器。文献中提出的PNP算法主要不同于他们用于优化或采样的迭代方案。在优化方案的情况下，一些最近的作品能够保证收敛到一个定点，尽管不一定是地图估计。在采样方案的情况下，据我们所知，没有已知的收敛证明。关于潜在的贝叶斯模型和估算器是否具有明确定义，良好的良好，并且具有支持这些数值方案所需的基本规律性属性，还存在重要的开放性问题。为了解决这些限制，本文开发了用于对PNP前锋进行贝叶斯推断的理论，方法和可忽略的会聚算法。我们介绍了两个算法：1）PNP-ULA（未调整的Langevin算法），用于蒙特卡罗采样和MMSE推断; 2）PNP-SGD（随机梯度下降）用于MAP推理。利用Markov链的定量融合的最新结果，我们为这两种算法建立了详细的收敛保证，在现实假设下，在去噪运营商使用的现实假设下，特别注意基于深神经网络的遣散者。我们还表明这些算法大致瞄准了良好的决策理论上最佳的贝叶斯模型。所提出的算法在几种规范问题上证明了诸如图像去纹，染色和去噪，其中它们用于点估计以及不确定的可视化和量化。

translated by 谷歌翻译

The split Gibbs sampler revisited: improvements to its algorithmic structure and augmented target distribution

Marcelo Pereyra , Luis A. Vargas-Mieles , Konstantinos C. Zygalakis

分类： (统计)机器学习

2022-06-28

本文提出了一种新的加速马尔可夫链蒙特卡洛（MCMC）方法，以在成像逆问题中有效地执行贝叶斯计算。所提出的方法源自兰格文扩散过程，并源于紧密整合两个最先进的近端Langevin MCMC采样器，SK-ROCK和SPLIST GIBBS采样（SGS），它们采用明显不同的策略来提高收敛速度。更确切地说，我们在Langevin扩散过程的水平上展示了如何集成基于随机的Runge-Kutta-chebyshev扩散的近端SK-ROCK采样器，该采样器具有模型增强和放松策略，可用于扩散以牺牲渐近偏差为代价加快贝叶斯计算的速度。这导致了一种新的，更快的近端SK-ROCK采样器，将原始SK-Rock采样器的加速质量与增强和放松的计算益处相结合。此外，我们建议将增强和放松的模型视为目标模型的近似值，而是将放松定位在偏见 - 差异权衡中，而是建议将增强和放松的模型视为目标模型的概括。然后，这使我们能够仔细校准放松量，以同时提高模型的准确性（通过模型证据衡量）和采样器的收敛速度。为了实现这一目标，我们得出了一种经验性的贝叶斯方法，可以通过最大的边际似然估计自动估计最佳的松弛量。通过与图像脱毛和内化相关的一系列数值实验，以及与艺术状态的替代方法进行比较，证明了所提出的方法。

translated by 谷歌翻译

Learned reconstruction with convergence guarantees

Subhadip Mukherjee , Andreas Hauptmann , Ozan Öktem , Marcelo Pereyra , Carola-Bibiane Schönlieb

分类：计算机视觉 | 机器学习

2022-06-11

近年来，深度学习在图像重建方面取得了显着的经验成功。这已经促进了对关键用例中数据驱动方法的正确性和可靠性的精确表征的持续追求，例如在医学成像中。尽管基于深度学习的方法具有出色的性能和功效，但对其稳定性或缺乏稳定性的关注以及严重的实际含义。近年来，已经取得了重大进展，以揭示数据驱动的图像恢复方法的内部运作，从而挑战了其广泛认为的黑盒本质。在本文中，我们将为数据驱动的图像重建指定相关的融合概念，该概念将构成具有数学上严格重建保证的学习方法调查的基础。强调的一个例子是ICNN的作用，提供了将深度学习的力量与经典凸正则化理论相结合的可能性，用于设计被证明是融合的方法。这篇调查文章旨在通过提供对数据驱动的图像重建方法以及从业人员的理解，旨在通过提供可访问的融合概念的描述，并通过将一些现有的经验实践放在可靠的数学上，来推进我们对数据驱动图像重建方法的理解以及从业人员的了解。基础。

translated by 谷歌翻译

Efficient MCMC Sampling with Dimension-Free Convergence Rate using ADMM-type Splitting

Maxime Vono , Daniel Paulin , Arnaud Doucet

分类： (统计)机器学习

2019-05-23

对复杂模型执行精确的贝叶斯推理是计算的难治性的。马尔可夫链蒙特卡罗（MCMC）算法可以提供后部分布的可靠近似，但对于大型数据集和高维模型昂贵。减轻这种复杂性的标准方法包括使用子采样技术或在群集中分发数据。然而，这些方法通常在高维方案中不可靠。我们在此处专注于最近的替代类别的MCMC方案，利用类似于乘客（ADMM）优化算法的庆祝交替方向使用的分裂策略。这些方法似乎提供了凭经验最先进的性能，但其高维层的理论行为目前未知。在本文中，我们提出了一个详细的理论研究，该算法之一称为分裂Gibbs采样器。在规律条件下，我们使用RICCI曲率和耦合思路为此方案建立了明确的收敛速率。我们以数字插图支持我们的理论。

translated by 谷歌翻译

Diffusion Schrödinger Bridge with Applications to Score-Based Generative Modeling

Valentin De Bortoli , James Thornton , Jeremy Heng , Arnaud Doucet

分类： (统计)机器学习 | 机器学习

2021-06-01

逐步应用高斯噪声将复杂的数据分布转换为大约高斯。逆转此动态定义了一种生成模型。当前进通知过程由随机微分方程（SDE），Song等人提供。（2021）证明可以使用分数匹配估计相关反向时间SDE的时间不均匀漂移。这种方法的限制是必须在最终分布到高斯的最终分布必须运行前进时间SDE。相反，解决Schr \“odinger桥问题（SB），即路径空间上的熵正常化的最佳运输问题，产生从有限时间内从数据分布产生样本的扩散。我们存在扩散SB（DSB），原始近似迭代比例拟合（IPF）程序来解决SB问题，并提供理论分析以及生成建模实验。第一个DSB迭代恢复Song等人提出的方法。（2021），使用较短时间的灵活性间隔，随后的DSB迭代减少了前进（RESP。后向）SDE的最终时间边际之间的差异，相对于先前（RESP。数据）分布。除了生成的建模之外，DSB提供了广泛适用的计算最优运输工具流行池算法的连续状态空间模拟（Cuturi，2013）。

translated by 谷歌翻译

Posterior-Variance-Based Error Quantification for Inverse Problems in Imaging

Dominik Narnhofer , Andreas Habring , Martin Holler , Thomas Pock

分类：计算机视觉

2022-12-23

In this work, a method for obtaining pixel-wise error bounds in Bayesian regularization of inverse imaging problems is introduced. The proposed method employs estimates of the posterior variance together with techniques from conformal prediction in order to obtain coverage guarantees for the error bounds, without making any assumption on the underlying data distribution. It is generally applicable to Bayesian regularization approaches, independent, e.g., of the concrete choice of the prior. Furthermore, the coverage guarantees can also be obtained in case only approximate sampling from the posterior is possible. With this in particular, the proposed framework is able to incorporate any learned prior in a black-box manner. Guaranteed coverage without assumptions on the underlying distributions is only achievable since the magnitude of the error bounds is, in general, unknown in advance. Nevertheless, experiments with multiple regularization approaches presented in the paper confirm that in practice, the obtained error bounds are rather tight. For realizing the numerical experiments, also a novel primal-dual Langevin algorithm for sampling from non-smooth distributions is introduced in this work.

translated by 谷歌翻译

Penalized Langevin and Hamiltonian Monte Carlo Algorithms for Constrained Sampling

Mert Gürbüzbalaban , Yuanhan Hu , Lingjiong Zhu

分类： (统计)机器学习 | 机器学习

2022-11-29

We consider the constrained sampling problem where the goal is to sample from a distribution $\pi(x)\propto e^{-f(x)}$ and $x$ is constrained on a convex body $\mathcal{C}\subset \mathbb{R}^d$. Motivated by penalty methods from optimization, we propose penalized Langevin Dynamics (PLD) and penalized Hamiltonian Monte Carlo (PHMC) that convert the constrained sampling problem into an unconstrained one by introducing a penalty function for constraint violations. When $f$ is smooth and the gradient is available, we show $\tilde{\mathcal{O}}(d/\varepsilon^{10})$ iteration complexity for PLD to sample the target up to an $\varepsilon$-error where the error is measured in terms of the total variation distance and $\tilde{\mathcal{O}}(\cdot)$ hides some logarithmic factors. For PHMC, we improve this result to $\tilde{\mathcal{O}}(\sqrt{d}/\varepsilon^{7})$ when the Hessian of $f$ is Lipschitz and the boundary of $\mathcal{C}$ is sufficiently smooth. To our knowledge, these are the first convergence rate results for Hamiltonian Monte Carlo methods in the constrained sampling setting that can handle non-convex $f$ and can provide guarantees with the best dimension dependency among existing methods with deterministic gradients. We then consider the setting where unbiased stochastic gradients are available. We propose PSGLD and PSGHMC that can handle stochastic gradients without Metropolis-Hasting correction steps. When $f$ is strongly convex and smooth, we obtain an iteration complexity of $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ and $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39})$ respectively in the 2-Wasserstein distance. For the more general case, when $f$ is smooth and non-convex, we also provide finite-time performance bounds and iteration complexity results. Finally, we test our algorithms on Bayesian LASSO regression and Bayesian constrained deep learning problems.

translated by 谷歌翻译

Concentration analysis of multivariate elliptic diffusion processes

Cathrine Aeckerle-Willems , Claudia Strauch , Lukas Trottner

分类： (统计)机器学习

2022-06-07

我们证明了连续和离散时间添加功能的浓度不平等和相关的PAC界限，用于可能是多元，不可逆扩散过程的无界函数。我们的分析依赖于通过泊松方程的方法，使我们能够考虑一系列非常广泛的指数性千古过程。这些结果增加了现有的浓度不平等，用于扩散过程的加性功能，这些功能仅适用于有界函数或从明显较小的类别中的过程的无限函数。我们通过两个截然不同的区域的例子来证明这些指数不平等的力量。考虑到在稀疏性约束下可能具有高维参数非线性漂移模型，我们应用连续的时间浓度结果来验证套索估计的受限特征值条件，这对于甲骨文不平等的推导至关重要。离散添加功能的结果用于研究未经调整的Langevin MCMC算法，用于采样中等重尾密度$ \ pi $。特别是，我们为多项式增长功能$ f $的样品蒙特卡洛估计量$ \ pi（f）提供PAC边界，以量化足够的样本和阶梯尺寸，以在规定的边距内近似具有很高的可能性。

translated by 谷歌翻译

Mean field Variational Inference via Wasserstein Gradient Flow

Rentian Yao , Yun Yang

分类： (统计)机器学习

2022-07-17

变性推理（VI）为基于传统的采样方法提供了一种吸引人的替代方法，用于实施贝叶斯推断，因为其概念性的简单性，统计准确性和计算可扩展性。然而，常见的变分近似方案（例如平均场（MF）近似）需要某些共轭结构以促进有效的计算，这可能会增加不必要的限制对可行的先验分布家族，并对变异近似族对差异进行进一步的限制。在这项工作中，我们开发了一个通用计算框架，用于实施MF-VI VIA WASSERSTEIN梯度流（WGF），这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时，我们将分析基于时间消化的WGF交替最小化方案的算法收敛，用于实现MF近似。特别是，所提出的算法类似于EM算法的分布版本，包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性，以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型，即高斯混合模型和回归模型的混合物。还进行了数值实验，以补充这两个模型下的理论发现。

translated by 谷歌翻译

Statistical Inference with Stochastic Gradient Algorithms

Jeffrey Negrea , Jun Yang , Haoyue Feng , Daniel M. Roy , Jonathan H. Huggins

分类：机器学习 | (统计)机器学习

2022-07-25

随机梯度算法在大规模学习和推理问题中广泛用于优化和采样。但是，实际上，调整这些算法通常是使用启发式和反复试验而不是严格的，可概括的理论来完成的。为了解决理论和实践之间的这一差距，我们通过表征具有固定步长的非常通用的预处理随机梯度算法的迭代术的大样本行为来对调整参数的效果进行新的见解。在优化设置中，我们的结果表明，具有较大固定步长的迭代平均值可能会导致（局部）M-静态器的统计效率近似。在抽样环境中，我们的结果表明，通过适当的调整参数选择，限制固定协方差可以与Bernstein匹配 - 后验的von Mises限制，对模型错误指定后验的调整或MLE的渐近分布；而幼稚的调整极限与这些都不相对应。此外，我们认为可以在数据集对固定数量的通行证后获得基本独立的样本。我们使用模拟和真实数据通过多个实验来验证渐近样结果。总体而言，我们证明具有恒定步长的正确调整的随机梯度算法为获得点估计或后部样品提供了计算上有效且统计上健壮的方法。

translated by 谷歌翻译

On the representation and learning of monotone triangular transport maps

Ricardo Baptista , Youssef Marzouk , Olivier Zahm

分类： (统计)机器学习 | 机器学习

2020-09-22

度量的运输提供了一种用于建模复杂概率分布的多功能方法，并具有密度估计，贝叶斯推理，生成建模及其他方法的应用。单调三角传输地图$ \ unicode {x2014} $近似值$ \ unicode {x2013} $ rosenblatt（kr）重新安排$ \ unicode {x2014} $是这些任务的规范选择。然而，此类地图的表示和参数化对它们的一般性和表现力以及对从数据学习地图学习（例如，通过最大似然估计）出现的优化问题的属性产生了重大影响。我们提出了一个通用框架，用于通过平滑函数的可逆变换来表示单调三角图。我们建立了有关转化的条件，以使相关的无限维度最小化问题没有伪造的局部最小值，即所有局部最小值都是全球最小值。我们展示了满足某些尾巴条件的目标分布，唯一的全局最小化器与KR地图相对应。鉴于来自目标的样品，我们提出了一种自适应算法，该算法估计了基础KR映射的稀疏半参数近似。我们证明了如何将该框架应用于关节和条件密度估计，无可能的推断以及有向图形模型的结构学习，并在一系列样本量之间具有稳定的概括性能。

translated by 谷歌翻译

Robust Generalised Bayesian Inference for Intractable Likelihoods

Takuo Matsubara , Jeremias Knoblauch , François-Xavier Briol , Chris. J. Oates

分类： (统计)机器学习

2021-04-15

广义贝叶斯推理使用损失函数而不是可能性的先前信仰更新，因此可以用于赋予鲁棒性，以防止可能的错误规范的可能性。在这里，我们认为广泛化的贝叶斯推论斯坦坦差异作为损失函数的损失，由应用程序的可能性含有难治性归一化常数。在这种情况下，斯坦因差异来避免归一化恒定的评估，并产生封闭形式或使用标准马尔可夫链蒙特卡罗的通用后出版物。在理论层面上，我们显示了一致性，渐近的正常性和偏见 - 稳健性，突出了这些物业如何受到斯坦因差异的选择。然后，我们提供关于一系列棘手分布的数值实验，包括基于内核的指数家庭模型和非高斯图形模型的应用。

translated by 谷歌翻译

State and parameter learning with PaRIS particle Gibbs

Gabriel Cardoso , Yazid Janati El Idrissi , Sylvain Le Corff , Eric Moulines , Jimmy Olsson

分类： (统计)机器学习

2023-01-02

Non-linear state-space models, also known as general hidden Markov models, are ubiquitous in statistical machine learning, being the most classical generative models for serial data and sequences in general. The particle-based, rapid incremental smoother PaRIS is a sequential Monte Carlo (SMC) technique allowing for efficient online approximation of expectations of additive functionals under the smoothing distribution in these models. Such expectations appear naturally in several learning contexts, such as likelihood estimation (MLE) and Markov score climbing (MSC). PARIS has linear computational complexity, limited memory requirements and comes with non-asymptotic bounds, convergence results and stability guarantees. Still, being based on self-normalised importance sampling, the PaRIS estimator is biased. Our first contribution is to design a novel additive smoothing algorithm, the Parisian particle Gibbs PPG sampler, which can be viewed as a PaRIS algorithm driven by conditional SMC moves, resulting in bias-reduced estimates of the targeted quantities. We substantiate the PPG algorithm with theoretical results, including new bounds on bias and variance as well as deviation inequalities. Our second contribution is to apply PPG in a learning framework, covering MLE and MSC as special examples. In this context, we establish, under standard assumptions, non-asymptotic bounds highlighting the value of bias reduction and the implicit Rao--Blackwellization of PPG. These are the first non-asymptotic results of this kind in this setting. We illustrate our theoretical results with numerical experiments supporting our claims.

translated by 谷歌翻译

Bayesian Learning with Wasserstein Barycenters

Julio Backhoff-Veraguas , Joaquin Fontbona , Gonzalo Rios , Felipe Tobar

分类： (统计)机器学习 | 机器学习

2018-05-28

We introduce and study a novel model-selection strategy for Bayesian learning, based on optimal transport, along with its associated predictive posterior law: the Wasserstein population barycenter of the posterior law over models. We first show how this estimator, termed Bayesian Wasserstein barycenter (BWB), arises naturally in a general, parameter-free Bayesian model-selection framework, when the considered Bayesian risk is the Wasserstein distance. Examples are given, illustrating how the BWB extends some classic parametric and non-parametric selection strategies. Furthermore, we also provide explicit conditions granting the existence and statistical consistency of the BWB, and discuss some of its general and specific properties, providing insights into its advantages compared to usual choices, such as the model average estimator. Finally, we illustrate how this estimator can be computed using the stochastic gradient descent (SGD) algorithm in Wasserstein space introduced in a companion paper arXiv:2201.04232v2 [math.OC], and provide a numerical example for experimental validation of the proposed method.

translated by 谷歌翻译

Comparison of Markov chains via weak Poincaré inequalities with application to pseudo-marginal MCMC

Christophe Andrieu , Anthony Lee , Sam Power , Andi Q. Wang

分类：机器学习

2021-12-10

我们调查了一定类别的功能不等式，称为弱Poincar的不等式，以使Markov链的收敛性与均衡相结合。我们表明，这使得SubGoom测量收敛界的直接和透明的推导出用于独立的Metropolis - Hastings采样器和用于棘手似然性的伪边缘方法，后者在许多实际设置中是子表芯。这些结果依赖于马尔可夫链之间的新量化比较定理。相关证据比依赖于漂移/较小化条件的证据更简单，并且所开发的工具允许我们恢复并进一步延长特定情况的已知结果。我们能够为伪边缘算法的实际使用提供新的见解，分析平均近似贝叶斯计算（ABC）的效果以及独立平均值的产品，以及研究与之相关的逻辑重量的情况粒子边缘大都市 - 黑斯廷斯（PMMH）。

translated by 谷歌翻译

Bounding the error of discretized Langevin algorithms for non-strongly log-concave targets

Arnak S. Dalalyan , Avetik Karagulyan , Lionel Riou-Durand

分类：机器学习

2019-06-20

在本文中，我们在使用离散的Langevin扩散的三个方案中从目标密度采样的误差提供非渐近上限。第一个方案是Langevin Monte Carlo（LMC）算法，歌曲的欧拉分散化的歌曲扩散。第二个和第三种方案分别是用于可微分电位和动力学Langevin Monte Carlo的动力学Langevin Monte Carlo（KLMC），用于两次可分视电位（KLMC2）。主要焦点是在$ \ mathbb r ^ p $的目标密度上，但不一定强烈地抖动。在两种类型的平滑假设下获得计算复杂度的界限：电位具有嘴唇连续梯度，并且电位具有嘴角连续的Hessian基质。采样误差由Wassersein-$ Q $距离测量。我们倡导在计算复杂性定义中使用新的维度适应缩放，当考虑Wasserstein-$ Q $距离时。所获得的结果表明，实现小于规定值的缩放误差的迭代次数仅取决于多项尺寸。

translated by 谷歌翻译

A Variational Approach for Joint Image Recovery and Features Extraction Based on Spatially Varying Generalised Gaussian Models

Emilie Chouzenoux , Marie-Caroline Corbineau , Jean-Christophe Pesquet , Gabriele Scrivanti

分类：计算机视觉

2022-09-03

重建 /特征提取的联合问题是图像处理中的一项具有挑战性的任务。它包括以联合方式执行图像的恢复及其特征的提取。在这项工作中，我们首先提出了一个新颖的非平滑和非凸变性表述。为此，我们介绍了一种通用的高斯先验，其参数（包括其指数）是空间变化的。其次，我们设计了一种基于近端的交替优化算法，该算法有效利用了所提出的非convex目标函数的结构。我们还分析了该算法的收敛性。如在关节分割/脱张任务进行的数值实验中所示，该方法提供了高质量的结果。

translated by 谷歌翻译

Generalised Bayesian Inference for Discrete Intractable Likelihood

Takuo Matsubara , Jeremias Knoblauch , François-Xavier Briol , Chris. J. Oates

分类： (统计)机器学习

2022-06-16

离散状态空间代表了对统计推断的主要计算挑战，因为归一化常数的计算需要在大型或可能的无限集中进行求和，这可能是不切实际的。本文通过开发适合离散可怜的可能性的新型贝叶斯推理程序来解决这一计算挑战。受到连续数据的最新方法学进步的启发，主要思想是使用离散的Fisher Divergence更新有关模型参数的信念，以代替有问题的棘手的可能性。结果是可以使用标准计算工具（例如Markov Chain Monte Carlo）进行采样的广义后部，从而规避了棘手的归一化常数。分析了广义后验的统计特性，并具有足够的后验一致性和渐近正态性的条件。此外，提出了一种新颖的通用后代校准方法。应用程序在离散空间数据的晶格模型和计数数据的多元模型上介绍，在每种情况下，方法论都以低计算成本促进通用的贝叶斯推断。

translated by 谷歌翻译

On free energy barriers in Gaussian priors and failure of MCMC for high-dimensional unimodal distributions

Afonso S. Bandeira , Antoine Maillard , Richard Nickl , Sven Wang

分类： (统计)机器学习

2022-09-05

我们展示了具有高斯流程先验的非线性回归模型中产生的高维单模式后分布的示例后措施浓缩。基于梯度或随机步行步骤，对一般MCMC方案的反示例持有，该理论用于大都市 - 危机调整后的方法，例如PCN和MALA。

translated by 谷歌翻译

Quasi-Bayesian Dual Instrumental Variable Regression

Ziyu Wang , Yuhao Zhou , Tongzheng Ren , Jun Zhu

分类： (统计)机器学习 | 机器学习

2021-06-16

近年来目睹了采用灵活的机械学习模型进行乐器变量（IV）回归的兴趣，但仍然缺乏不确定性量化方法的发展。在这项工作中，我们为IV次数回归提出了一种新的Quasi-Bayesian程序，建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率，并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法，可以扩展到与宽神经网络模型一起工作。实证评价表明，我们的方法对复杂的高维问题产生了丰富的不确定性估计。

translated by 谷歌翻译