Practitioners use Hidden Markov Models (HMMs) in different problems for about sixty years. Besides, Conditional Random Fields (CRFs) are an alternative to HMMs and appear in the literature as different and somewhat concurrent models. We propose two contributions. First, we show that basic Linear-Chain CRFs (LC-CRFs), considered as different from the HMMs, are in fact equivalent to them in the sense that for each LC-CRF there exists a HMM - that we specify - whom posterior distribution is identical to the given LC-CRF. Second, we show that it is possible to reformulate the generative Bayesian classifiers Maximum Posterior Mode (MPM) and Maximum a Posteriori (MAP) used in HMMs, as discriminative ones. The last point is of importance in many fields, especially in Natural Language Processing (NLP), as it shows that in some situations dropping HMMs in favor of CRFs was not necessary.
translated by 谷歌翻译
从业者在大约六十年内成功地使用不同问题的隐藏马尔可夫链(HMC)。HMCS属于生成模型系列,它们通常与鉴别模型相比,如条件随机字段(CRF)。作者通常认为CRF与HMCs完全不同,CRF通常呈现为HMCS的有趣替代品。在某些领域,如自然语言处理(NLP),歧视模型具有完全涂覆的生成模型。然而,最近的一些结果表明,两个型号的家庭都没有如此不同,两者都可以导致相同的处理能力。在本文中,我们将简单的线性链CRF与基本HMC进行比较。我们表明HMCS与CRF相同,因为每个CRF我们明确构建具有相同后部分布的HMC。因此,HMCS和线性链CRFS不不同,但只是不同的参数化模型。
translated by 谷歌翻译
我们应对贝叶斯生成和鉴别的分类器。鉴于模型分发$ p(x,y)$,观察$ y $和目标$ x $,首先考虑$ p(x,y)$,然后使用贝叶斯规则计算生成分类器来计算$ p(x | y)$。判别模型由$ p(x | y)$直接给出,用于计算判别分类器。然而,最近的作品表明,贝叶斯最大后级分类器定义由天真贝叶斯(NB)或隐藏的Markov链(HMC),两种生成模型也可以匹配鉴别的分类器定义。因此,存在将分类器分类为“生成”和“鉴别性”的情况有点误导。实际上,这种区别与计算分类器的方式相当相关,而不是分类器本身。我们介绍了一般理论结果,指定如何以与相同模型的鉴别方式计算从生成模型引起的生成分类器。 NB和HMC的示例再次找到特定情况,并且我们将一般结果应用于两个NB的原始扩展,以及HMC的两个扩展,其中一个是原始的。最后,我们很快地说明了自然语言处理中计算分类器(NLP)框架的新判别方式的兴趣。
translated by 谷歌翻译
自Venkatakrishnan等人的开创性工作以来。 2013年,即插即用(PNP)方法在贝叶斯成像中变得普遍存在。这些方法通过将显式似然函数与预定由图像去噪算法隐式定义的明确定义,导出用于成像中的逆问题的最小均方误差(MMSE)或最大后验误差(MAP)估计器。文献中提出的PNP算法主要不同于他们用于优化或采样的迭代方案。在优化方案的情况下,一些最近的作品能够保证收敛到一个定点,尽管不一定是地图估计。在采样方案的情况下,据我们所知,没有已知的收敛证明。关于潜在的贝叶斯模型和估算器是否具有明确定义,良好的良好,并且具有支持这些数值方案所需的基本规律性属性,还存在重要的开放性问题。为了解决这些限制,本文开发了用于对PNP前锋进行贝叶斯推断的理论,方法和可忽略的会聚算法。我们介绍了两个算法:1)PNP-ULA(未调整的Langevin算法),用于蒙特卡罗采样和MMSE推断; 2)PNP-SGD(随机梯度下降)用于MAP推理。利用Markov链的定量融合的最新结果,我们为这两种算法建立了详细的收敛保证,在现实假设下,在去噪运营商使用的现实假设下,特别注意基于深神经网络的遣散者。我们还表明这些算法大致瞄准了良好的决策理论上最佳的贝叶斯模型。所提出的算法在几种规范问题上证明了诸如图像去纹,染色和去噪,其中它们用于点估计以及不确定的可视化和量化。
translated by 谷歌翻译
隐藏的马尔可夫链(HMC)和复发性神经网络(RNN)是预测时间序列的两个知名工具。即使这些解决方案是在不同的社区中独立开发的,但当被认为是概率结构时,它们具有一些相似之处。因此,在本文中,我们首先将HMC和RNN视为生成模型,然后将这两个结构嵌入了共同的生成统一模型(GUM)中。接下来,我们讨论了这些模型表达性的比较研究。为此,我们假设模型是线性和高斯。这些模型产生的概率分布以结构化协方差序列为特征,因此表达性降低到比较结构化协方差序列的集合,这使我们能够要求随机实现理论(SRT)。我们最终提供了可以通过口香糖,HMC或RNN实现给定协方差序列的条件。
translated by 谷歌翻译
离散状态空间代表了对统计推断的主要计算挑战,因为归一化常数的计算需要在大型或可能的无限集中进行求和,这可能是不切实际的。本文通过开发适合离散可怜的可能性的新型贝叶斯推理程序来解决这一计算挑战。受到连续数据的最新方法学进步的启发,主要思想是使用离散的Fisher Divergence更新有关模型参数的信念,以代替有问题的棘手的可能性。结果是可以使用标准计算工具(例如Markov Chain Monte Carlo)进行采样的广义后部,从而规避了棘手的归一化常数。分析了广义后验的统计特性,并具有足够的后验一致性和渐近正态性的条件。此外,提出了一种新颖的通用后代校准方法。应用程序在离散空间数据的晶格模型和计数数据的多元模型上介绍,在每种情况下,方法论都以低计算成本促进通用的贝叶斯推断。
translated by 谷歌翻译
We introduce and study a novel model-selection strategy for Bayesian learning, based on optimal transport, along with its associated predictive posterior law: the Wasserstein population barycenter of the posterior law over models. We first show how this estimator, termed Bayesian Wasserstein barycenter (BWB), arises naturally in a general, parameter-free Bayesian model-selection framework, when the considered Bayesian risk is the Wasserstein distance. Examples are given, illustrating how the BWB extends some classic parametric and non-parametric selection strategies. Furthermore, we also provide explicit conditions granting the existence and statistical consistency of the BWB, and discuss some of its general and specific properties, providing insights into its advantages compared to usual choices, such as the model average estimator. Finally, we illustrate how this estimator can be computed using the stochastic gradient descent (SGD) algorithm in Wasserstein space introduced in a companion paper arXiv:2201.04232v2 [math.OC], and provide a numerical example for experimental validation of the proposed method.
translated by 谷歌翻译
我们展示了具有高斯流程先验的非线性回归模型中产生的高维单模式后分布的示例后措施浓缩。基于梯度或随机步行步骤,对一般MCMC方案的反示例持有,该理论用于大都市 - 危机调整后的方法,例如PCN和MALA。
translated by 谷歌翻译
通过定义和上限,通过定义和上限,分析了贝叶斯学习的最佳成绩性能,通过限定了最小的过度风险(MER):通过从数据学习和最低预期损失可以实现的最低预期损失之间的差距认识到了。 MER的定义提供了一种原则状的方式来定义贝叶斯学习中的不同概念的不确定性,包括炼膜不确定性和最小的认知不确定性。提出了用于衍生MER的上限的两种方法。第一方法,通常适用于具有参数生成模型的贝叶斯学习,通过在模型参数之间的条件互信息和所观察到的数据预测的量之间的条件相互信息。它允许我们量化MER衰减随着更多数据可用而衰减为零的速率。在可实现的模型中,该方法还将MER与生成函数类的丰富性涉及,特别是二进制分类中的VC维度。具有参数预测模型的第二种方法,特别适用于贝叶斯学习,将MER与来自数据的模型参数的最小估计误差相关联。它明确地说明了模型参数估计中的不确定性如何转化为MER和最终预测不确定性。我们还将MER的定义和分析扩展到具有多个模型系列的设置以及使用非参数模型的设置。沿着讨论,我们在贝叶斯学习中的MER与频繁学习的过度风险之间建立了一些比较。
translated by 谷歌翻译
广义贝叶斯推理使用损失函数而不是可能性的先前信仰更新,因此可以用于赋予鲁棒性,以防止可能的错误规范的可能性。在这里,我们认为广泛化的贝叶斯推论斯坦坦差异作为损失函数的损失,由应用程序的可能性含有难治性归一化常数。在这种情况下,斯坦因差异来避免归一化恒定的评估,并产生封闭形式或使用标准马尔可夫链蒙特卡罗的通用后出版物。在理论层面上,我们显示了一致性,渐近的正常性和偏见 - 稳健性,突出了这些物业如何受到斯坦因差异的选择。然后,我们提供关于一系列棘手分布的数值实验,包括基于内核的指数家庭模型和非高斯图形模型的应用。
translated by 谷歌翻译
大多数现代的潜在变量和概率生成模型,例如变异自动编码器(VAE),即使有无限的数据也无法解决,这些模型也无法解决。此类模型的最新应用表明需要强烈可识别的模型,其中观察结果与唯一的潜在代码相对应。在维持灵活性的同时,取得了进展,最著名的是IVAE(Arxiv:1907.04809 [stat.ml]),该模型排除了许多(但不是全部 - 不确定)。我们构建了一个完整的理论框架,用于分析潜在变量模型的不确定性,并根据生成器函数的属性和潜在变量先验分布精确表征它们。为了说明,我们应用框架以更好地了解最近的可识别性结果的结构。然后,我们研究如何指定强烈识别的潜在变量模型,并构建两个这样的模型。一种是对ivae的直接修饰。另一个想法从最佳运输和导致新颖的模型和连接到最近的工作。
translated by 谷歌翻译
已经引入了生成流量网络(GFlowNETS)作为在主动学习背景下采样多样化候选的方法,具有培训目标,其使它们与给定奖励功能成比例地进行比例。在本文中,我们显示了许多额外的GFLOWN的理论特性。它们可用于估计联合概率分布和一些变量未指定的相应边际分布,并且特别感兴趣地,可以代表像集合和图形的复合对象的分布。 Gflownets摊销了通常通过计算昂贵的MCMC方法在单个但训练有素的生成通行证中进行的工作。它们还可用于估计分区功能和自由能量,给定子集(子图)的超标(超图)的条件概率,以及给定集合(图)的所有超标仪(超图)的边际分布。我们引入了熵和相互信息估计的变体,从帕累托前沿采样,与奖励最大化策略的连接,以及随机环境的扩展,连续动作和模块化能量功能。
translated by 谷歌翻译
标准化流动,扩散归一化流量和变形自动置换器是强大的生成模型。在本文中,我们提供了一个统一的框架来通过马尔可夫链处理这些方法。实际上,我们考虑随机标准化流量作为一对马尔可夫链,满足一些属性,并表明许多用于数据生成的最先进模型适合该框架。马尔可夫链的观点使我们能够将确定性层作为可逆的神经网络和随机层作为大都会加速层,Langevin层和变形自身偏移,以数学上的声音方式。除了具有Langevin层的密度的层,扩散层或变形自身形式,也可以处理与确定性层或大都会加热器层没有密度的层。因此,我们的框架建立了一个有用的数学工具来结合各种方法。
translated by 谷歌翻译
从建模和复杂性角度来看,跨不同范围领域的统计关系表示的行为已成为研究的焦点领域。 2018年,Jaeger和Schulte将分布家族作为关键特性提出了预测性,以确保边际推断与域大小无关。但是,Jaeger和Schulte认为该域仅以其大小为特征。这项贡献将投影率的概念从域大小索引的分布家族到从数据库中进行扩展数据的函数。这使得投影率可用于采用结构化输入的大量应用程序。我们将投影性分配家庭的已知吸引人属性转移到新环境中。此外,我们证明了对无限域的投影率与分布之间的对应关系,我们用来将其统一和推广到无限域中的统计关系表示。最后,我们使用扩展的投影率概念来定义进一步的加强,我们称之为$ \ sigma $ - 标题性,并允许在保留投影率的同时以不同的模式使用相同的表示。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
我们调查了一定类别的功能不等式,称为弱Poincar的不等式,以使Markov链的收敛性与均衡相结合。我们表明,这使得SubGoom测量收敛界的直接和透明的推导出用于独立的Metropolis - Hastings采样器和用于棘手似然性的伪边缘方法,后者在许多实际设置中是子表芯。这些结果依赖于马尔可夫链之间的新量化比较定理。相关证据比依赖于漂移/较小化条件的证据更简单,并且所开发的工具允许我们恢复并进一步延长特定情况的已知结果。我们能够为伪边缘算法的实际使用提供新的见解,分析平均近似贝叶斯计算(ABC)的效果以及独立平均值的产品,以及研究与之相关的逻辑重量的情况粒子边缘大都市 - 黑斯廷斯(PMMH)。
translated by 谷歌翻译
Language modeling, a central task in natural language processing, involves estimating a probability distribution over strings. In most cases, the estimated distribution sums to 1 over all finite strings. However, in some pathological cases, probability mass can ``leak'' onto the set of infinite sequences. In order to characterize the notion of leakage more precisely, this paper offers a measure-theoretic treatment of language modeling. We prove that many popular language model families are in fact tight, meaning that they will not leak in this sense. We also generalize characterizations of tightness proposed in previous works.
translated by 谷歌翻译
切成薄片的距离(SW)是一种计算有效的,理论上是Wasserstein距离的替代方案。然而,关于切片的分布,其统计特性(超出统一度量)的文献很少。为了为这一研究带来新的贡献,我们利用了Pac-bayesian理论和SW实际取决于切片分布依赖的Gibbs风险的中心观察,而Pac-Bayesian的数量范围已经设计为表征。我们提供四种类型的结果:i)在我们称为自适应切片的距离距离的豆豆泛化范围,即针对任何切片的分布定义的距离,ii)学习切片分布的过程最大歧视性的SW,通过优化我们的Pac-bayesian边界,iii)关于如何通过我们的理论来解释所谓的分布分布切片的距离,以及我们发现的经验例证。
translated by 谷歌翻译
Variational autoencoders and Helmholtz machines use a recognition network (encoder) to approximate the posterior distribution of a generative model (decoder). In this paper we study the necessary and sufficient properties of a recognition network so that it can model the true posterior distribution exactly. These results are derived in the general context of probabilistic graphical modelling / Bayesian networks, for which the network represents a set of conditional independence statements. We derive both global conditions, in terms of d-separation, and local conditions for the recognition network to have the desired qualities. It turns out that for the local conditions the property perfectness (for every node, all parents are joined) plays an important role.
translated by 谷歌翻译
令人惊讶的事件触发了可衡量的大脑活动,并通过影响学习,记忆和决策来影响人类行为。但是,目前在惊喜的定义上尚无共识。在这里,我们确定了统一框架中惊喜的18个数学定义。我们首先将这些定义的技术分类基于它们对代理人的信念的依赖,展示它们如何相互关系,并在什么条件下证明它们是无法区分的。除了这项技术分析之外,我们提出了一个惊喜定义的分类法,并根据它们测量的数量将其分类为四个概念类别:(i)“预测惊喜”衡量预测与观察之间的不匹配; (ii)“变更点检测惊喜”衡量了环境变化的可能性; (iii)“信心校正的惊喜”明确说明了信心的影响; (iv)“信息获得惊喜”衡量了对新观察的信念更新。该分类法为大脑中功能作用和生理特征的原则研究奠定了基础。
translated by 谷歌翻译