从业者在大约六十年内成功地使用不同问题的隐藏马尔可夫链(HMC)。HMCS属于生成模型系列,它们通常与鉴别模型相比,如条件随机字段(CRF)。作者通常认为CRF与HMCs完全不同,CRF通常呈现为HMCS的有趣替代品。在某些领域,如自然语言处理(NLP),歧视模型具有完全涂覆的生成模型。然而,最近的一些结果表明,两个型号的家庭都没有如此不同,两者都可以导致相同的处理能力。在本文中,我们将简单的线性链CRF与基本HMC进行比较。我们表明HMCS与CRF相同,因为每个CRF我们明确构建具有相同后部分布的HMC。因此,HMCS和线性链CRFS不不同,但只是不同的参数化模型。
translated by 谷歌翻译
Practitioners use Hidden Markov Models (HMMs) in different problems for about sixty years. Besides, Conditional Random Fields (CRFs) are an alternative to HMMs and appear in the literature as different and somewhat concurrent models. We propose two contributions. First, we show that basic Linear-Chain CRFs (LC-CRFs), considered as different from the HMMs, are in fact equivalent to them in the sense that for each LC-CRF there exists a HMM - that we specify - whom posterior distribution is identical to the given LC-CRF. Second, we show that it is possible to reformulate the generative Bayesian classifiers Maximum Posterior Mode (MPM) and Maximum a Posteriori (MAP) used in HMMs, as discriminative ones. The last point is of importance in many fields, especially in Natural Language Processing (NLP), as it shows that in some situations dropping HMMs in favor of CRFs was not necessary.
translated by 谷歌翻译
我们应对贝叶斯生成和鉴别的分类器。鉴于模型分发$ p(x,y)$,观察$ y $和目标$ x $,首先考虑$ p(x,y)$,然后使用贝叶斯规则计算生成分类器来计算$ p(x | y)$。判别模型由$ p(x | y)$直接给出,用于计算判别分类器。然而,最近的作品表明,贝叶斯最大后级分类器定义由天真贝叶斯(NB)或隐藏的Markov链(HMC),两种生成模型也可以匹配鉴别的分类器定义。因此,存在将分类器分类为“生成”和“鉴别性”的情况有点误导。实际上,这种区别与计算分类器的方式相当相关,而不是分类器本身。我们介绍了一般理论结果,指定如何以与相同模型的鉴别方式计算从生成模型引起的生成分类器。 NB和HMC的示例再次找到特定情况,并且我们将一般结果应用于两个NB的原始扩展,以及HMC的两个扩展,其中一个是原始的。最后,我们很快地说明了自然语言处理中计算分类器(NLP)框架的新判别方式的兴趣。
translated by 谷歌翻译
朴素的贝父是一种流行的概率模型,其简单和可解释性得到了赞赏。然而,相关分类器的通常形式遭受了两个主要问题。首先,作为关心观察法律,它无法考虑复杂的功能。此外,它考虑了给定隐藏变量的观察结果的条件独立性。本文介绍了原始神经野贝雷斯,用神经网络功能造型从幼稚贝叶斯诱导的分类器的参数。这允许纠正第一个问题。我们还介绍了新的神经汇总马尔可夫链模型,减轻了独立条件。我们经验研究了这些模型的情绪分析的好处,将通常分类器的误差划分为4.5在IMDB数据集中与FastText嵌入的IMDB数据集。
translated by 谷歌翻译
在此,隐藏的马尔可夫模型将扩展,以允许马尔可夫链观测。特别是,观察结果被认为是马尔可夫链,其一个步骤过渡概率取决于隐藏的马尔可夫链。为这种更一般的模型开发了对Baum-Welch算法的预期最大化类似物,以估计隐藏状态和观测值的过渡概率,并估算初始关节隐藏状态分布的概率。信仰状态或过滤器递归跟踪隐藏状态,然后是由于该期望最大化算法的计算而产生的。还开发了一种与Viterbi算法的动态编程类似物,以估计鉴于观测值序列,最可能的隐藏状态序列。
translated by 谷歌翻译
离散状态空间代表了对统计推断的主要计算挑战,因为归一化常数的计算需要在大型或可能的无限集中进行求和,这可能是不切实际的。本文通过开发适合离散可怜的可能性的新型贝叶斯推理程序来解决这一计算挑战。受到连续数据的最新方法学进步的启发,主要思想是使用离散的Fisher Divergence更新有关模型参数的信念,以代替有问题的棘手的可能性。结果是可以使用标准计算工具(例如Markov Chain Monte Carlo)进行采样的广义后部,从而规避了棘手的归一化常数。分析了广义后验的统计特性,并具有足够的后验一致性和渐近正态性的条件。此外,提出了一种新颖的通用后代校准方法。应用程序在离散空间数据的晶格模型和计数数据的多元模型上介绍,在每种情况下,方法论都以低计算成本促进通用的贝叶斯推断。
translated by 谷歌翻译
We introduce and study a novel model-selection strategy for Bayesian learning, based on optimal transport, along with its associated predictive posterior law: the Wasserstein population barycenter of the posterior law over models. We first show how this estimator, termed Bayesian Wasserstein barycenter (BWB), arises naturally in a general, parameter-free Bayesian model-selection framework, when the considered Bayesian risk is the Wasserstein distance. Examples are given, illustrating how the BWB extends some classic parametric and non-parametric selection strategies. Furthermore, we also provide explicit conditions granting the existence and statistical consistency of the BWB, and discuss some of its general and specific properties, providing insights into its advantages compared to usual choices, such as the model average estimator. Finally, we illustrate how this estimator can be computed using the stochastic gradient descent (SGD) algorithm in Wasserstein space introduced in a companion paper arXiv:2201.04232v2 [math.OC], and provide a numerical example for experimental validation of the proposed method.
translated by 谷歌翻译
标准化流动,扩散归一化流量和变形自动置换器是强大的生成模型。在本文中,我们提供了一个统一的框架来通过马尔可夫链处理这些方法。实际上,我们考虑随机标准化流量作为一对马尔可夫链,满足一些属性,并表明许多用于数据生成的最先进模型适合该框架。马尔可夫链的观点使我们能够将确定性层作为可逆的神经网络和随机层作为大都会加速层,Langevin层和变形自身偏移,以数学上的声音方式。除了具有Langevin层的密度的层,扩散层或变形自身形式,也可以处理与确定性层或大都会加热器层没有密度的层。因此,我们的框架建立了一个有用的数学工具来结合各种方法。
translated by 谷歌翻译
通过定义和上限,通过定义和上限,分析了贝叶斯学习的最佳成绩性能,通过限定了最小的过度风险(MER):通过从数据学习和最低预期损失可以实现的最低预期损失之间的差距认识到了。 MER的定义提供了一种原则状的方式来定义贝叶斯学习中的不同概念的不确定性,包括炼膜不确定性和最小的认知不确定性。提出了用于衍生MER的上限的两种方法。第一方法,通常适用于具有参数生成模型的贝叶斯学习,通过在模型参数之间的条件互信息和所观察到的数据预测的量之间的条件相互信息。它允许我们量化MER衰减随着更多数据可用而衰减为零的速率。在可实现的模型中,该方法还将MER与生成函数类的丰富性涉及,特别是二进制分类中的VC维度。具有参数预测模型的第二种方法,特别适用于贝叶斯学习,将MER与来自数据的模型参数的最小估计误差相关联。它明确地说明了模型参数估计中的不确定性如何转化为MER和最终预测不确定性。我们还将MER的定义和分析扩展到具有多个模型系列的设置以及使用非参数模型的设置。沿着讨论,我们在贝叶斯学习中的MER与频繁学习的过度风险之间建立了一些比较。
translated by 谷歌翻译
隐藏的马尔可夫链(HMC)和复发性神经网络(RNN)是预测时间序列的两个知名工具。即使这些解决方案是在不同的社区中独立开发的,但当被认为是概率结构时,它们具有一些相似之处。因此,在本文中,我们首先将HMC和RNN视为生成模型,然后将这两个结构嵌入了共同的生成统一模型(GUM)中。接下来,我们讨论了这些模型表达性的比较研究。为此,我们假设模型是线性和高斯。这些模型产生的概率分布以结构化协方差序列为特征,因此表达性降低到比较结构化协方差序列的集合,这使我们能够要求随机实现理论(SRT)。我们最终提供了可以通过口香糖,HMC或RNN实现给定协方差序列的条件。
translated by 谷歌翻译
我们基于电子价值开发假设检测理论,这是一种与p值不同的证据,允许毫不费力地结合来自常见场景中的几项研究的结果,其中决定执行新研究可能取决于以前的结果。基于E-V值的测试是安全的,即它们在此类可选的延续下保留I型错误保证。我们将增长速率最优性(GRO)定义为可选的连续上下文中的电力模拟,并且我们展示了如何构建GRO E-VARIABLE,以便为复合空缺和替代,强调模型的常规测试问题,并强调具有滋扰参数的模型。 GRO E值采取具有特殊前瞻的贝叶斯因子的形式。我们使用几种经典示例说明了该理论,包括一个样本安全T检验(其中右哈尔前方的右手前锋为GE)和2x2差价表(其中GRE之前与标准前沿不同)。分享渔业,奈曼和杰弗里斯·贝叶斯解释,电子价值观和相应的测试可以提供所有三所学校的追随者可接受的方法。
translated by 谷歌翻译
为了克服拓扑限制并提高常规流量架构,吴,K \“ohler和No \'e的表达性引入了随机采样方法的随机标准化流程,该流程与随机取样方法相结合的确定性,可学习的流动变换。在本文中,我们考虑随机标准化流量一个马尔可夫链的观点。特别是,我们通过马尔可夫内核替换过渡密度,并通过氡-Nikodym衍生物建立证据,允许以声音方式结合没有密度的分布。此外,我们概括了从后部分布中抽样的结果逆问题所需。通过数值实施例证明了所提出的条件随机标准化流程的性能。
translated by 谷歌翻译
计数示意图(CMS)是一个时间和内存有效的随机数据结构,可根据随机哈希的数据提供令牌数据流(即点查询)中代币频率的估计。 CAI,Mitzenmacher和Adams(\ textit {neurips} 2018)提出了CMS的学习增强版本,称为CMS-DP,它依赖于贝叶斯非参与式(BNP)模型通过dirichlet过程(DP),给定数据,估计点查询作为位置查询后验分布的合适平均功能的估计值给定数据。尽管CMS-DP已被证明可以改善CMS的某些方面,但它具有``建设性的''证明的主要缺点,该证明是基于针对DP先验的论点构建的,即对其他非参数priors不使用的论点。在本文中,我们提出了CMS-DP的``贝叶斯''证明,其主要优点是基于原则上可用的参数,在广泛的非参数先验中,这是由归一化的完全随机措施引起的。该结果导致在Power-Law数据流下开发了一种新颖的学习增强的CMS,称为CMS-PYP,该CMS-PYP依赖于Pitman-Yor流程(PYP)的BNP模型。在这个更一般的框架下,我们应用了CMS-DP的``贝叶斯人''证明的论点,适当地适合PYP先验,以计算鉴于Hashed Data。数据和真实文本数据显示,CMS-PYP在估计低频代币方面优于CMS和CMS-DP,这在文本数据中是至关重要的,并且相对于CMS的变化,它具有竞争力还讨论了为低频代币设计的。还讨论了我们BNP方法扩展到更通用的查询。
translated by 谷歌翻译
Language modeling, a central task in natural language processing, involves estimating a probability distribution over strings. In most cases, the estimated distribution sums to 1 over all finite strings. However, in some pathological cases, probability mass can ``leak'' onto the set of infinite sequences. In order to characterize the notion of leakage more precisely, this paper offers a measure-theoretic treatment of language modeling. We prove that many popular language model families are in fact tight, meaning that they will not leak in this sense. We also generalize characterizations of tightness proposed in previous works.
translated by 谷歌翻译
广义贝叶斯推理使用损失函数而不是可能性的先前信仰更新,因此可以用于赋予鲁棒性,以防止可能的错误规范的可能性。在这里,我们认为广泛化的贝叶斯推论斯坦坦差异作为损失函数的损失,由应用程序的可能性含有难治性归一化常数。在这种情况下,斯坦因差异来避免归一化恒定的评估,并产生封闭形式或使用标准马尔可夫链蒙特卡罗的通用后出版物。在理论层面上,我们显示了一致性,渐近的正常性和偏见 - 稳健性,突出了这些物业如何受到斯坦因差异的选择。然后,我们提供关于一系列棘手分布的数值实验,包括基于内核的指数家庭模型和非高斯图形模型的应用。
translated by 谷歌翻译
Bayesian causal structure learning aims to learn a posterior distribution over directed acyclic graphs (DAGs), and the mechanisms that define the relationship between parent and child variables. By taking a Bayesian approach, it is possible to reason about the uncertainty of the causal model. The notion of modelling the uncertainty over models is particularly crucial for causal structure learning since the model could be unidentifiable when given only a finite amount of observational data. In this paper, we introduce a novel method to jointly learn the structure and mechanisms of the causal model using Variational Bayes, which we call Variational Bayes-DAG-GFlowNet (VBG). We extend the method of Bayesian causal structure learning using GFlowNets to learn not only the posterior distribution over the structure, but also the parameters of a linear-Gaussian model. Our results on simulated data suggest that VBG is competitive against several baselines in modelling the posterior over DAGs and mechanisms, while offering several advantages over existing methods, including the guarantee to sample acyclic graphs, and the flexibility to generalize to non-linear causal mechanisms.
translated by 谷歌翻译
Authors are encouraged to submit new papers to INFORMS journals by means of a style file template, which includes the journal title. However, use of a template does not certify that the paper has been accepted for publication in the named journal. INFORMS journal templates are for the exclusive purpose of submitting to an INFORMS journal and should not be used to distribute the papers in print or online or to submit the papers to another publication.
translated by 谷歌翻译
我们推出了可实现的机器学习模型的贝叶斯风险和泛化误差的信息 - 理论下限。特别地,我们采用了一个分析,其中模型参数的速率失真函数在训练样本和模型参数之间界定了所需的互信息,以便向贝叶斯风险约束学习模型。对于可实现的模型,我们表明,速率失真函数和相互信息承认的表达式,方便分析。对于在其参数中(大致)较低的LipsChitz的模型,我们将从下面的速率失真函数绑定,而对于VC类,相互信息以高于$ d_ \ mathrm {vc} \ log(n)$。当这些条件匹配时,贝叶斯相对于零一个损耗尺度的风险不足于$ \ oomega(d_ \ mathrm {vc} / n)$,它与已知的外界和最小界限匹配对数因子。我们还考虑标签噪声的影响,在训练和/或测试样本损坏时提供下限。
translated by 谷歌翻译
自Venkatakrishnan等人的开创性工作以来。 2013年,即插即用(PNP)方法在贝叶斯成像中变得普遍存在。这些方法通过将显式似然函数与预定由图像去噪算法隐式定义的明确定义,导出用于成像中的逆问题的最小均方误差(MMSE)或最大后验误差(MAP)估计器。文献中提出的PNP算法主要不同于他们用于优化或采样的迭代方案。在优化方案的情况下,一些最近的作品能够保证收敛到一个定点,尽管不一定是地图估计。在采样方案的情况下,据我们所知,没有已知的收敛证明。关于潜在的贝叶斯模型和估算器是否具有明确定义,良好的良好,并且具有支持这些数值方案所需的基本规律性属性,还存在重要的开放性问题。为了解决这些限制,本文开发了用于对PNP前锋进行贝叶斯推断的理论,方法和可忽略的会聚算法。我们介绍了两个算法:1)PNP-ULA(未调整的Langevin算法),用于蒙特卡罗采样和MMSE推断; 2)PNP-SGD(随机梯度下降)用于MAP推理。利用Markov链的定量融合的最新结果,我们为这两种算法建立了详细的收敛保证,在现实假设下,在去噪运营商使用的现实假设下,特别注意基于深神经网络的遣散者。我们还表明这些算法大致瞄准了良好的决策理论上最佳的贝叶斯模型。所提出的算法在几种规范问题上证明了诸如图像去纹,染色和去噪,其中它们用于点估计以及不确定的可视化和量化。
translated by 谷歌翻译
The derivation of key equations for the variational Bayes approach is well-known in certain circles. However, translating the fundamental derivations (e.g., as found in Beal's work) to Friston's notation is somewhat delicate. Further, the notion of using variational Bayes in the context of a system with a Markov blanket requires special attention. This Technical Report presents the derivation in detail. It further illustrates how the variational Bayes method provides a framework for a new computational engine, incorporating the 2-D cluster variation method (CVM), which provides a necessary free energy equation that can be minimized across both the external and representational systems' states, respectively.
translated by 谷歌翻译