高效地培训专家模型的大规模混合,现代硬件需要将数据点分配给不同的专家,每个专家都具有有限的容量。最近提出的任务程序缺乏概率解释和使用偏见估算进行培训。作为替代方案,我们提出了基于原则的随机分配程序的两个无偏的估计,其中跳过超过专家容量的DataPoints,以及使用Gumbel匹配分布的延伸来示范完全平衡的作业[29]。两个估算器都是无偏见的,因为它们纠正了使用的采样程序。在玩具实验中,我们发现“Skip'-Expliesator比平衡采样更有效,并且在解决任务方面比偏置替代方案更加强大。
translated by 谷歌翻译
自动编码变化贝叶斯(AEVB)是一种用于拟合潜在变量模型(无监督学习的有前途的方向)的强大而通用的算法,并且是训练变量自动编码器(VAE)的众所周知的。在本教程中,我们专注于从经典的期望最大化(EM)算法中激励AEVB,而不是确定性自动编码器。尽管自然而有些不言而喻,但在最近的深度学习文献中并未强调EM与AEVB之间的联系,我们认为强调这种联系可以改善社区对AEVB的理解。特别是,我们发现(1)优化有关推理参数的证据下限(ELBO)作为近似E-step,并且(2)优化ELBO相对于生成参数作为近似M-step;然后,与AEVB中的同时进行同时进行,然后同时拧紧并推动Elbo。我们讨论如何将近似E-Step解释为执行变异推断。详细讨论了诸如摊销和修复技巧之类的重要概念。最后,我们从划痕中得出了非深度和几个深层变量模型的AEVB训练程序,包括VAE,有条件的VAE,高斯混合物VAE和变异RNN。我们希望读者能够将AEVB认识为一种通用算法,可用于拟合广泛的潜在变量模型(不仅仅是VAE),并将AEVB应用于自己的研究领域中出现的此类模型。所有纳入型号的Pytorch代码均可公开使用。
translated by 谷歌翻译
Categorical variables are a natural choice for representing discrete structure in the world. However, stochastic neural networks rarely use categorical latent variables due to the inability to backpropagate through samples. In this work, we present an efficient gradient estimator that replaces the non-differentiable sample from a categorical distribution with a differentiable sample from a novel Gumbel-Softmax distribution. This distribution has the essential property that it can be smoothly annealed into a categorical distribution. We show that our Gumbel-Softmax estimator outperforms state-of-the-art gradient estimators on structured output prediction and unsupervised generative modeling tasks with categorical latent variables, and enables large speedups on semi-supervised classification. * Work done during an internship at Google Brain.
translated by 谷歌翻译
由于本地潜在变量的数量与数据集缩放,因此难以使用分层模型中的变分推理。因此,分层模型中的推断仍然是大规模的挑战。使用与后部匹配的结构进行变形家庭是有帮助的,但由于局部分布的巨大数量,优化仍然缓慢。相反,本文建议摊销方法,其中共享参数同时表示所有本地分布。这种方法类似地是使用给定的联合分布(例如,全级高斯),但在数据集上是可行的,这些数量幅度较大。它也比使用结构化的变分布速度更快。
translated by 谷歌翻译
The reparameterization trick enables optimizing large scale stochastic computation graphs via gradient descent. The essence of the trick is to refactor each stochastic node into a differentiable function of its parameters and a random variable with fixed distribution. After refactoring, the gradients of the loss propagated by the chain rule through the graph are low variance unbiased estimators of the gradients of the expected loss. While many continuous random variables have such reparameterizations, discrete random variables lack useful reparameterizations due to the discontinuous nature of discrete states. In this work we introduce CONCRETE random variables-CONtinuous relaxations of disCRETE random variables. The Concrete distribution is a new family of distributions with closed form densities and a simple reparameterization. Whenever a discrete stochastic node of a computation graph can be refactored into a one-hot bit representation that is treated continuously, Concrete stochastic nodes can be used with automatic differentiation to produce low-variance biased gradients of objectives (including objectives that depend on the log-probability of latent stochastic nodes) on the corresponding discrete graph. We demonstrate the effectiveness of Concrete relaxations on density estimation and structured prediction tasks using neural networks.
translated by 谷歌翻译
专家混合(MOE)架构表明有希望导致改善多任务学习(MTL)的参数共享以及缩放高容量神经网络。最先进的MOE模型使用培训稀疏门来为每个输入示例选择专家的子集。概念上吸引人的同时,现有的稀疏栅极,如TOP-K并不顺利。缺乏平滑性可以在以梯度为基础的方法培训时导致收敛和统计性能问题。在本文中,我们基于新型二进制编码配方,开发DSelect-K:用于MOE的连续微分和稀疏的浇口。门可以使用诸如随机梯度下降的一阶方法进行培训,并提供对选择的专家数量的显式控制。我们展示了DSelect-K对合成和真实MTL数据集的有效性,最高可达128美元。我们的实验表明,DSelect-k可以在流行的Moe盖茨上实现统计上显着的预测和专家选择。值得注意的是,与Top-K相比,在现实世界的大规模推荐系统中,DSelect-K可实现预测性能超过22±22℃。我们提供DSelect-K的开源实现。
translated by 谷歌翻译
我们提供了一种主动识别分布的小小的变化的方法,从而导致模型性能差异很大。为了确保这些转移是合理的,我们会以观察到的变量的因果机制的可解释变化来对其进行参数化。这定义了合理分布的参数鲁棒性集和相应的最坏情况损失。虽然可以通过重新加权技术(例如重要性抽样)来估算单个参数转移下的损失,但最终的最坏情况优化问题是非convex,并且估计值可能遭受较大的差异。但是,对于小移位,我们可以构建局部二阶近似值,以构建损失的损失,并提出找到最坏情况下的最差偏移作为特定的非凸二次二次优化问题,为此有效算法可用。我们证明,可以直接估计条件指数族模型中的移位,并且绑定了近似误差。我们将方法应用于计算机视觉任务(从图像中对性别进行分类),从而揭示了对非毒物属性转变的敏感性。
translated by 谷歌翻译
We investigate a local reparameterizaton technique for greatly reducing the variance of stochastic gradients for variational Bayesian inference (SGVB) of a posterior over model parameters, while retaining parallelizability. This local reparameterization translates uncertainty about global parameters into local noise that is independent across datapoints in the minibatch. Such parameterizations can be trivially parallelized and have variance that is inversely proportional to the minibatch size, generally leading to much faster convergence. Additionally, we explore a connection with dropout: Gaussian dropout objectives correspond to SGVB with local reparameterization, a scale-invariant prior and proportionally fixed posterior variance. Our method allows inference of more flexibly parameterized posteriors; specifically, we propose variational dropout, a generalization of Gaussian dropout where the dropout rates are learned, often leading to better models. The method is demonstrated through several experiments.
translated by 谷歌翻译
本研究提出了两个新的动态分配算法,将难民和寻求庇护者与东道国内的地理区域相匹配。目前在瑞士的多年来飞行员中实施的第一个,旨在通过最小不和谐的在线分配算法来最大限度地提高难民的平均预期就业水平(或利息的任何衡量结果)。尽管与后视最佳解决方案相比,所提出的算法达到了近乎最佳的预期就业,但它可能会随着时间的推移而导致定期不平衡的分配。这导致了移民资源和代理商的不良工作量低效,他们无法在地方之间移动。为了解决这个问题,第二种算法平衡了改善难民结果的目标,随着时间的推移甚至对每个地方的甚至分配。拟议方法的性能是使用来自美国最大的移民安置机构之一的真正难民移民安置数据进行说明。在此数据集上,我们发现分配平衡算法可以随着时间的推移实现接近完美的平衡,而与纯就业最大化算法相比,预期就业几乎没有损失。此外,分配平衡算法提供了许多辅助益处,包括对未知到达流量的鲁棒性,并通过更大的探索增加弹性。
translated by 谷歌翻译
联合学习的一个区别特征是(本地)客户数据可能具有统计异质性。这种异质性激发了个性化学习的设计,该学习是通过协作培训个人(个性化)模型的。文献中提出了各种个性化方法,似乎截然不同的形式和方法,从将单个全球模型用于本地正规化和模型插值,再到将多个全球模型用于个性化聚类等。在这项工作中,我们开始使用生成框架,可以统一几种不同的算法并暗示新算法。我们将生成框架应用于个性化的估计,并将其连接到经典的经验贝叶斯方法。我们在此框架下制定私人个性化估计。然后,我们将生成框架用于学习,该框架统一了几种已知的个性化FL算法,并提出了新算法。我们建议并研究一种基于知识蒸馏的新算法,该算法的数值优于几种已知算法。我们还为个性化学习方法开发隐私,并保证用户级的隐私和组成。我们通过数值评估估计和学习问题的性能以及隐私,证明了我们提出的方法的优势。
translated by 谷歌翻译
贝叶斯结构学习允许从数据推断贝叶斯网络结构,同时推理认识性不确定性 - 朝着实现现实世界系统的主动因果发现和设计干预的关键因素。在这项工作中,我们为贝叶斯结构学习(DIBS)提出了一般,完全可微分的框架,其在潜在概率图表表示的连续空间中运行。与现有的工作相反,DIBS对局部条件分布的形式不可知,并且允许图形结构和条件分布参数的关节后部推理。这使得我们的配方直接适用于复杂贝叶斯网络模型的后部推理,例如,具有由神经网络编码的非线性依赖性。使用DIBS,我们设计了一种高效,通用的变分推理方法,用于近似结构模型的分布。在模拟和现实世界数据的评估中,我们的方法显着优于关节后部推理的相关方法。
translated by 谷歌翻译
专家(MOE)的稀疏混合物由于具有负担得起的计算开销而有希望的缩放能力,因此引起了极大的兴趣。 Moe将密集的层转换为稀疏的专家,并利用封闭式路由网络使专家有条件地激活。但是,随着专家的数量的增长,带有残酷参数的MOE会受到过度拟合和稀疏数据分配的影响。此类问题在数据有限的任务上尤为严重,因此阻碍了MOE模型通过扩展来提高性能的进度。在这项工作中,我们提出了专家群集的混合 - 一种通用方法,可以使专家层通过在路由阶段施加基于方差的约束来学习更多多样化和适当的知识。我们进一步提出了专门为专家集群结构设计的集群级专家辍学策略。我们的实验表明,MEEC可以提高机器翻译和自然语言理解任务的性能,并提高在有限数据下扩展专家的性能上限。我们还验证了MEEC在缓解过度拟合和稀疏数据分配中起积极的作用。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
我们研究私有综合数据生成查询版本,其中目标是构建差异隐私的敏感数据集的消毒版本,这大致保留了大量统计查询的答案。我们首先介绍一个算法框架,统一文献中的长线迭代算法。在此框架下,我们提出了两种新方法。第一种方法,私人熵投影(PEP),可以被视为MWEM的高级变体,可自适应地重复使用过去查询测量以提高精度。我们的第二种方法,具有指数机制(GEM)的生成网络,通过优化由神经网络参数化的生成模型来避免MWEM和PEP等算法中的计算瓶颈,该分布族捕获了丰富的分布系列,同时实现了快速的基于梯度的优化。我们展示了PEP和GEM经验胜过现有算法。此外,我们表明宝石很好地纳入了公共数据的先前信息,同时克服了PMW ^ PUB的限制,现有的现有方法也利用公共数据。
translated by 谷歌翻译
概率程序为生成模型提供了表达性表示语言。给定概率程序,我们对后验推断的任务感兴趣:在给定一组观察到的变量的情况下,估计潜在变量。现有的概率计划中推断技术通常需要选择许多超参数,在计算上是昂贵的,并且/或仅适用于限制类别的程序。在这里,我们将推断作为掩盖语言建模:给定程序,我们生成了一个监督的变量和作业数据集,并随机掩盖了作业的子集。然后,我们训练神经网络以揭示随机值,从而定义了近似后验分布。通过在各种程序中优化单个神经网络,我们可以摊销培训的成本,从而产生“基础”后部能够对新程序进行零弹性推断。基础后验也可以通过优化变异推理目标来微调特定程序和数据集。我们在Stan程序的基准上显示了该方法的功效,零射和微调。
translated by 谷歌翻译
顺序蒙特卡洛(SMC)是状态空间模型的推理算法,通过从一系列中间目标分布进行采样来近似后验。目标分布通常被选择为过滤分布,但是这些忽略了未来观察结果的信息,从而导致推理和模型学习的实际和理论局限性。我们介绍了SIXO,这种方法将学习近似平滑分布的目标,并结合了所有观测值的信息。关键思想是使用密度比估计来拟合将过滤分布扭曲到平滑分布中的功能。然后,我们将SMC与这些学习的目标一起使用,以定义模型和建议学习的变异目标。六体的产量可证明更紧密的对数边缘下限,并在各种域中提供了更准确的后验推断和参数估计。
translated by 谷歌翻译
在诸如增强学习和变分自动编码器(VAE)培训等上下文中,梯度估计通常是将生成模型与离散潜在变量拟合的必要条件。撤销估计器(Yin等,2020; Dong,Mnih和Tucker 2020)在许多情况下实现了Bernoulli潜在变量模型的最新梯度差异。然而,撤消和其他估计器在参数空间的边界附近可能会爆炸方差,而解决方案倾向于存在。为了改善此问题,我们提出了一个新的梯度估计器\ textIt {BitFlip} -1,该{Bitflip} -1在参数空间边界的方差较低。由于BITFLIP-1具有与现有估计器的互补属性,因此我们引入了一个汇总的估计器,\ textIt {无偏梯度方差剪辑}(UGC),该估计量使用BITFLIP-1或每个坐标的摘要梯度更新。从理论上讲,我们证明UGC的差异均高于解除武装。从经验上讲,我们观察到UGC在玩具实验,离散的VAE训练以及最佳子集选择问题中实现了优化目标的最佳价值。
translated by 谷歌翻译
概率分布允许从业者发现数据中的隐藏结构,并构建模型,以使用有限的数据解决监督的学习问题。该报告的重点是变异自动编码器,这是一种学习大型复杂数据集概率分布的方法。该报告提供了对变异自动编码器的理论理解,并巩固了该领域的当前研究。该报告分为多个章节,第一章介绍了问题,描述了变异自动编码器并标识了该领域的关键研究方向。第2、3、4和5章深入研究了每个关键研究领域的细节。第6章总结了报告,并提出了未来工作的指示。具有机器学习基本思想但想了解机器学习研究中的一般主题的读者可以从报告中受益。该报告解释了有关学习概率分布的中心思想,人们为使这种危险做些什么,并介绍了有关当前如何应用深度学习的细节。该报告还为希望为这个子场做出贡献的人提供了温和的介绍。
translated by 谷歌翻译
深度学习体系结构中离散算法组件的集成具有许多应用。最近,隐含的最大似然估计(Imle,Niepert,Minervini和Franceschi 2021)是一类用于离散指数家庭分布的梯度估计器,是通过通过与路径级别梯度估计器组合隐式分化来结合隐式分化的。但是,由于梯度的有限差近似,它对需要由用户指定的有限差步长的选择特别敏感。在这项工作中,我们提出了自适应IMLE(AIMLE),是第一个用于复杂离散分布的自适应梯度估计器:它通过在梯度估计中以偏见程度来换取梯度信息的密度来适应IMLE的目标分布。我们从经验上评估了关于合成示例的估计量,以及学习解释,离散的变异自动编码器和神经关系推理任务。在我们的实验中,我们表明我们的自适应梯度估计器可以产生忠实的估计值,同时需要的样本较少,而样品比其他梯度估计器少。
translated by 谷歌翻译
Perturb-and-MAP offers an elegant approach to approximately sample from an energy-based model (EBM) by computing the maximum-a-posteriori (MAP) configuration of a perturbed version of the model. Sampling in turn enables learning. However, this line of research has been hindered by the general intractability of the MAP computation. Very few works venture outside tractable models, and when they do, they use linear programming approaches, which as we show, have several limitations. In this work, we present perturb-and-max-product (PMP), a parallel and scalable mechanism for sampling and learning in discrete EBMs. Models can be arbitrary as long as they are built using tractable factors. We show that (a) for Ising models, PMP is orders of magnitude faster than Gibbs and Gibbs-with-Gradients (GWG) at learning and generating samples of similar or better quality; (b) PMP is able to learn and sample from RBMs; (c) in a large, entangled graphical model in which Gibbs and GWG fail to mix, PMP succeeds.Preprint. Under review.
translated by 谷歌翻译