贝叶斯网络中的精确推断非常棘手,并且对相应集团树(CT)中最大集团的大小具有指数依赖性,因此需要近似。基于因子的结合物大小的方法比基于结构的方法更准确,但是昂贵,因为它们涉及大量候选结构或区域图中的信念的推断。我们提出了一种基于增量的建筑 - 上方(ibia)范式的近似推断的替代方法,该方法将贝叶斯网络转换为包含一系列链接的集团森林(SLCTF)的数据结构,并由用户包围的集团尺寸 - 指定值。在此方法的增量构建阶段中,只要集团大小在指定的界限内,CTF是通过向CTF添加变量来逐步构建的。一旦达到集团尺寸约束,CTF中的CTS就会在IBIA的推断阶段进行校准。所得的集团信念在近似阶段使用,以获得较小的集团大小的近似CTF。近似CTF构成了序列中下一个CTF的起点。重复这些步骤,直到将所有变量添加到序列中的CTF中。我们证明,我们用于汇总树的增量结构的算法始终会产生有效的CT,并且我们的近似技术保留了一个集团内变量的共同信念。基于此,我们表明SLCTF数据结构可用于有效的分区功能以及先验和后边缘的近似推断。使用了500多个基准测试该方法,与其他近似方法相比,结果显示出具有竞争力的运行时的误差显着降低。
translated by 谷歌翻译
概率图形模型(PGM)是解决多种概率分布的复杂关系系统的强大工具。但是,虽然树结构的PGM始终导致有效和精确的解决方案,但是图表(或循环)的推断不保证发现最佳解决方案。原则上可以将循环PGM转换为等同的树结构,但由于指数爆炸,这对于有趣的问题通常是不切实际的。要解决此问题,我们开发了净化和合并算法。该算法通过选择性合并因子来迭代朝向树结构朝向树结构阐述。合并过程旨在避免通过稀疏结构的指数爆炸,因为算法进行了冗余的冗余。我们设置任务以测试约束满意拼图(如Sudoku,Fill-A-Pix和Kakuro)的算法,并且在文献中报告了其他基于PGM的方法。虽然我们设置的任务专注于CSP的二进制逻辑,但我们认为可以将吹扫和合并算法扩展到一般PGM推理。
translated by 谷歌翻译
We present a new algorithm for Bayesian network structure learning, called Max-Min Hill-Climbing (MMHC). The algorithm combines ideas from local learning, constraint-based, and search-and-score techniques in a principled and effective way. It first reconstructs the skeleton of a Bayesian network and then performs a Bayesian-scoring greedy hill-climbing search to orient the edges. In our extensive empirical evaluation MMHC outperforms on average and in terms of various metrics several prototypical and state-of-the-art algorithms, namely the PC, Sparse Candidate, Three Phase Dependency Analysis, Optimal Reinsertion, Greedy Equivalence Search, and Greedy Search. These are the first empirical results simultaneously comparing most of the major Bayesian network algorithms against each other. MMHC offers certain theoretical advantages, specifically over the Sparse Candidate algorithm, corroborated by our experiments. MMHC and detailed results of our study are publicly available at http://www.dsl-lab.org/supplements/mmhc paper/mmhc index.html.
translated by 谷歌翻译
In this paper we prove the so-called "Meek Conjecture". In particular, we show that if a DAG H is an independence map of another DAG G, then there exists a finite sequence of edge additions and covered edge reversals in G such that (1) after each edge modification H remains an independence map of G and ( 2) after all modifications G = H. As shown by Meek (1997), this result has an important consequence for Bayesian approaches to learning Bayesian networks from data: in the limit of large sample size, there exists a twophase greedy search algorithm that-when applied to a particular sparsely-connected search space-provably identifies a perfect map of the generative distribution if that perfect map is a DAG. We provide a new implementation of the search space, using equivalence classes as states, for which all operators used in the greedy search can be scored efficiently using local functions of the nodes in the domain. Finally, using both synthetic and real-world datasets, we demonstrate that the two-phase greedy approach leads to good solutions when learning with finite sample sizes.
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译
贝叶斯网络是概率图形模型,可以紧凑地代表随机变量之间的依赖性。缺少数据和隐藏变量需要计算变量子集的边际概率分布。虽然了解边际概率分布的知识对于统计和机器学习中的各种问题至关重要,但由于该任务的NP硬度,其确切的计算通常不可能对分类变量不可行。我们使用贝叶斯网络的图形属性开发了分频和征服方法,以将边际概率分布的计算分成较低维度的子计算,降低整体计算复杂性。利用此属性,我们提出了一种估计分类变量的边际概率分布的有效和可扩展的算法。将新方法与基准测试中的最先进的近似推理方法进行比较,在那里显示出优异的性能。作为即时申请,我们展示了边际概率分布如何用于对贝叶斯网络的不完全数据进行分类,并使用这种方法来鉴定肾癌患者样品的癌症亚型。
translated by 谷歌翻译
This paper presents a tutorial introduction to the use of variational methods for inference and learning in graphical models (Bayesian networks and Markov random fields). We present a number of examples of graphical models, including the QMR-DT database, the sigmoid belief network, the Boltzmann machine, and several variants of hidden Markov models, in which it is infeasible to run exact inference algorithms. We then introduce variational methods, which exploit laws of large numbers to transform the original graphical model into a simplified graphical model in which inference is efficient. Inference in the simpified model provides bounds on probabilities of interest in the original model. We describe a general framework for generating variational transformations based on convex duality. Finally we return to the examples and demonstrate how variational algorithms can be formulated in each case.
translated by 谷歌翻译
贝叶斯网络是概率的图形模型,广泛用于了解高维数据的依赖关系,甚至促进因果发现。学习作为定向的非循环图(DAG)编码的底层网络结构是高度具有挑战性的,主要是由于大量可能的网络与非狭窄性约束结合。努力专注于两个前面:基于约束的方法,该方法执行条件独立测试,以排除具有贪婪或MCMC方案的DAG空间的边缘和分数和搜索方法。在这里,我们以一种新的混合方法综合这两个领域,这降低了基于约束方法的MCMC方法的复杂性。 MCMC方案中的各个步骤仅需要简单的表查找,以便可以有效地获得非常长的链。此外,该方案包括迭代过程,以校正来自条件独立测试的错误。该算法对替代方案提供了显着卓越的性能,特别是因为也可以从后部分布采样DAG,从而实现全面的贝叶斯模型为大量较大的贝叶斯网络进行平均。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
因果结构学习是许多领域的关键问题。通过对感兴趣系统进行实验来学习因果结构。我们解决了设计一批实验的主要原因,每个实验中同时干预多个变量。虽然可能比常用的单变干预措施更具信息丰富,但选择这种干预措施是更具挑战性的,这是由于复合干预措施的双指数组合搜索空间。在本文中,我们开发有效的算法,以优化量化预算限制批次实验的信息性的不同目标函数。通过建立这些目标的新型子模具性质,我们为我们的算法提供近似保证。我们的算法经验上优于随机干预和算法,只能选择单变化干预。
translated by 谷歌翻译
这是机器学习中(主要是)笔和纸练习的集合。练习在以下主题上:线性代数,优化,定向图形模型,无向图形模型,图形模型的表达能力,因子图和消息传递,隐藏马尔可夫模型的推断,基于模型的学习(包括ICA和非正态模型),采样和蒙特卡洛整合以及变异推断。
translated by 谷歌翻译
决策树学习是机器学习中广泛使用的方法,在需要简洁明了的模型的应用中受到青睐。传统上,启发式方法用于快速生产具有相当高准确性的模型。然而,一个普遍的批评是,从精度和大小方面,所产生的树可能不一定是数据的最佳表示。近年来,这激发了最佳分类树算法的发展,这些算法与执行一系列本地最佳决策的启发式方法相比,在全球范围内优化决策树。我们遵循这一工作线,并提供了一种基于动态编程和搜索的最佳分类树的新颖算法。我们的算法支持对树的深度和节点数量的约束。我们方法的成功归因于一系列专门技术,这些技术利用了分类树独有的属性。传统上,最佳分类树的算法受到了高运行时的困扰和有限的可伸缩性,但我们在一项详细的实验研究中表明,我们的方法仅使用最先进的时间所需的时间,并且可以处理数十个数据集的数据集在数千个实例中,提供了几个数量级的改进,并特别有助于实现最佳决策树的实现。
translated by 谷歌翻译
结构分解方法,例如普遍的高树木分解,已成功用于解决约束满意度问题(CSP)。由于可以重复使用分解以求解具有相同约束范围的CSP,因此即使计算本身很难,将资源投资于计算良好的分解是有益的。不幸的是,即使示波器仅略有变化,当前方法也需要计算全新的分解。在本文中,我们迈出了解决CSP $ P $分解的问题的第一步,以使其成为由$ P $修改产生的新CSP $ P'$的有效分解。即使从理论上讲问题很难,我们还是提出并实施了一个有效更新GHD的框架。我们算法的实验评估强烈提出了实际适用性。
translated by 谷歌翻译
常用图是表示和可视化因果关系的。对于少量变量,这种方法提供了简洁和清晰的方案的视图。随着下属的变量数量增加,图形方法可能变得不切实际,并且表示的清晰度丢失。变量的聚类是减少因果图大小的自然方式,但如果任意实施,可能会错误地改变因果关系的基本属性。我们定义了一种特定类型的群集,称为Transit Cluster,保证在某些条件下保留因果效应的可识别性属性。我们提供了一种用于在给定图中查找所有传输群集的声音和完整的算法,并演示集群如何简化因果效应的识别。我们还研究了逆问题,其中一个人以群集的图形开始,寻找扩展图,其中因果效应的可识别性属性保持不变。我们表明这种结构稳健性与过境集群密切相关。
translated by 谷歌翻译
优化在离散变量上的高度复杂的成本/能源功能是不同科学学科和行业的许多公开问题的核心。一个主要障碍是在硬实例中的某些变量子集之间的出现,导致临界减慢或集体冻结了已知的随机本地搜索策略。通常需要指数计算工作来解冻这种变量,并探索配置空间的其他看不见的区域。在这里,我们通过开发自适应梯度的策略来介绍一个量子启发的非本球非识别蒙特卡罗(NMC)算法,可以有效地学习成本函数的关键实例的几何特征。该信息随行使用,以构造空间不均匀的热波动,用于以各种长度尺度集体未填充变量,规避昂贵的勘探与开发权衡。我们将算法应用于两个最具挑战性的组合优化问题:随机k可满足(K-SAT)附近计算阶段转换和二次分配问题(QAP)。我们在专业的确定性求解器和通用随机求解器上观察到显着的加速和鲁棒性。特别是,对于90%的随机4-SAT实例,我们发现了最佳专用确定性算法无法访问的解决方案,该算法(SP)具有最强的10%实例的解决方案质量的大小提高。我们还通过最先进的通用随机求解器(APT)显示出在最先进的通用随机求解器(APT)上的时间到溶液的两个数量级改善。
translated by 谷歌翻译
贝叶斯结构学习允许人们对负责生成给定数据的因果定向无环图(DAG)捕获不确定性。在这项工作中,我们提出了结构学习(信任)的可疗法不确定性,这是近似后推理的框架,依赖于概率回路作为我们后验信仰的表示。与基于样本的后近似值相反,我们的表示可以捕获一个更丰富的DAG空间,同时也能够通过一系列有用的推理查询来仔细地理解不确定性。我们从经验上展示了如何将概率回路用作结构学习方法的增强表示,从而改善了推断结构和后部不确定性的质量。有条件查询的实验结果进一步证明了信任的表示能力的实际实用性。
translated by 谷歌翻译
Pearl's Do Colculus是一种完整的公理方法,可以从观察数据中学习可识别的因果效应。如果无法识别这种效果,则有必要在系统中执行经常昂贵的干预措施以学习因果效应。在这项工作中,我们考虑了设计干预措施以最低成本来确定所需效果的问题。首先,我们证明了这个问题是NP-HARD,随后提出了一种可以找到最佳解或对数因子近似值的算法。这是通过在我们的问题和最小击球设置问题之间建立联系来完成的。此外,我们提出了几种多项式启发式算法来解决问题的计算复杂性。尽管这些算法可能会偶然发现亚最佳解决方案,但我们的模拟表明它们在随机图上产生了小的遗憾。
translated by 谷歌翻译
随机块模型(SBM)是一个随机图模型,其连接不同的顶点组不同。它被广泛用作研究聚类和社区检测的规范模型,并提供了肥沃的基础来研究组合统计和更普遍的数据科学中出现的信息理论和计算权衡。该专着调查了最近在SBM中建立社区检测的基本限制的最新发展,无论是在信息理论和计算方案方面,以及各种恢复要求,例如精确,部分和弱恢复。讨论的主要结果是在Chernoff-Hellinger阈值中进行精确恢复的相转换,Kesten-Stigum阈值弱恢复的相变,最佳的SNR - 单位信息折衷的部分恢复以及信息理论和信息理论之间的差距计算阈值。该专着给出了在寻求限制时开发的主要算法的原则推导,特别是通过绘制绘制,半定义编程,(线性化)信念传播,经典/非背带频谱和图形供电。还讨论了其他块模型的扩展,例如几何模型和一些开放问题。
translated by 谷歌翻译
我们分析了在没有特定分布假设的常规设置中从观察数据的学习中学循环图形模型的复杂性。我们的方法是信息定理,并使用本地马尔可夫边界搜索程序,以便在基础图形模型中递归地构建祖先集。也许令人惊讶的是,我们表明,对于某些图形集合,一个简单的前向贪婪搜索算法(即没有向后修剪阶段)足以学习每个节点的马尔可夫边界。这显着提高了我们在节点的数量中显示的样本复杂性。然后应用这一点以在从文献中概括存在现有条件的新型标识性条件下学习整个图。作为独立利益的问题,我们建立了有限样本的保障,以解决从数据中恢复马尔可夫边界的问题。此外,我们将我们的结果应用于特殊情况的Polytrees,其中假设简化,并提供了多项识别的明确条件,并且在多项式时间中可以识别和可知。我们进一步说明了算法在仿真研究中易于实现的算法的性能。我们的方法是普遍的,用于无需分布假设的离散或连续分布,并且由于这种棚灯对有效地学习来自数据的定向图形模型结构所需的最小假设。
translated by 谷歌翻译
众所周知,加入操作(尤其是N-Way,多到许多人的加入)是耗时和资源的。在大尺度上,关于桌子和联接量的大小,当前的最新方法(包括使用嵌套环/哈希/排序 - 合并算法的二进制加入算法,或者,或者,最糟糕的案例最佳连接算法(wojas)),甚至可能无法给定合理的资源和时间限制产生任何答案。在这项工作中,我们介绍了一种新的n-way qui-join处理方法,即图形结合(GJ)。关键想法是两个方面:首先,将物理连接计算问题映射到PGMS并引入调整的推理算法,该算法可以计算基于运行的编码(RLE)基于连接的汇总摘要,并需要实现结合结果所必需的所有统计信息。其次,也是最重要的是,要表明,像GJ这样的联接算法(像GJ一样)产生了上述联接介绍摘要,然后对其进行删除,可以在时空中引入巨大的性能优势。通过工作,TPCD和LASTFM数据集的加入查询进行了全面的实验,将GJ与PostgreSQL和MonetDB进行了比较,以及UMBRA系统中实现的最先进的WOJA。内存中加入计算的结果表明,性能改善的速度分别比PostgreSQL,MONETDB和UMBRA快64倍,388倍和6倍。对于磁盘加入计算,GJ的速度比PostgreSQL,MONETDB和UMBRA的速度分别高达820X,717X和165X。此外,GJ空间需求分别高达21,488倍,38,333倍和78,750倍,分别比PostgreSQL,MonetDB和Umbra小。
translated by 谷歌翻译