Multiparte实体分辨率旨在将记录从多个数据集集成到一个实体中。我们从许多数据集中获得了多脚石实体分辨率的一般记录链接问题的数学制定,作为称为多维分配问题的组合优化问题。作为我们方法的动机,我们说明了通过顺序二分位匹配来实现多党实体分辨率的优势。由于优化问题是NP - 硬,我们应用了两个启发式程序,贪婪算法和非常大的距离邻域搜索,以解决分配问题,并找到从多个数据集中的记录最可能匹配为单个实体。我们评估并比较这些算法的性能及其对综合生成数据的修改。我们执行计算实验以比较最近启发式的性能,非常大规模的邻域搜索,贪婪算法,另一个启发式地图,以及两个版本的遗传算法,一般的成群质算法。重要的是,我们执行实验以比较两种重新开始搜索前启发式的方法,特别是随机采样多开始和基于确定的基于模式的多开始。我们发现证据表明,基于设计的多启动可以更有效,因为数据库的大小变大。另外,我们表明非常大的规模搜索,尤其是它的多启动版本,优于简单的贪婪启发式。贪婪搜索与非常大的邻域搜索的杂交提高了性能。使用多个额外运行的多开始的非常大的尺度搜索,提供了一些改进了非常大的刻度搜索过程的性能。最后,我们提出了一种评估非常大规模的邻居搜索的复杂性的方法。
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译
识别变量之间的原因关系是决策过程的关键步骤。虽然因果推断需要随机实验,但研究人员和政策制定者越来越多地利用观测研究由于观察数据的广泛可用性和实验的不可行性而导致的因果假设。匹配方法是对观察数据进行因果推断的最常用技术。然而,由于实验者制造的不同选择,一对一匹配中的对分配过程在推论中产生不确定性。最近,提出了离散优化模型来解决这种不确定性。虽然具有离散优化模型可能的强大推断,但它们产生非线性问题并缺乏可扩展性。在这项工作中,我们提出了贪婪的算法来解决与持续结果的观测数据的强大因果推断测试实例。我们提出了一个独特的框架,可以重新设计非线性二进制优化问题作为可行性问题。通过利用可行性制定的结构,我们开发贪婪方案,以求解稳健的测试问题。在许多情况下,所提出的算法实现全球最佳解决方案。我们在三个现实世界数据集上执行实验,以展示所提出的算法的有效性,并将我们的结果与最先进的求解器进行比较。我们的实验表明,所提出的算法在计算时间方面显着优于精确的方法,同时实现了同样的因果试验结论。两个数值实验和复杂性分析都表明所提出的算法确保在决策过程中利用大数据的力量所需的可扩展性。
translated by 谷歌翻译
组合优化是运营研究和计算机科学领域的一个公认领域。直到最近,它的方法一直集中在孤立地解决问题实例,而忽略了它们通常源于实践中的相关数据分布。但是,近年来,人们对使用机器学习,尤其是图形神经网络(GNN)的兴趣激增,作为组合任务的关键构件,直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入,因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾,旨在优化和机器学习研究人员。
translated by 谷歌翻译
The cross-entropy (CE) method is a new generic approach to combinatorial and multi-extremal optimization and rare event simulation. The purpose of this tutorial is to give a gentle introduction to the CE method. We present the CE methodology, the basic algorithm and its modifications, and discuss applications in combinatorial optimization and machine learning.
translated by 谷歌翻译
空间优化问题(SOP)的特征是管理决策变量,目标和/或约束功能的空间关系。在本文中,我们关注一种称为空间分区的特定类型的SOP,这是一个组合问题,这是由于存在离散空间单元。精确的优化方法不会随着问题的大小而扩展,尤其是在可行的时间限制内。这促使我们开发基于人群的元启发式学来解决此类SOP。但是,这些基于人群的方法采用的搜索操作员主要是为实参与者连续优化问题而设计的。为了使这些方法适应SOP,我们将域知识应用于设计空间感知的搜索操作员,以在保留空间约束的同时有效地通过离散搜索空间进行有效搜索。为此,我们提出了一种简单而有效的算法,称为基于群的空间模因算法(空间),并在学校(RE)区域问题上进行测试。对现实世界数据集进行了详细的实验研究,以评估空间的性能。此外,进行消融研究以了解空间各个组成部分的作用。此外,我们讨论空间〜如何在现实生活计划过程及其对不同方案的适用性并激发未来的研究方向有帮助。
translated by 谷歌翻译
This paper surveys the recent attempts, both from the machine learning and operations research communities, at leveraging machine learning to solve combinatorial optimization problems. Given the hard nature of these problems, state-of-the-art algorithms rely on handcrafted heuristics for making decisions that are otherwise too expensive to compute or mathematically not well defined. Thus, machine learning looks like a natural candidate to make such decisions in a more principled and optimized way. We advocate for pushing further the integration of machine learning and combinatorial optimization and detail a methodology to do so. A main point of the paper is seeing generic optimization problems as data points and inquiring what is the relevant distribution of problems to use for learning on a given task.
translated by 谷歌翻译
图形匹配优化问题是计算机视觉中许多任务的重要组成部分,例如在通信中带来两个可变形对象。自然,在过去的几十年中,已经提出了广泛的适用算法。由于尚未开发出通用的标准基准,因此由于对不同的问题实例的评估和标准使结果无与伦比,因此通常很难验证其绩效主张。为了解决这些缺点,我们提出了匹配算法的比较研究。我们创建了一个统一的基准测试标准,在其中收集和分类了一组现有和公开可用的计算机视觉图形匹配问题,以通用格式。同时,我们收集和分类图形匹配算法的最流行的开源实现。它们的性能以与比较优化算法的最佳实践相符的方式进行评估。该研究旨在可再现和扩展,以作为未来的宝贵资源。我们的研究提供了三个值得注意的见解:1。)流行问题实例在少于1秒的时间内完全可以解决,因此不足以进行将来的经​​验评估; 2.)最受欢迎的基线方法高于最佳可用方法; 3.)尽管该问题存在NP硬度,但即使对于具有超过500个顶点的图形,也可以在几秒钟内求解来自视力应用程序的实例。
translated by 谷歌翻译
该博士学位论文的中心对象是在计算机科学和统计力学领域的不同名称中以不同名称而闻名的。在计算机科学中,它被称为“最大切割问题”,这是著名的21个KARP的原始NP硬性问题之一,而物理学的相同物体称为Ising Spin Glass模型。这种丰富的结构的模型通常是减少或重新制定计算机科学,物理和工程学的现实问题。但是,准确地求解此模型(查找最大剪切或基态)可能会留下一个棘手的问题(除非$ \ textit {p} = \ textit {np} $),并且需要为每一个开发临时启发式学特定的实例家庭。离散和连续优化之间的明亮而美丽的连接之一是一种基于半限定编程的圆形方案,以最大程度地切割。此过程使我们能够找到一个近乎最佳的解决方案。此外,该方法被认为是多项式时间中最好的。在本论文的前两章中,我们研究了旨在改善舍入方案的局部非凸照。在本文的最后一章中,我们迈出了一步,并旨在控制我们想要在前几章中解决的问题的解决方案。我们在Ising模型上制定了双层优化问题,在该模型中,我们希望尽可能少地调整交互作用,以使所得ISING模型的基态满足所需的标准。大流行建模出现了这种问题。我们表明,当相互作用是非负的时,我们的双层优化是在多项式时间内使用凸编程来解决的。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
我们介绍了强大的子组发现的问题,即,找到一个关于一个或多个目标属性的脱颖而出的子集的一组可解释的描述,2)是统计上的鲁棒,并且3)非冗余。许多尝试已经挖掘了局部强壮的子组或解决模式爆炸,但我们是第一个从全球建模角度同时解决这两个挑战的爆炸。首先,我们制定广泛的模型类别的子组列表,即订购的子组,可以组成的单次组和多变量目标,该目标可以由标称或数字变量组成,并且包括其定义中的传统Top-1子组发现。这种新颖的模型类允许我们使用最小描述长度(MDL)原理来形式地形化最佳强大的子组发现,在那里我们分别为标称和数字目标的最佳归一化最大可能性和贝叶斯编码而度假。其次,正如查找最佳子组列表都是NP-Hard,我们提出了SSD ++,一个贪婪的启发式,找到了很好的子组列表,并保证了根据MDL标准的最重要的子组在每次迭代中添加,这被显示为等同于贝叶斯一个样本比例,多项式或子组之间的多项式或T检验,以及数据集边际目标分布以及多假设检测罚款。我们经验上显示了54个数据集,即SSD ++优于先前的子组设置发现方法和子组列表大小。
translated by 谷歌翻译
算法配置(AC)与对参数化算法最合适的参数配置的自动搜索有关。目前,文献中提出了各种各样的交流问题变体和方法。现有评论没有考虑到AC问题的所有衍生物,也没有提供完整的分类计划。为此,我们引入分类法以分别描述配置方法的交流问题和特征。我们回顾了分类法的镜头中现有的AC文献,概述相关的配置方法的设计选择,对比方法和问题变体相互对立,并描述行业中的AC状态。最后,我们的评论为研究人员和从业人员提供了AC领域的未来研究方向。
translated by 谷歌翻译
最小的平方和群集(MSSC)或K-Means型聚类,传统上被认为是无监督的学习任务。近年来,使用背景知识来提高集群质量,促进聚类过程的可解释性已成为数学优化和机器学习研究的热门研究课题。利用数据群集中的背景信息的问题称为半监督或约束群集。在本文中,我们为半监控MSSC提供了一种新的分支和绑定算法,其中背景知识被包含为成对必须 - 链接和无法链接约束。对于较低的界限,我们解决了MSSC离散优化模型的Semidefinite编程宽松,并使用了用于加强界限的纤维平面程序。相反,通过使用整数编程工具,我们提出了将K-Means算法适应受约束的情况。这是第一次,所提出的全局优化算法有效地管理,以解决现实世界的情况,最高可达800个数据点,具有必要的必须 - 链接和无法链接约束以及通用数量的功能。这个问题大小大约比最先进的精确算法解决的实例大约四倍。
translated by 谷歌翻译
在过去十年中,图形内核引起了很多关注,并在结构化数据上发展成为一种快速发展的学习分支。在过去的20年中,该领域发生的相当大的研究活动导致开发数十个图形内核,每个图形内核都对焦于图形的特定结构性质。图形内核已成功地成功地在广泛的域中,从社交网络到生物信息学。本调查的目标是提供图形内核的文献的统一视图。特别是,我们概述了各种图形内核。此外,我们对公共数据集的几个内核进行了实验评估,并提供了比较研究。最后,我们讨论图形内核的关键应用,并概述了一些仍有待解决的挑战。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
优化在离散变量上的高度复杂的成本/能源功能是不同科学学科和行业的许多公开问题的核心。一个主要障碍是在硬实例中的某些变量子集之间的出现,导致临界减慢或集体冻结了已知的随机本地搜索策略。通常需要指数计算工作来解冻这种变量,并探索配置空间的其他看不见的区域。在这里,我们通过开发自适应梯度的策略来介绍一个量子启发的非本球非识别蒙特卡罗(NMC)算法,可以有效地学习成本函数的关键实例的几何特征。该信息随行使用,以构造空间不均匀的热波动,用于以各种长度尺度集体未填充变量,规避昂贵的勘探与开发权衡。我们将算法应用于两个最具挑战性的组合优化问题:随机k可满足(K-SAT)附近计算阶段转换和二次分配问题(QAP)。我们在专业的确定性求解器和通用随机求解器上观察到显着的加速和鲁棒性。特别是,对于90%的随机4-SAT实例,我们发现了最佳专用确定性算法无法访问的解决方案,该算法(SP)具有最强的10%实例的解决方案质量的大小提高。我们还通过最先进的通用随机求解器(APT)显示出在最先进的通用随机求解器(APT)上的时间到溶液的两个数量级改善。
translated by 谷歌翻译
在过去的几十年中,经典的车辆路由问题(VRP),即为车辆分配一组订单并规划他们的路线已经被密集研究。仅作为车辆的订单分配和他们的路线已经是一个NP完整的问题,因此在实践中的应用通常无法考虑在现实世界应用中应用的约束和限制,所谓的富VRP所谓的富VRP(RVRP)并且仅限于单一方面。在这项工作中,我们融入了主要的相关真实限制和要求。我们提出了一种两级策略和时间线窗口和暂停时间的时间线算法,并将遗传算法(GA)和蚁群优化(ACO)单独应用于问题以找到最佳解决方案。我们对四种不同问题实例的评估,针对四个最先进的算法表明,我们的方法在合理的时间内处理所有给定的约束。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
大约400年前的国际象棋游戏始于大约400年前的统治图,这引发了对统治图的分析,最初是相对松散的,直到1960年代开始,当时该问题给出了数学描述。这是图理论中最重要的问题之一,也是在多项式时间无法解决的NP完整问题。结果,我们描述了一种新的混合杜鹃搜索技术,以解决这项工作中的MDS问题。杜鹃搜索是一种著名的元神经,其能力探索了巨大的搜索空间,使其对多元化有用。但是,为了提高性能,我们除了遗传跨界操作员外,还将强化技术纳入了建议的方法。在详尽的实验测试中介绍了我们的方法与文献中相应的最新技术的比较。根据获得的结果,建议的算法优于当前的最新状态。
translated by 谷歌翻译
我们解决了与行业相关的尺度上的机器人轨迹计划问题。我们的端到端解决方案将高度通用的随机键算法与模型堆叠和集成技术集成在一起,以及用于溶液细化的路径重新链接。核心优化模块由偏置的随机基遗传算法组成。通过与问题依赖性和问题相关模块的独特分离,我们通过约束的天然编码实现了有效的问题表示。我们表明,对替代算法范式(例如模拟退火)的概括是直接的。我们为行业规模的数据集提供数值基准结果。发现我们的方法始终超过贪婪的基线结果。为了评估当今量子硬件的功能,我们使用Amazon Braket上的QBSOLV在量子退火硬件上获得的经典方法进行了补充。最后,我们展示了如何将后者集成到我们的较大管道中,从而为问题提供了量子准备的混合解决方案。
translated by 谷歌翻译