部分标签学习是一种弱监督的学习,每个培训实例都对应于一组候选标签,其中只有一个是正确的。在本文中,我们介绍了一种针对此问题的新型概率方法,与现有方法相比,该方法至少具有三个优势:它简化了训练过程,改善了性能并可以应用于任何深层体系结构。对人工和现实世界数据集进行的实验表明,诺言的表现优于现有方法。
translated by 谷歌翻译
深度学习和统计数据中的许多关键问题是由变异差距引起的,即证据和证据下限(ELBO)之间的差异。结果,在经典的VAE模型中,我们仅获得对数可能的下限,因为Elbo被用作成本函数,因此我们无法比较模型之间的对数可能性。在本文中,我们提出了变化差距的一般有效的上限,这使我们能够有效估计真实的证据。我们提供了对拟议方法的广泛理论研究。此外,我们表明,通过应用我们的估计,我们可以轻松地获得VAE模型的对数模型的下限和上限。
translated by 谷歌翻译
我们介绍Protopool,一个可解释的图像分类模型,其中包含类的原型池。培训比现有方法更直接,因为它不需要修剪阶段。通过向特定类别引入完全可分辨分配的原型来获得它。此外,我们介绍了一种新的焦点相似度,将模型集中在罕见的前景特征上。我们表明Protopool在Cub-200-2011和斯坦福汽车数据集上获得最先进的准确性,大大减少了原型的数量。我们提供了对方法和用户学习的理论分析,以表明我们的原型比具有竞争方法所获得的原型更具独特。
translated by 谷歌翻译
Federated learning has been predominantly concerned with collaborative training of deep networks from scratch, and especially the many challenges that arise, such as communication cost, robustness to heterogeneous data, and support for diverse device capabilities. However, there is no unified framework that addresses all these problems together. This paper studies the challenges and opportunities of exploiting pre-trained Transformer models in FL. In particular, we propose to efficiently adapt such pre-trained models by injecting a novel attention-based adapter module at each transformer block that both modulates the forward pass and makes an early prediction. Training only the lightweight adapter by FL leads to fast and communication-efficient learning even in the presence of heterogeneous data and devices. Extensive experiments on standard FL benchmarks, including CIFAR-100, FEMNIST and SpeechCommandsv2 demonstrate that this simple framework provides fast and accurate FL while supporting heterogenous device capabilities, efficient personalization, and scalable-cost anytime inference.
translated by 谷歌翻译
持续学习系统将知识从先前看到的任务转移以最大程度地提高新任务的能力是该领域的重大挑战,从而限制了持续学习解决方案对现实情况的适用性。因此,本研究旨在扩大我们在不断加强学习的特定情况下对转移及其驱动力的理解。我们采用SAC作为基础RL算法和持续的世界作为连续控制任务的套件。我们系统地研究SAC(演员和评论家,勘探和数据)的不同组成部分如何影响转移功效,并提供有关各种建模选项的建议。在最近的连续世界基准中评估了最佳的选择,即称为clonex-sac。 Clonex-SAC获得了87%的最终成功率,而Packnet的80%是基准中的最佳方法。此外,根据连续世界提供的指标,转移从0.18增至0.54。
translated by 谷歌翻译
我们重新讨论了最小的局部语法编码问题。在这种情况下,局部语法编码器按符号编码语法符号,而最小的语法转换最小化的语法最小化可以最大程度地减少由局部语法编码的长度给出的预设语法中的语法长度。众所周知,对于严格的正熵率,这种最小代码是强烈通用的,而最小语法中的规则数构成了源互信息的上限。尽管完全最小的代码可能是棘手的,但可以有效地计算约束的最小块代码。在本说明中,无论熵率如何,我们提供了最小块代码的强大普遍性的新的,更简单,更一般的证明。该证明基于一个简单的Zipfian绑定,用于排名概率。顺便说一句,我们还从经验上表明,最小块代码中规则的数量不能清楚地区分长期内存和无内存来源,例如英语文本和其字符的随机置换。这与我们以前的期望相抵触。
translated by 谷歌翻译
估计数据分布的局部内在维度的大多数现有方法不能很好地扩展到高维数据。他们中的许多人依靠非参数最近的邻居方法,该方法受到维度的诅咒。我们试图通过提出一种新的问题来解决这一挑战:使用近似可能性(LIDL)的局部固有维度估计。我们的方法依赖于任意密度估计方法作为其子例程,因此通过利用最新的参数神经方法的进展来避免维度挑战,以进行可能性估计。我们仔细研究了所提出方法的经验特性,将其与我们的理论预测进行了比较,并表明LIDL在此问题的标准基准上产生竞争结果,并将其扩展到数千个维度。更重要的是,我们预计通过密度估计文献的持续进展,这种方法可以进一步改善。
translated by 谷歌翻译
我们引入了一个新的培训范式,该范围对神经网络参数空间进行间隔约束以控制遗忘。当代持续学习(CL)方法从一系列数据流有效地培训神经网络,同时减少灾难性遗忘的负面影响,但它们不能提供任何确保的确保网络性能不会随着时间的流逝而无法控制地恶化。在这项工作中,我们展示了如何通过将模型的持续学习作为其参数空间的持续收缩来遗忘。为此,我们提出了Hypertrectangle训练,这是一种新的训练方法,其中每个任务都由参数空间中的超矩形表示,完全包含在先前任务的超矩形中。这种配方将NP-HARD CL问题降低到多项式时间,同时提供了完全防止遗忘的弹性。我们通过开发Intercontinet(间隔持续学习)算法来验证我们的主张,该算法利用间隔算术来有效地将参数区域建模为高矩形。通过实验结果,我们表明我们的方法在不连续的学习设置中表现良好,而无需存储以前的任务中的数据。
translated by 谷歌翻译
数据库状表的输出结构,该表由水平行和垂直列构建的值组成,可以通过名称识别,可以涵盖广泛的NLP任务。在此构成之后,我们为文本到餐桌神经模型提出了一个框架,适用于诸如提取订单项,联合实体和关系提取或知识库人群等问题的问题。我们建议的基于置换的解码器是一种广义的顺序方法,该方法理解了表中所有单元的信息。训练最大化了分解顺序的所有随机排列表中表内容的预期对数可能性。在内容推理期间,我们通过搜索可能的顺序以最大化模型的置信度并避免实质性误差积累来利用模型以任何顺序生成单元格的能力,而其他顺序模型则容易出现。实验证明了该框架的高实用价值,该框架在几个具有挑战性的数据集上建立了最先进的结果,优于先前的解决方案高达15%。
translated by 谷歌翻译
复杂的推理问题包含确定良好行动计划所需的计算成本各不相同的状态。利用此属性,我们提出了自适应亚go搜索(ADASUBS),这是一种适应性地调整计划范围的搜索方法。为此,ADASUBS在不同距离上产生了不同的子目标。采用验证机制来迅速滤除无法到达的子目标,从而使人专注于可行的进一步子目标。通过这种方式,ADASUBS受益于计划的效率更长的子目标,以及对较短的计划的良好控制。我们表明,ADASUB在三个复杂的推理任务上大大超过了层次规划算法:Sokoban,The Rubik的Cube和不平等现象证明了基准INT,为INT设定了新的最先进。
translated by 谷歌翻译