在本报告中,我们考虑以下问题:给定一个训练有素的模型,我们可以纠正其行为而无需从头开始训练模型吗?换句话说,我们可以``调试''神经网络类似于我们如何解决数学模型和标准计算机代码中的错误。我们基于一个假设,即调试可以被视为两任任务的连续学习问题。特别是。,我们采用了一种称为正交梯度下降(OGD)的持续学习算法的修改版本,通过MNIST数据集中的两个简单实验来证明我们可以在不理解的行为中进行实际的\ textit {unterarn},同时保持不良行为。该模型,我们可以另外可以\ textit {Rerearnn}适当的行为,而无需从头开始训练模型。
translated by 谷歌翻译
本文研究了在连续学习框架中使用分类网络的固定架构培训深度学习模型的优化算法的新设计。训练数据是非平稳的,非平稳性是由一系列不同的任务施加的。我们首先分析了一个仅在隔离的学习任务的深层模型,并在网络参数空间中识别一个区域,其中模型性能接近恢复的最佳。我们提供的经验证据表明该区域类似于沿收敛方向扩展的锥体。我们研究了融合后优化器轨迹的主要方向,并表明沿着一些顶级主要方向旅行可以迅速将参数带到锥体之外,但其余方向并非如此。我们认为,当参数被限制以保持在训练过程中迄今为止遇到的单个任务的相交中,可以缓解持续学习环境中的灾难性遗忘。基于此观察结果,我们介绍了我们的方向约束优化(DCO)方法,在每个任务中,我们引入一个线性自动编码器以近似其相应的顶部禁止主要方向。然后将它们以正规化术语的形式合并到损失函数中,以便在不忘记的情况下学习即将到来的任务。此外,为了随着任务数量的增加而控制内存的增长,我们提出了一种称为压缩DCO(DCO-comp)的算法的内存效率版本,该版本为存储所有自动编码器的固定大小分配了存储器。我们从经验上证明,与其他基于最新正规化的持续学习方法相比,我们的算法表现出色。
translated by 谷歌翻译
尽管深度神经网络能够在各个领域中实现最先进的性能,但他们的培训通常需要对数据集的许多通行证进行迭代。但是,由于计算和内存约束和潜在的隐私问题,在数据到达流中的许多现实情况下,存储和访问所有数据都是不切实际的。在本文中,我们研究了一通学习的问题,其中模型是在未重新验证之前对数据进行依次到达数据的培训。通过越来越多参数化模型的使用,我们开发了正交递归拟合(ORFIT),这是一种用于一通学习的算法,旨在完全适合每个新数据点,同时在更改参数的方向上,导致对先前预测的最小变化参数数据点。通过这样做,我们在自适应过滤和机器学习中桥接了两种看似不同的算法,即递归最小二乘(RLS)算法和正交梯度下降(OGD)。我们的算法通过通过增量主组件分析(IPCA)利用流数据的结构来有效地使用内存。此外,我们表明,对于过度参数的线性模型,我们算法获得的参数矢量是随机梯度下降(SGD)在标准的多通用设置中收敛到的。最后,我们将结果推广到高度参数化模型的非线性设置,这与深度学习有关。我们的实验显示了与基准相比,提出的方法的有效性。
translated by 谷歌翻译
机器学习模型的预测失败通常来自训练数据中的缺陷,例如不正确的标签,离群值和选择偏见。但是,这些负责给定失败模式的数据点通常不知道先验,更不用说修复故障的机制了。这项工作借鉴了贝叶斯对持续学习的看法,并为两者开发了一个通用框架,确定了导致目标失败的培训示例,并通过删除有关它们的信息来修复模型。该框架自然允许将最近学习的最新进展解决这一新的模型维修问题,同时将现有的作品集成了影响功能和数据删除作为特定实例。在实验上,提出的方法优于基准,既可以识别有害训练数据,又要以可普遍的方式固定模型失败。
translated by 谷歌翻译
已知生物制剂在他们的生活过程中学习许多不同的任务,并且能够重新审视以前的任务和行为,而没有表现不损失。相比之下,人工代理容易出于“灾难性遗忘”,在以前任务上的性能随着所获取的新的任务而恶化。最近使用该方法通过鼓励参数保持接近以前任务的方法来解决此缺点。这可以通过(i)使用特定的参数正常数来完成,该参数正常数是在参数空间中映射合适的目的地,或(ii)通过将渐变投影到不会干扰先前任务的子空间来指导优化旅程。然而,这些方法通常在前馈和经常性神经网络中表现出子分子表现,并且经常性网络对支持生物持续学习的神经动力学研究感兴趣。在这项工作中,我们提出了自然的持续学习(NCL),一种统一重量正则化和预测梯度下降的新方法。 NCL使用贝叶斯重量正常化来鼓励在收敛的所有任务上进行良好的性能,并将其与梯度投影结合使用先前的精度,这可以防止在优化期间陷入灾难性遗忘。当应用于前馈和经常性网络中的连续学习问题时,我们的方法占据了标准重量正则化技术和投影的方法。最后,训练有素的网络演变了特定于任务特定的动态,这些动态被认为是学习的新任务,类似于生物电路中的实验结果。
translated by 谷歌翻译
持续学习研究的主要重点领域是通过设计新算法对分布变化更强大的新算法来减轻神经网络中的“灾难性遗忘”问题。尽管持续学习文献的最新进展令人鼓舞,但我们对神经网络的特性有助于灾难性遗忘的理解仍然有限。为了解决这个问题,我们不关注持续的学习算法,而是在这项工作中专注于模型本身,并研究神经网络体系结构对灾难性遗忘的“宽度”的影响,并表明宽度在遗忘遗产方面具有出人意料的显着影响。为了解释这种效果,我们从各个角度研究网络的学习动力学,例如梯度正交性,稀疏性和懒惰的培训制度。我们提供了与不同架构和持续学习基准之间的经验结果一致的潜在解释。
translated by 谷歌翻译
物联网系统中的微型机器学习(Tinyml)利用MCU作为数据处理的边缘设备。但是,传统的Tinyml方法只能执行推理,仅限于静态环境或类。真实情况通常在动态环境中起作用,从而将原始神经模型不再合适的上下文漂移。因此,预训练的模型降低了其一生中的准确性和可靠性,因为记录的数据缓慢变为过时或出现新模式。连续学习策略通过对参数进行运行时进行微调维护模型。本文比较了两个实际应用中的四种最新算法:i)基于加速度计数据的手势识别和ii)图像分类。我们的结果证实了这些系统的可靠性以及将它们部署到微小的MCUS中的可行性,相对于无约束计算平台的原始模型的精确度下降了几个百分点。
translated by 谷歌翻译
Many real-world learning scenarios face the challenge of slow concept drift, where data distributions change gradually over time. In this setting, we pose the problem of learning temporally sensitive importance weights for training data, in order to optimize predictive accuracy. We propose a class of temporal reweighting functions that can capture multiple timescales of change in the data, as well as instance-specific characteristics. We formulate a bi-level optimization criterion, and an associated meta-learning algorithm, by which these weights can be learned. In particular, our formulation trains an auxiliary network to output weights as a function of training instances, thereby compactly representing the instance weights. We validate our temporal reweighting scheme on a large real-world dataset of 39M images spread over a 9 year period. Our extensive experiments demonstrate the necessity of instance-based temporal reweighting in the dataset, and achieve significant improvements to classical batch-learning approaches. Further, our proposal easily generalizes to a streaming setting and shows significant gains compared to recent continual learning methods.
translated by 谷歌翻译
由于灾难性的遗忘,计算系统的持续学习是挑战。我们在果蝇嗅觉系统中发现了两个层神经循环,通过独特地组合稀疏编码和关联学习来解决这一挑战。在第一层中,使用稀疏,高尺寸表示来编码气味,这通过激活非重叠神经元的神经元以进行不同气味来减少内存干扰。在第二层中,在学习期间仅修改异味活性神经元和与气味相关的输出神经元之间的突触;冻结其余重量以防止不相关的存储器被覆盖。我们经验和分析显示,这种简单轻型的算法显着提高了不断的学习性能。飞行关联学习算法与经典的Perceptron学习算法引人注目,尽管我们表现出两种修改对于减少灾难性遗忘至关重要。总体而言,果蝇演变了一种有效的终身学习算法,可以转换来自神经科学的电路机制以改善机器计算。
translated by 谷歌翻译
内存重播可能是在生物脑中学习的关键,这在没有灾难性地干扰以前的知识的情况下,必须不断地学习新任务。另一方面,人工神经网络遭受灾难性的遗忘,并且倾向于在最近训练的任务上表现出色。在这项工作中,我们使用人工神经网络探讨基于空间基于空间的内存重放的应用。我们能够通过在压缩潜在空间版本中仅存储一小部分原始数据来保持先前任务中的良好性能。
translated by 谷歌翻译
我们根据梯度匹配的思想设计了一种Coreset选择方法:Coreset引起的梯度应该尽可能地匹配原始训练数据集的那些。我们在持续学习的背景下评估该方法,可用于策划排练内存。我们的方法在一系列内存大小上执行强大的竞争对手,如水库采样。
translated by 谷歌翻译
Generally, regularization-based continual learning models limit access to the previous task data to imitate the real-world setting which has memory and privacy issues. However, this introduces a problem in these models by not being able to track the performance on each task. In other words, current continual learning methods are vulnerable to attacks done on the previous task. We demonstrate the vulnerability of regularization-based continual learning methods by presenting simple task-specific training time adversarial attack that can be used in the learning process of a new task. Training data generated by the proposed attack causes performance degradation on a specific task targeted by the attacker. Experiment results justify the vulnerability proposed in this paper and demonstrate the importance of developing continual learning models that are robust to adversarial attack.
translated by 谷歌翻译
已知应用于任务序列的标准梯度下降算法可在深层神经网络中产生灾难性遗忘。当对序列中的新任务进行培训时,该模型会在当前任务上更新其参数,从而忘记过去的知识。本文探讨了我们在有限环境中扩展任务数量的方案。这些方案由与重复数据的长期任务组成。我们表明,在这种情况下,随机梯度下降可以学习,进步并融合到根据现有文献需要持续学习算法的解决方案。换句话说,我们表明该模型在没有特定的记忆机制的情况下执行知识保留和积累。我们提出了一个新的实验框架,即Scole(缩放量表),以研究在潜在无限序列中的知识保留和算法的积累。为了探索此设置,我们对1,000个任务的序列进行了大量实验,以更好地了解这种新的设置家庭。我们还提出了对香草随机梯度下降的轻微修改,以促进这种情况下的持续学习。 SCOLE框架代表了对实用训练环境的良好模拟,并允许长序列研究收敛行为。我们的实验表明,在短方案上以前的结果不能总是推断为更长的场景。
translated by 谷歌翻译
深度神经网络在各种感知和决策任务上实现类似人类的表现。但是,当面对不断变化的任务或目标时,网络的性能较差,并且广泛无法匹配人类智能的灵活性和鲁棒性。在这里,我们开发了一种数学和算法框架,该框架可以通过构建在给定的机器学习任务上实现等效功能性能的路径连接的网络集合来实现一系列目标上的神经网络的灵活和连续培训。我们将神经网络的重量空间视为弯曲的Riemannian歧管,并在重量空间中沿功能不变的路径移动网络,同时搜索满足次要目标的网络。一种路径采样算法训练具有数百万个权重参数的计算机视觉和自然语言处理网络,以学习一系列分类任务,而无需绩效损失,同时适应次要目标,包括网络稀疏,增量任务学习和增强对抗性的鲁棒性。从广义上讲,我们将神经网络概念化为一种数学对象,可以通过路径采样算法迭代地转换为不同的配置,以定义可以利用的网络的子字节来实现用户目标。
translated by 谷歌翻译
机器学习中的一个重要问题是能够以顺序方式学习任务。如果有标准的一阶方法培训大多数模型忘记了在新任务上培训时忘记了先前学习的任务,这通常被称为灾难性遗忘。一种流行的克服遗忘方法是通过惩罚在以前任务上的模型来规范损失函数。例如,弹性重量整合(EWC)用二次形式正规,涉及基于过去数据的对角线矩阵构建。虽然EWC对于一些设置工作非常好,但即使在另外理想的条件下,如果对角线矩阵是先前任务的Hessian矩阵的近似近似,它也可以证明灾难性遗忘。我们提出了一种简单的方法来克服这一点:正规规范了与过去数据矩阵的草图草图的新任务的培训。这可以通过内存成本可提供克服灾难忘记线性模型和宽神经网络的灾难性忘记。本文的总体目标是在基于正规化的连续学习算法和内存成本下提供有关时的见解。
translated by 谷歌翻译
终身学习代理能够不断从潜在的图案感官数据流中学习。以这种方式适应的建筑物的一个主要历史困难是,在新样本中学习时,神经系统难以保留先前获得的知识。这个问题被称为灾难性忘记(干扰),并且在机器域中仍然是当天的机器域中的未解决问题。在几十年中,忘记了前馈网络的背景下,在诸如尊重的自组织地图(SOM)的替代架构中,在替代架构(SOM)的背景下,这是一个常用于任务的无监督的神经模型作为聚类和维度减少。虽然其内部神经元之间的竞争可能具有提高内存保留的可能性,但我们观察到在任务增量数据上培训的固定尺寸SOM培训,即,它以某些时间增量接收与特定类相关的数据点,经历重大遗忘。在这项研究中,我们提出了连续的SOM(C-SOM),一种能够在处理信息时减少自己遗忘的模型。
translated by 谷歌翻译
最近,人们对机器的兴趣越来越大,这主要是由于法律要求,例如《通用数据保护法规》(GDPR)和《加利福尼亚州消费者隐私法》。因此,提出了多种方法,以从训练有素的模型中消除特定目标数据点的影响。但是,在评估学习的成功时,当前方法要么使用对抗攻击,要么将其结果与最佳解决方案进行比较,该解决方案通常从头开始纳入重新培训。我们认为两种方式在实践中都不足。在这项工作中,我们提出了基于认知不确定性的机器学习算法的评估度量。这是对我们最佳知识的机器学习通用评估指标的第一个定义。
translated by 谷歌翻译
Lack of performance when it comes to continual learning over non-stationary distributions of data remains a major challenge in scaling neural network learning to more human realistic settings. In this work we propose a new conceptualization of the continual learning problem in terms of a temporally symmetric trade-off between transfer and interference that can be optimized by enforcing gradient alignment across examples. We then propose a new algorithm, Meta-Experience Replay (MER), that directly exploits this view by combining experience replay with optimization based meta-learning. This method learns parameters that make interference based on future gradients less likely and transfer based on future gradients more likely. 1 We conduct experiments across continual lifelong supervised learning benchmarks and non-stationary reinforcement learning environments demonstrating that our approach consistently outperforms recently proposed baselines for continual learning. Our experiments show that the gap between the performance of MER and baseline algorithms grows both as the environment gets more non-stationary and as the fraction of the total experiences stored gets smaller.
translated by 谷歌翻译
随着智能代理在更长的时间内变得自主,他们最终可能会成为特定人的终身对应者。如果是这样,用户可能希望代理商暂时掌握任务,但后来由于隐私问题而忘记了任务。但是,使代理到\ emph {忘记}用户在不降低其余知识的情况下指定的内容是一个具有挑战性的问题。为了应对这一挑战,本文正式将这种持续学习和私人学习(CLPU)问题形式化。该论文进一步引入了一个直接但完全私有的解决方案Clpu-der ++,作为解决CLPU问题的第一步,以及一组精心设计的基准问题,以评估所提出的解决方案的有效性。该代码可在https://github.com/cranial-xix/continual-learning-private-unlearning上找到。
translated by 谷歌翻译
增量任务学习(ITL)是一个持续学习的类别,试图培训单个网络以进行多个任务(一个接一个),其中每个任务的培训数据仅在培训该任务期间可用。当神经网络接受较新的任务培训时,往往会忘记旧任务。该特性通常被称为灾难性遗忘。为了解决此问题,ITL方法使用情节内存,参数正则化,掩盖和修剪或可扩展的网络结构。在本文中,我们提出了一个基于低级别分解的新的增量任务学习框架。特别是,我们表示每一层的网络权重作为几个等级1矩阵的线性组合。为了更新新任务的网络,我们学习一个排名1(或低级别)矩阵,并将其添加到每一层的权重。我们还引入了一个其他选择器向量,该向量将不同的权重分配给对先前任务的低级矩阵。我们表明,就准确性和遗忘而言,我们的方法的表现比当前的最新方法更好。与基于情节的内存和基于面具的方法相比,我们的方法还提供了更好的内存效率。我们的代码将在https://github.com/csiplab/task-increment-rank-update.git上找到。
translated by 谷歌翻译