We consider distributed learning in the presence of slow and unresponsive worker nodes, referred to as stragglers. In order to mitigate the effect of stragglers, gradient coding redundantly assigns partial computations to the worker such that the overall result can be recovered from only the non-straggling workers. Gradient codes are designed to tolerate a fixed number of stragglers. Since the number of stragglers in practice is random and unknown a priori, tolerating a fixed number of stragglers can yield a sub-optimal computation load and can result in higher latency. We propose a gradient coding scheme that can tolerate a flexible number of stragglers by carefully concatenating gradient codes for different straggler tolerance. By proper task scheduling and small additional signaling, our scheme adapts the computation load of the workers to the actual number of stragglers. We analyze the latency of our proposed scheme and show that it has a significantly lower latency than gradient codes.
translated by 谷歌翻译
编码的计算技术为分布式计算中的贸易管理者提供鲁棒性。但是,大多数现有计划都需要精确地配置争吵行为,并忽略通过谋杀工人执行的计算。此外,这些方案通常被设计为准确地恢复所需的计算结果,而在许多机器学习和迭代优化算法中,已知更快的近似解决方案导致整体收敛时间的改善。在本文中,我们首先引入一种新的编码矩阵 - 向量乘法方案,称为组成的编码计算,其中部分恢复(CCPR),这有利于编码和未编码的计算方案的优点,并减少了计算时间和解码复杂度允许在准确性和计算速度之间进行权衡。然后,我们通过提出具有部分恢复的编码通信方案来扩展这种方法来分发更多一般计算任务,其中在传送之前编码由工人计算的子任务的结果。大型线性回归任务的数值模拟确认了所提出的分布式计算方案的优势,在计算准确性和延迟之间的权衡方面具有部分恢复。
translated by 谷歌翻译
我们考虑分布式SGD问题,其中主节点在$ n $工人之间分配梯度计算。通过将任务分配给所有工人,只等待$ k $最快的工人,主节点可以随着算法的发展而逐渐增加$ k $,可以权衡算法的错误。但是,这种策略被称为自适应$ k $ -sync,忽略了未使用的计算的成本和向揭示出散布行为的工人进行交流模型的成本。我们提出了一个成本效益的计划,将任务仅分配给$ k $工人,并逐渐增加$ k $。我们介绍了组合多臂匪徒模型的使用来了解哪些工人在分配梯度计算时最快。假设具有指数分布的响应时间以不同方式参数的工人,我们会以我们的策略的遗憾(即学习工人的平均响应时间花费的额外时间)提供经验和理论保证。此外,我们提出和分析适用于大量响应时间分布的策略。与自适应$ k $ -sync相比,我们的计划通过相同的计算工作和较小的下行链路通信在速度较低的情况下,误差大大降低。
translated by 谷歌翻译
张量,即多线性函数,是机器学习算法的基本构建块。为了训练大型数据集,通常在工人之间分配计算是普遍的做法。但是,Stragglers和其他故障会严重影响性能和整体训练时间。减轻这些故障的新型策略是使用编码计算。我们引入了一个新的指标,用于分析,称为典型的恢复阈值,该指标重点介绍了最可能的事件,并提供了新颖的分布式编码张量操作的结构,这些操作是最佳的。我们表明,我们的一般框架涵盖了许多其他计算方案和指标作为特殊情况。特别是,我们证明,当噪声的概率(即故障)等于零时,可以将恢复阈值和张量排名作为典型恢复阈值的特殊情况,从而提供无噪声计算的噪声概括为零。一个偶然的结果。这些定义远非纯粹是理论上的结构,而是使我们实现了实用的随机代码结构,即局部随机的P-ADIC合金代码,这些代码相对于措施是最佳的。我们分析了在Amazon EC2上进行的实验,并确定它们比实际上许多其他基准计算方案更快,更稳定,正如理论上所预测的那样。
translated by 谷歌翻译
我们考虑主人想要在$ n $ Workers上运行分布式随机梯度下降(SGD)算法的设置,每个算法都有一个数据子集。分布式SGD可能会遭受散乱者的影响,即导致延迟的缓慢或反应迟钝的工人。文献中研究的一种解决方案是在更新模型之前等待每次迭代的最快$ k <n $工人的响应,其中$ k $是固定的参数。 $ k $的价值的选择提供了SGD的运行时(即收敛率)与模型错误之间的权衡。为了优化误差折衷,我们研究了在整个算法的运行时,以自适应〜$ k $(即不同的$ k $)调查分布式SGD。我们首先设计了一种自适应策略,用于改变$ k $,该策略根据我们得出的墙壁通行时间的函数,基于上限的上限来优化这种权衡。然后,我们建议并实施一种基于统计启发式的自适应分布式SGD的算法。我们的结果表明,与非自适应实现相比,分布式SGD的自适应版本可以在更少的时间内达到较低的误差值。此外,结果还表明,自适应版本是沟通效率的,其中主人与工人之间所需的通信量小于非自适应版本的沟通量。
translated by 谷歌翻译
壁钟收敛时间和通信负载是参数服务器设置中随机梯度下降(SGD)的分布式实现的关键性能度量。通信 - 自适应分布式ADAM(CADA)已被提议通过自适应选择减少沟通负荷的方式。 CADA在存在陷阱器的壁时钟收敛时间方面进行性能退化。本文提出了一种名为基于分组的CADA(G-CADA)的小说方案,该方案保留了CADA的优势在减少通信负荷时,同时提高了工人额外储存成本的稳健性。 G-CADA将工人分配到分配相同数据分片的工人组。组在每次迭代时自适应地安排组,并且服务器仅等待每个所选组中最快的工作者。我们提供分析和实验结果,以便在其他基准方案中详细说明G-CADA的壁钟时间和通信负载和计算负荷的显着增益。
translated by 谷歌翻译
使用分布式学习培训具有大数据集的复杂模型的主要挑战之一是处理陷阱效果。作为解决方案,最近提出了对计算任务有效地增加了冗余的编码计算。在该技术中,跨数据集使用编码,并且计算在编码数据上完成,使得具有特定大小的工作节点的任意子集的结果足以恢复最终结果。这些方法的主要挑战是(1)它们仅限于多项式函数计算,(2)服务器子集的大小,我们需要等待数据集大小的乘法和模型复杂性的乘法(多项式的程度),其可能过大,(3)它们对实际数字的计算不是数值稳定的。在本文中,我们将Berrut近似编码计算(BACC)提出,作为替代方法,其不限于多项式函数计算。此外,主节点可以使用可用工作人员节点的任何任意子集的结果大致计算最终结果。近似方法被证明具有低计算复杂性的数值稳定。另外,理论上建立近似的准确性并通过仿真验证导致不同的设置,例如分布式学习问题。特别地,BACC用于在一组服务器上训练深度神经网络,这在收敛速率方面优于重复计算(重复编码)。
translated by 谷歌翻译
编码的分布式计算已成为在大型数据集上执行梯度下降以减轻散乱者和其他故障的常见实践。本文提出了一种新的算法,该算法编码了部分导数本身,并通过对代码字上的衍生代码字进行有损压缩来优化代码,从而最大程度地提高代码字中包含的信息,同时最大程度地减少代码字之间的信息。在优化研究中观察到的事实是,在基于梯度下降的学习算法中,这是在优化研究中观察到的事实的几何后果,因为它有助于避免过度拟合和局部最小值。这与当前在分布式编码计算上进行的许多常规工作相反,该计算的重点是从工人那里恢复所有数据。第二个贡献是,编码方案的低重量性质允许进行异步梯度更新,因为该代码可以迭代地解码。即,可以立即将工人的任务更新到较大的梯度中。方向衍生物始终是方向向量的线性函数。因此,我们的框架很健壮,因为它可以将线性编码技术应用于一般的机器学习框架,例如深神经网络。
translated by 谷歌翻译
我们提出了两种新颖的编码联合学习(FL)方案,用于减轻乐曲设备的效果。第一种方案,CodedPaddedFL,减轻了乐谱装置的效果,同时保留了传统的隐私水平。特别地,它将一次性填充与梯度码相结合,以产生对讨论设备的弹性。要将一次性填充应用于真实数据,我们的计划利用数据的定点算术表示。对于具有25个设备的场景,CodedPaddedFL与传统FL相比,CodedPaddedFL分别在MM师和时尚-MNIST数据集中获得6.6和9.2的速度增速因子为6.6和9.2。此外,与Prakash \ Emph {等人}最近提出的方案相比,它在延迟方面产生了类似的性能。没有额外的私人数据泄漏的缺点。第二个方案CodedSecagg提供落后和防止模型反转攻击的稳健性,并基于Shamir的秘密共享。 CodedSecagg优先于最先进的安全聚合方案,如6.6-14.6的加速因子,这取决于拼写设备的数量,在具有120个设备的场景的MNIST数据集上,以牺牲与CodedPaddedFL相比,延迟增加了30 \%。
translated by 谷歌翻译
大量的现代机器学习任务要求将大规模分布式簇作为训练管道的关键组成部分。但是,工人节点的异常拜占庭行为可能会使训练脱轨并损害推理的质量。这种行为可以归因于无意的系统故障或精心策划的攻击;结果,一些节点可能会将任意结果返回到协调培训的参数服务器(PS)。最近的工作考虑了广泛的攻击模型,并探索了强大的聚合和/或计算冗余以纠正扭曲的梯度。在这项工作中,我们考虑攻击模型从强大的攻击模型:$ q $无所不知的对手,对防御协议充分了解可以从迭代变为迭代变为弱者:$ q $随机选择的对手有限,勾结能力只会改变每一个,一次迭代很少。我们的算法依赖于冗余任务分配以及对抗行为的检测。对于强烈的攻击,我们证明,与先前的最新时间相比,扭曲梯度的比例从16 \%-99 \%降低。与最先进的攻击相比,我们在CIFAR-10数据集上的TOP-1分类准确性结果表明,在最复杂的攻击下,准确性(平均和弱方案平均)的优势(平均相对于强度和弱方案平均)。
translated by 谷歌翻译
这封信研究在包含中央服务器和多个工人的环境中分布了贝叶斯学习,专注于减轻摔跤手的影响问题。通过提出基于分组和编码的两种级体弹性解决方案,标准单次单次或令人尴尬地平行,称为共识Monte Carlo(CMC)是推广的。所提出的方法称为基于组的CMC(G-CMC)和编码的CMC(C-CMC),利用工人冗余计算,以便根据来自的部分输出来估算服务器上的全局后部样本工人。仿真结果表明,C-CMC可能占G-GCMC的少量工人,而G-CMC通常优选用于更大数量的工人。
translated by 谷歌翻译
我们研究了在$ n $工人上的分布式培训的异步随机梯度下降算法,随着时间的推移,计算和通信频率变化。在此算法中,工人按照自己的步调并行计算随机梯度,并在没有任何同步的情况下将其返回服务器。该算法的现有收敛速率对于非凸平的光滑目标取决于最大梯度延迟$ \ tau _ {\ max} $,并表明$ \ epsilon $ stationary点在$ \ mathcal {o} \!\左后达到(\ sigma^2 \ epsilon^{ - 2}+ \ tau _ {\ max} \ epsilon^{ - 1} \ right)$ iterations,其中$ \ sigma $表示随机梯度的方差。在这项工作(i)中,我们获得了$ \ Mathcal {o} \!\ left(\ sigma^2 \ epsilon^{ - 2}+ sqrt {\ tau _ {\ max} \ max} \ tau_ {avg} {avg} } \ epsilon^{ - 1} \ right)$,没有任何更改的算法,其中$ \ tau_ {avg} $是平均延迟,可以大大小于$ \ tau _ {\ max} $。我们还提供(ii)一个简单的延迟自适应学习率方案,在该方案下,异步SGD的收敛速率为$ \ Mathcal {o} \!\ left(\ sigma^2 \ epsilon^{ - 2} { - 2}+ \ tau_ {-2 avg} \ epsilon^{ - 1} \ right)$,并且不需要任何额外的高参数调整或额外的通信。我们的结果首次显示异步SGD总是比迷你批次SGD快。此外,(iii)我们考虑了由联邦学习应用激发的异质功能的情况,并通过证明与先前的作品相比对最大延迟的依赖性较弱,并提高收敛率。特别是,我们表明,收敛率的异质性项仅受每个工人内平均延迟的影响。
translated by 谷歌翻译
数据爆炸和模型尺寸的增加推动了大规模机器学习的显着进步,但也使模型训练时间耗时和模型存储变得困难。为了解决具有较高计算效率和设备限制的分布式模型培训设置中的上述问题,仍然存在两个主要困难。一方面,交换信息的沟通成本,例如,不同工人之间的随机梯度是分布式培训效率的关键瓶颈。另一方面,较少的参数模型容易用于存储和通信,但是损坏模型性能的风险。为了同时平衡通信成本,模型容量和模型性能,我们提出了量化的复合镜下降自适应亚基(QCMD Adagrad),并量化正规化双平均平均自适应亚级别(QRDA ADAGRAD)进行分布式培训。具体来说,我们探讨了梯度量化和稀疏模型的组合,以降低分布式培训中每次迭代的通信成本。构建了基于量化梯度的自适应学习率矩阵,以在沟通成本,准确性和模型稀疏性之间达到平衡。此外,从理论上讲,我们发现大量化误差会引起额外的噪声,从而影响模型的收敛性和稀疏性。因此,在QCMD Adagrad和QRDA Adagrad中采用了具有相对较小误差的阈值量化策略,以提高信噪比并保留模型的稀疏性。理论分析和经验结果都证明了所提出的算法的功效和效率。
translated by 谷歌翻译
许多组织使用配备有加速器的Compute集群,例如GPU和TPU,用于以分布式方式培训深入学习模型。培训是资源密集型的,消耗显着的计算,内存和网络资源。许多先前的作品探索如何减少培训资源占资源的占资源占用空间,而不会影响质量,但它们对瓶颈的子集(通常只有网络)限制了它们改善整体集群利用的能力。在这项工作中,我们利用深度学习工作负载的独特特征来提出结构化部分反向化(SPB),这是一种系统地控制分布式培训中个别工人的背包量的技术。这同时可以减少网络带宽,计算利用率和内存占用空间,同时保持模型质量。为了有效地利用SPB在集群层面的好处,我们介绍了一个SPB了解调度程序的jigsaw,它在深度学习培训(DLT)作业中进行迭代级别。我们发现拼图可以通过高达28 \%将大规模集群效率提高。
translated by 谷歌翻译
联合学习可以使远程工作人员能够协作培训共享机器学习模型,同时允许在本地保持训练数据。在无线移动设备的用例中,由于功率和带宽有限,通信开销是关键瓶颈。前工作已经利用了各种数据压缩工具,例如量化和稀疏,以减少开销。在本文中,我们提出了一种用于联合学习的预测编码的压缩方案。该方案在所有设备中具有共享预测功能,并且允许每个工作人员发送来自参考的压缩残余矢量。在每个通信中,我们基于速率失真成本选择预测器和量化器,并进一步降低熵编码的冗余。广泛的模拟表明,与其他基线方法相比,甚至更好的学习性能,通信成本可以减少高达99%。
translated by 谷歌翻译
最先进的机器学习模型在大规模分布式集群上常规培训。粗略地,当一些计算设备表现出异常(拜占庭)行为并将任意结果返回到参数服务器(PS)时,这种系统可能会受到损害。此行为可能归因于多种原因,包括系统故障和策划攻击。现有工作表明强大的聚合和/或计算冗余,以减轻扭曲渐变的效果。然而,当对手知道任务任务时,大多数这些方案都无效,并且可以明智地选择攻击的工人来诱导最大损害。我们所提出的方法ASPIS使用基于子集的分配为工作节点分配梯度计算,该分配允许对工作节点的行为进行多个一致性检查。通过中央节点检查计算出的梯度和后处理(在适当构造的图中的Clique-Conceping)允许有效的检测和随后从训练过程中排除对手。在弱势和强劲的攻击下,我们证明了拜占庭的复原力和检测保证,并广泛评估了各种大规模培训场景的系统。我们的实验的主要指标是测试准确性,与CIFAR-10数据集上的许多最先进的方法相比,我们表现出约30%的显着提高。相应减少损坏梯度的分数范围为16%至99%。
translated by 谷歌翻译
使用多个计算节点通常可以加速在大型数据集上的深度神经网络。这种方法称为分布式训练,可以通过专门的消息传递协议,例如环形全部减少。但是,以比例运行这些协议需要可靠的高速网络,其仅在专用集群中可用。相比之下,许多现实世界应用程序,例如联合学习和基于云的分布式训练,在具有不稳定的网络带宽的不可靠的设备上运行。因此,这些应用程序仅限于使用参数服务器或基于Gossip的平均协议。在这项工作中,我们通过提出MOSHPIT全部减少的迭代平均协议来提升该限制,该协议指数地收敛于全局平均值。我们展示了我们对具有强烈理论保证的分布式优化方案的效率。该实验显示了与使用抢占从头开始训练的竞争性八卦的策略和1.5倍的加速,显示了1.3倍的Imagenet培训的加速。
translated by 谷歌翻译
We study the resilience to Byzantine failures of distributed implementations of Stochastic Gradient Descent (SGD). So far, distributed machine learning frameworks have largely ignored the possibility of failures, especially arbitrary (i.e., Byzantine) ones. Causes of failures include software bugs, network asynchrony, biases in local datasets, as well as attackers trying to compromise the entire system. Assuming a set of n workers, up to f being Byzantine, we ask how resilient can SGD be, without limiting the dimension, nor the size of the parameter space. We first show that no gradient aggregation rule based on a linear combination of the vectors proposed by the workers (i.e, current approaches) tolerates a single Byzantine failure. We then formulate a resilience property of the aggregation rule capturing the basic requirements to guarantee convergence despite f Byzantine workers. We propose Krum, an aggregation rule that satisfies our resilience property, which we argue is the first provably Byzantine-resilient algorithm for distributed SGD. We also report on experimental evaluations of Krum.
translated by 谷歌翻译
我们考虑随着延迟梯度的随机优化,在每次步骤$ $,该算法使用步骤$ t-d_t $的陈旧随机梯度进行更新,从而为某些任意延迟$ d_t $。此设置摘要异步分布式优化,其中中央服务器接收由工作人员计算的渐变更新。这些机器可以体验可能随时间变化而变化的计算和通信负载。在一般的非凸平滑优化设置中,我们提供了一种简单且高效的算法,需要$ o(\ sigma ^ 2 / \ epsilon ^ 4 + \ tau / epsilon ^ 2)$步骤查找$ \ epsilon $ - 静止点$ x $,其中$ \ tau $是\ emph {平均}延迟$ \ smash {\ frac {1} {t} \ sum_ {t = 1} ^ t d_t} $和$ \ sigma ^ 2 $是随机梯度的方差。这改善了以前的工作,这表明随机梯度体面可以实现相同的速率,而是相对于\ emph {maximal}延迟$ \ max_ {t} d_t $,这可以显着大于平均延迟,特别是在异构分布式系统中。我们的实验证明了我们算法在延迟分布歪斜或重尾的情况下的效力和稳健性。
translated by 谷歌翻译
Emerging technologies and applications including Internet of Things (IoT), social networking, and crowd-sourcing generate large amounts of data at the network edge. Machine learning models are often built from the collected data, to enable the detection, classification, and prediction of future events. Due to bandwidth, storage, and privacy concerns, it is often impractical to send all the data to a centralized location. In this paper, we consider the problem of learning model parameters from data distributed across multiple edge nodes, without sending raw data to a centralized place. Our focus is on a generic class of machine learning models that are trained using gradientdescent based approaches. We analyze the convergence bound of distributed gradient descent from a theoretical point of view, based on which we propose a control algorithm that determines the best trade-off between local update and global parameter aggregation to minimize the loss function under a given resource budget. The performance of the proposed algorithm is evaluated via extensive experiments with real datasets, both on a networked prototype system and in a larger-scale simulated environment. The experimentation results show that our proposed approach performs near to the optimum with various machine learning models and different data distributions.
translated by 谷歌翻译