许多深度学习领域都受益于使用越来越大的神经网络接受公共数据训练的培训,就像预先训练的NLP和计算机视觉模型一样。培训此类模型需要大量的计算资源(例如,HPC群集),而小型研究小组和独立研究人员则无法使用。解决问题的一种方法是,几个较小的小组将其计算资源汇总在一起并训练一种使所有参与者受益的模型。不幸的是,在这种情况下,任何参与者都可以通过故意或错误地发送错误的更新来危害整个培训。在此类同龄人的情况下进行培训需要具有拜占庭公差的专门分布式培训算法。这些算法通常通过引入冗余通信或通过受信任的服务器传递所有更新来牺牲效率,从而使它们无法应用于大规模深度学习,在该大规模深度学习中,模型可以具有数十亿个参数。在这项工作中,我们提出了一种新的协议,用于强调沟通效率的安全(容忍)分散培训。
translated by 谷歌翻译
使用多个计算节点通常可以加速在大型数据集上的深度神经网络。这种方法称为分布式训练,可以通过专门的消息传递协议,例如环形全部减少。但是,以比例运行这些协议需要可靠的高速网络,其仅在专用集群中可用。相比之下,许多现实世界应用程序,例如联合学习和基于云的分布式训练,在具有不稳定的网络带宽的不可靠的设备上运行。因此,这些应用程序仅限于使用参数服务器或基于Gossip的平均协议。在这项工作中,我们通过提出MOSHPIT全部减少的迭代平均协议来提升该限制,该协议指数地收敛于全局平均值。我们展示了我们对具有强烈理论保证的分布式优化方案的效率。该实验显示了与使用抢占从头开始训练的竞争性八卦的策略和1.5倍的加速,显示了1.3倍的Imagenet培训的加速。
translated by 谷歌翻译
现代深度学习应用程序需要越来越多地计算培训最先进的模型。为了解决这一需求,大型企业和机构使用专用的高性能计算集群,其建筑和维护既昂贵又远远超出大多数组织的预算。结果,一些研究方向成为几个大型工业甚至更少的学术作用者的独家领域。为了减轻这种差异,较小的团体可以汇集他们的计算资源并运行有利于所有参与者的协作实验。这种范式称为网格或志愿者计算,在众多科学领域看到了成功的应用。然而,由于高延迟,不对称带宽以及志愿者计算独特的几个挑战,使用这种用于机器学习的方法是困难的。在这项工作中,我们仔细分析了这些约束,并提出了一种专门用于协作培训的新型算法框架。我们展示了我们在现实条件下的SWAV和Albert预先预价的方法的有效性,并在成本的一小部分中实现了与传统设置相当的性能。最后,我们提供了一份成功的协作语言模型预先追溯的详细报告,有40名参与者。
translated by 谷歌翻译
分散的SGD(D-SGD)跨多个计算机(又称{\ em Nodes})分发了繁重的学习任务,将每个节点的工作负载除以系统的大小。但是,少数\ emph {byzantine}(即,行为不当)节点会危及整个学习过程。当系统为\ emph {异步}时,此漏洞将进一步扩大。尽管已经提出了赋予拜占庭式弹性的方法,但这些方法显着影响该过程的效率,甚至否定了权力下放的好处。这自然提出了一个问题:\ emph {可以同时享受拜占庭式的弹性和每个节点的工作量减少?}我们通过提出\ newalgorithm {}来确保拜占庭式弹性而不会失去D-SGD的计算效率来积极回答。本质上,\ newalgorithm {}通过使用\ emph {polyak的动量}减少本地更新中的差异来削弱拜占庭节点的影响。然后,通过通过{\ em签名的Echo广播}和{\ em最近的邻平均}方案建立节点之间的协调,我们有效地耐受拜占庭节点,同时在非拜桑丁节点之间分布开销。为了证明我们的算法的正确性,我们介绍和分析了一个新颖的{\ em lyapunov函数},该函数是由动量使用而产生的{\ em non-markovian模型漂移}。我们还通过对几个图像分类任务进行实验来证明\ newalgorithm {}的效率。
translated by 谷歌翻译
联邦学习本质上很容易模拟中毒攻击,因为其分散性质允许攻击者参与受损的设备。在模型中毒攻击中,攻击者通过上传“中毒”更新来降低目标子任务(例如,作为鸟类的分类平面)模型的性能。在本报告中,我们介绍\ algoname {},这是一种使用全局Top-K更新稀疏和设备级渐变剪辑来减轻模型中毒攻击的新型防御。我们提出了一个理论框架,用于分析防御抗毒攻击的稳健性,并提供我们算法的鲁棒性和收敛性分析。为了验证其经验效率,我们在跨多个基准数据集中进行开放源评估,用于计算机愿景和联合学习。
translated by 谷歌翻译
我们开发和分析码头:在异构数据集中的非凸分布式学习的新通信高效方法。 Marina采用了一种基于渐变差异的新颖沟通压缩策略,这些差异让人想起,但与Mishchenko等人的Diana方法中所采用的策略不同。 (2019)。与几乎所有竞争对手的分布式一阶方法不同,包括Diana,我们的基于精心设计的偏置渐变估计,这是其卓越理论和实践性能的关键。我们向码头证明的通信复杂性界限明显比以前所有的一阶方法的方式更好。此外,我们开发和分析码头的两种变体:VR-Marina和PP-Marina。当客户所拥有的本地丢失功能是有限和期望形式的局部丢失功能时,第一种方法设计了第一种方法,并且第二种方法允许客户端的部分参与 - 在联合学习中重要的功能。我们所有的方法都优于前面的oracle /通信复杂性的最先进的方法。最后,我们提供了满足Polyak-Lojasiewicz条件的所有方法的收敛分析。
translated by 谷歌翻译
现代深度学习模型通常在分布式机器集合中并行培训,以减少训练时间。在这种情况下,机器之间模型更新的通信变成了一个重要的性能瓶颈,并且已经提出了各种有损的压缩技术来减轻此问题。在这项工作中,我们介绍了一种新的,简单但理论上和实践上有效的压缩技术:自然压缩(NC)。我们的技术分别应用于要进行压缩的更新向量的所有条目,并通过随机舍入到两个的(负或正)两种功能,可以通过忽略Mantissa来以“自然”方式计算。我们表明,与没有压缩相比,NC将压缩向量的第二刻增加不超过微小因子$ \ frac {9} {8} $,这意味着NC对流行训练算法的收敛速度的影响,例如分布式SGD,可以忽略不计。但是,NC启用的通信节省是可观的,导致$ 3 $ - $ 4 \ times $ $改善整体理论运行时间。对于需要更具侵略性压缩的应用,我们将NC推广到自然抖动,我们证明这比常见的随机抖动技术要好得多。我们的压缩操作员可以自行使用,也可以与现有操作员结合使用,从而产生更具侵略性的结合效果,并在理论和实践中提供新的最先进。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
SGD在分布式和多GPU系统上的实现创建了新的漏洞,可以通过一个或多个对抗代理来识别和滥用这些漏洞。最近,已经显示出众所周知的拜占庭式弹性梯度聚集方案确实容易受到可以定制攻击的知情攻击者的影响(Fang等,2020; Xie等,2020b)。我们介绍了Mixtailor,这是一种基于聚合策略的随机化计划,使攻击者无法充分了解。确定性方案可以直接将其集成到混合式尾勒中,而无需引入任何其他超参数。随机化降低了强大的对手来量身定制其攻击的能力,而随之而来的随机聚合方案在性能方面仍然具有竞争力。对于IID和非IID设置,我们建立了几乎确定的融合保证,这些保证既比文献中可用的融合更强大,更一般。我们在各种数据集,攻击和设置中进行的实证研究验证了我们的假设,并表明当知名的拜占庭耐受性计划失败时,Mixtailor会成功辩护。
translated by 谷歌翻译
我们开发了一种新方法来解决中央服务器中分布式学习问题中的通信约束。我们提出和分析了一种执行双向压缩的新算法,并仅使用uplink(从本地工人到中央服务器)压缩达到与算法相同的收敛速率。为了获得此改进,我们设计了MCM,一种算法,使下行链路压缩仅影响本地模型,而整体模型则保留。结果,与以前的工作相反,本地服务器上的梯度是在干扰模型上计算的。因此,融合证明更具挑战性,需要精确控制这种扰动。为了确保它,MCM还将模型压缩与存储机制相结合。该分析打开了新的门,例如纳入依赖工人的随机模型和部分参与。
translated by 谷歌翻译
Federated learning is a distributed framework according to which a model is trained over a set of devices, while keeping data localized. This framework faces several systemsoriented challenges which include (i) communication bottleneck since a large number of devices upload their local updates to a parameter server, and (ii) scalability as the federated network consists of millions of devices. Due to these systems challenges as well as issues related to statistical heterogeneity of data and privacy concerns, designing a provably efficient federated learning method is of significant importance yet it remains challenging. In this paper, we present FedPAQ, a communication-efficient Federated Learning method with Periodic Averaging and Quantization. FedPAQ relies on three key features: (1) periodic averaging where models are updated locally at devices and only periodically averaged at the server; (2) partial device participation where only a fraction of devices participate in each round of the training; and (3) quantized messagepassing where the edge nodes quantize their updates before uploading to the parameter server. These features address the communications and scalability challenges in federated learning. We also show that FedPAQ achieves near-optimal theoretical guarantees for strongly convex and non-convex loss functions and empirically demonstrate the communication-computation tradeoff provided by our method.
translated by 谷歌翻译
当任何延迟较大时,异步随机梯度下降(SGD)的现有分析显着降低,给人的印象是性能主要取决于延迟。相反,无论梯度中的延迟如何,我们都证明,我们可以更好地保证相同的异步SGD算法,而不是仅取决于用于实现算法的平行设备的数量。我们的保证严格比现有分析要好,我们还认为,异步SGD在我们考虑的设置中优于同步Minibatch SGD。为了进行分析,我们介绍了基于“虚拟迭代”和延迟自适应步骤的新颖递归,这使我们能够为凸面和非凸面目标得出最先进的保证。
translated by 谷歌翻译
我们研究了在$ n $工人上的分布式培训的异步随机梯度下降算法,随着时间的推移,计算和通信频率变化。在此算法中,工人按照自己的步调并行计算随机梯度,并在没有任何同步的情况下将其返回服务器。该算法的现有收敛速率对于非凸平的光滑目标取决于最大梯度延迟$ \ tau _ {\ max} $,并表明$ \ epsilon $ stationary点在$ \ mathcal {o} \!\左后达到(\ sigma^2 \ epsilon^{ - 2}+ \ tau _ {\ max} \ epsilon^{ - 1} \ right)$ iterations,其中$ \ sigma $表示随机梯度的方差。在这项工作(i)中,我们获得了$ \ Mathcal {o} \!\ left(\ sigma^2 \ epsilon^{ - 2}+ sqrt {\ tau _ {\ max} \ max} \ tau_ {avg} {avg} } \ epsilon^{ - 1} \ right)$,没有任何更改的算法,其中$ \ tau_ {avg} $是平均延迟,可以大大小于$ \ tau _ {\ max} $。我们还提供(ii)一个简单的延迟自适应学习率方案,在该方案下,异步SGD的收敛速率为$ \ Mathcal {o} \!\ left(\ sigma^2 \ epsilon^{ - 2} { - 2}+ \ tau_ {-2 avg} \ epsilon^{ - 1} \ right)$,并且不需要任何额外的高参数调整或额外的通信。我们的结果首次显示异步SGD总是比迷你批次SGD快。此外,(iii)我们考虑了由联邦学习应用激发的异质功能的情况,并通过证明与先前的作品相比对最大延迟的依赖性较弱,并提高收敛率。特别是,我们表明,收敛率的异质性项仅受每个工人内平均延迟的影响。
translated by 谷歌翻译
随机一阶方法是训练大规模机器学习模型的标准。随机行为可能导致算法的特定运行导​​致高度次优的目标值,而通常证明理论保证是出于目标值的期望。因此,从理论上保证算法具有很高的可能性,这一点至关重要。非平滑随机凸优化的现有方法具有复杂的界限,其依赖性对置信度或对数为负功率,但在额外的假设下是高斯(轻尾)噪声分布的额外假设,这些噪声分布在实践中可能不存在。在我们的论文中,我们解决了这个问题,并得出了第一个高概率收敛的结果,并以对数依赖性对非平滑凸的随机优化问题的置信度依赖,并带有非Sub-Gaussian(重尾)噪声。为了得出我们的结果,我们建议针对两种随机方法进行梯度剪辑的新步骤规则。此外,我们的分析适用于使用H \“较旧连续梯度的通用平滑目标,对于这两种方法,我们都为强烈凸出问题提供了扩展。最后,我们的结果暗示我们认为的第一种(加速)方法也具有最佳的迭代。在所有制度中,Oracle的复杂性,第二个机制在非平滑设置中都是最佳的。
translated by 谷歌翻译
我们介绍了一个框架 - Artemis-,以解决分布式或联合设置中的学习问题,并具有通信约束和设备部分参与。几位工人(随机抽样)使用中央服务器执行优化过程来汇总其计算。为了减轻通信成本,Artemis允许在两个方向上(从工人到服务器,相反)将发送的信息与内存机制相结合。它改进了仅考虑单向压缩(对服务器)的现有算法,或在压缩操作员上使用非常强大的假设,并且通常不考虑设备的部分参与。我们在非I.I.D中的随机梯度(仅在最佳点界定的噪声方差)提供了快速的收敛速率(线性最高到阈值)。设置,突出显示内存对单向和双向压缩的影响,分析Polyak-Ruppert平均。我们在分布中使用收敛性,以获得渐近方差的下限,该方差突出了实际的压缩极限。我们提出了两种方法,以解决设备部分参与的具有挑战性的案例,并提供实验结果以证明我们的分析有效性。
translated by 谷歌翻译
联合学习(FL)是机器学习的一个子领域,在该子机学习中,多个客户试图在通信约束下通过网络进行协作学习模型。我们考虑在二阶功能相似性条件和强凸度下联合优化的有限和联合优化,并提出了两种新算法:SVRP和催化的SVRP。这种二阶相似性条件最近越来越流行,并且在包括分布式统计学习和差异性经验风险最小化在内的许多应用中得到满足。第一种算法SVRP结合了近似随机点评估,客户采样和降低方差。我们表明,当功能相似性足够高时,SVRP是沟通有效的,并且在许多现有算法上取得了卓越的性能。我们的第二个算法,催化的SVRP,是SVRP的催化剂加速变体,在二阶相似性和强凸度下,现有的联合优化算法可实现更好的性能,并均匀地改善了现有的算法。在分析这些算法的过程中,我们提供了可能具有独立关注的随机近端方法(SPPM)的新分析。我们对SPPM的分析很简单,允许进行近似近端评估,不需要任何平滑度假设,并且在通信复杂性上比普通分布式随机梯度下降显示出明显的好处。
translated by 谷歌翻译
Federated learning is a collaborative method that aims to preserve data privacy while creating AI models. Current approaches to federated learning tend to rely heavily on secure aggregation protocols to preserve data privacy. However, to some degree, such protocols assume that the entity orchestrating the federated learning process (i.e., the server) is not fully malicious or dishonest. We investigate vulnerabilities to secure aggregation that could arise if the server is fully malicious and attempts to obtain access to private, potentially sensitive data. Furthermore, we provide a method to further defend against such a malicious server, and demonstrate effectiveness against known attacks that reconstruct data in a federated learning setting.
translated by 谷歌翻译
Parallel implementations of stochastic gradient descent (SGD) have received significant research attention, thanks to its excellent scalability properties. A fundamental barrier when parallelizing SGD is the high bandwidth cost of communicating gradient updates between nodes; consequently, several lossy compresion heuristics have been proposed, by which nodes only communicate quantized gradients. Although effective in practice, these heuristics do not always converge. In this paper, we propose Quantized SGD (QSGD), a family of compression schemes with convergence guarantees and good practical performance. QSGD allows the user to smoothly trade off communication bandwidth and convergence time: nodes can adjust the number of bits sent per iteration, at the cost of possibly higher variance. We show that this trade-off is inherent, in the sense that improving it past some threshold would violate information-theoretic lower bounds. QSGD guarantees convergence for convex and non-convex objectives, under asynchrony, and can be extended to stochastic variance-reduced techniques. When applied to training deep neural networks for image classification and automated speech recognition, QSGD leads to significant reductions in end-to-end training time. For instance, on 16GPUs, we can train the ResNet-152 network to full accuracy on ImageNet 1.8× faster than the full-precision variant. time to the same target accuracy is 2.7×. Further, even computationally-heavy architectures such as Inception and ResNet can benefit from the reduction in communication: on 16GPUs, QSGD reduces the end-to-end convergence time of ResNet152 by approximately 2×. Networks trained with QSGD can converge to virtually the same accuracy as full-precision variants, and that gradient quantization may even slightly improve accuracy in some settings. Related Work. One line of related research studies the communication complexity of convex optimization. In particular, [40] studied two-processor convex minimization in the same model, provided a lower bound of Ω(n(log n + log(1/ ))) bits on the communication cost of n-dimensional convex problems, and proposed a non-stochastic algorithm for strongly convex problems, whose communication cost is within a log factor of the lower bound. By contrast, our focus is on stochastic gradient methods. Recent work [5] focused on round complexity lower bounds on the number of communication rounds necessary for convex learning.Buckwild! [10] was the first to consider the convergence guarantees of low-precision SGD. It gave upper bounds on the error probability of SGD, assuming unbiased stochastic quantization, convexity, and gradient sparsity, and showed significant speedup when solving convex problems on CPUs. QSGD refines these results by focusing on the trade-off between communication and convergence. We view quantization as an independent source of variance for SGD, which allows us to employ standard convergence results [7]. The main differences from Buckw
translated by 谷歌翻译
In large-scale distributed learning, security issues have become increasingly important. Particularly in a decentralized environment, some computing units may behave abnormally, or even exhibit Byzantine failures-arbitrary and potentially adversarial behavior. In this paper, we develop distributed learning algorithms that are provably robust against such failures, with a focus on achieving optimal statistical performance. A main result of this work is a sharp analysis of two robust distributed gradient descent algorithms based on median and trimmed mean operations, respectively. We prove statistical error rates for three kinds of population loss functions: strongly convex, nonstrongly convex, and smooth non-convex. In particular, these algorithms are shown to achieve order-optimal statistical error rates for strongly convex losses. To achieve better communication efficiency, we further propose a median-based distributed algorithm that is provably robust, and uses only one communication round. For strongly convex quadratic loss, we show that this algorithm achieves the same optimal error rate as the robust distributed gradient descent algorithms.
translated by 谷歌翻译
为了研究分布式学习的弹性,“拜占庭”文献考虑了一个强大的威胁模型,工人可以在其中向参数服务器报告任意梯度。尽管该模型有助于获得几个基本结果,但当工人大多是值得信赖的机器时,有时被认为是不现实的。在本文中,我们在该模型和数据中毒之间表现出令人惊讶的等效性,这一威胁被认为更现实。更具体地说,我们证明,在任何具有PAC保证的个性化联合学习系统中,每次梯度攻击都可以简化为数据中毒(我们表明这既是理想又是现实的)。这种等效性使得有可能在高度异构应用中对数据中毒的任何“强大”学习算法的韧性获得新的不可能结果,这是拜占庭机器学习的现有不可能定理的推论。此外,使用我们的等效性,我们(从理论和经验上)提出了一种实践攻击,这对经典的个性化联合学习模型非常有效。
translated by 谷歌翻译