在本文中,我们提出了具有能量和动量的随机梯度的SGEM,以基于起源于工作[AEGD:适应性梯度下降的能量下降的AEGD方法,以解决一大批一般的非凸随机优化问题。ARXIV:2010.05109]。SGEM同时结合了能量和动量,以继承其双重优势。我们表明,SGEM具有无条件的能量稳定性,并在一般的非convex随机设置中得出能量依赖性收敛速率,以及在线凸台设置中的遗憾。还提供了能量变量的较低阈值。我们的实验结果表明,SGEM的收敛速度比AEGD快,并且至少在训练某些深层神经网络方面概述了SGDM。
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
Several recently proposed stochastic optimization methods that have been successfully used in training deep networks such as RMSPROP, ADAM, ADADELTA, NADAM are based on using gradient updates scaled by square roots of exponential moving averages of squared past gradients. In many applications, e.g. learning with large output spaces, it has been empirically observed that these algorithms fail to converge to an optimal solution (or a critical point in nonconvex settings). We show that one cause for such failures is the exponential moving average used in the algorithms. We provide an explicit example of a simple convex optimization setting where ADAM does not converge to the optimal solution, and describe the precise problems with the previous analysis of ADAM algorithm. Our analysis suggests that the convergence issues can be fixed by endowing such algorithms with "long-term memory" of past gradients, and propose new variants of the ADAM algorithm which not only fix the convergence issues but often also lead to improved empirical performance.
translated by 谷歌翻译
亚当是训练深神经网络的最具影响力的自适应随机算法之一,即使在简单的凸面设置中,它也被指出是不同的。许多尝试,例如降低自适应学习率,采用较大的批量大小,结合了时间去相关技术,寻求类似的替代物,\ textit {etc。},以促进Adam-type算法融合。与现有方法相反,我们引入了另一种易于检查的替代条件,这仅取决于基础学习率的参数和历史二阶时刻的组合,以确保通用ADAM的全球融合以解决大型融合。缩放非凸随机优化。这种观察结果以及这种足够的条件,对亚当的差异产生了更深刻的解释。另一方面,在实践中,无需任何理论保证,广泛使用了迷你ADAM和分布式ADAM。我们进一步分析了分布式系统中的批次大小或节点的数量如何影响亚当的收敛性,从理论上讲,这表明迷你批次和分布式亚当可以通过使用较大的迷你批量或较大的大小来线性地加速节点的数量。最后,我们应用了通用的Adam和Mini Batch Adam,具有足够条件来求解反例并在各种真实世界数据集上训练多个神经网络。实验结果完全符合我们的理论分析。
translated by 谷歌翻译
在本文中,我们考虑了第一和二阶技术来解决机器学习中产生的连续优化问题。在一阶案例中,我们提出了一种从确定性或半确定性到随机二次正则化方法的转换框架。我们利用随机优化的两相性质提出了一种具有自适应采样和自适应步长的新型一阶算法。在二阶案例中,我们提出了一种新型随机阻尼L-BFGS方法,该方法可以在深度学习的高度非凸起背景下提高先前的算法。这两种算法都在众所周知的深度学习数据集上进行评估并表现出有希望的性能。
translated by 谷歌翻译
我们调查随机镜面下降(SMD)的趋同相对光滑和平滑凸优化。在相对平滑的凸优化中,我们为SMD提供了新的收敛保证,并持续步骤。对于平滑的凸优化,我们提出了一种新的自适应步骤方案 - 镜子随机Polyak Spectize(MSP)。值得注意的是,我们的收敛导致两个设置都不会使有界渐变假设或有界方差假设,并且我们向邻域显示在插值下消失的邻居的融合。MSP概括了最近提出的随机Polyak Spectize(SPS)(Loizou等,2021)以镜子血液镜子,并且在继承镜子血清的好处的同时,现代机器学习应用仍然是实用和高效的。我们将我们的结果与各种监督的学习任务和SMD的不同实例相结合,展示了MSP的有效性。
translated by 谷歌翻译
自适应梯度算法(例如Adagrad及其变体)在培训深神经网络方面已广受欢迎。尽管许多适合自适应方法的工作都集中在静态的遗憾上,作为实现良好遗憾保证的性能指标,但对这些方法的动态遗憾分析尚不清楚。与静态的遗憾相反,动态遗憾被认为是绩效测量的更强大的概念,因为它明确阐明了环境的非平稳性。在本文中,我们通过动态遗憾的概念在一个强大的凸面设置中浏览了Adagrad(称为M-Adagrad)的一种变体,该遗憾衡量了在线学习者的性能,而不是参考(最佳)解决方案,这可能会改变时间。我们证明了根据最小化序列的路径长度的束缚,该序列基本上反映了环境的非平稳性。此外,我们通过利用每个回合中学习者的多个访问权限来增强动态遗憾。经验结果表明,M-Adagrad在实践中也很好。
translated by 谷歌翻译
非凸优化的传统分析通常取决于平滑度的假设,即要求梯度为Lipschitz。但是,最近的证据表明,这种平滑度条件并未捕获一些深度学习目标功能的特性,包括涉及复发性神经网络和LSTM的函数。取而代之的是,他们满足了更轻松的状况,并具有潜在的无界光滑度。在这个轻松的假设下,从理论和经验上表明,倾斜的SGD比香草具有优势。在本文中,我们表明,在解决此类情况时,剪辑对于ADAM型算法是不可或缺的:从理论上讲,我们证明了广义标志GD算法可以获得与带有剪辑的SGD相似的收敛速率,但根本不需要显式剪辑。一端的这个算法家族恢复了符号,另一端与受欢迎的亚当算法非常相似。我们的分析强调了动量在分析符号类型和ADAM型算法中发挥作用的关键作用:它不仅降低了噪声的影响,因此在先前的符号分析中消除了大型迷你批次的需求显着降低了无界平滑度和梯度规范的影响。我们还将这些算法与流行的优化器进行了比较,在一组深度学习任务上,观察到我们可以在击败其他人的同时匹配亚当的性能。
translated by 谷歌翻译
We introduce Adam, an algorithm for first-order gradient-based optimization of stochastic objective functions, based on adaptive estimates of lower-order moments. The method is straightforward to implement, is computationally efficient, has little memory requirements, is invariant to diagonal rescaling of the gradients, and is well suited for problems that are large in terms of data and/or parameters. The method is also appropriate for non-stationary objectives and problems with very noisy and/or sparse gradients. The hyper-parameters have intuitive interpretations and typically require little tuning. Some connections to related algorithms, on which Adam was inspired, are discussed. We also analyze the theoretical convergence properties of the algorithm and provide a regret bound on the convergence rate that is comparable to the best known results under the online convex optimization framework. Empirical results demonstrate that Adam works well in practice and compares favorably to other stochastic optimization methods. Finally, we discuss AdaMax, a variant of Adam based on the infinity norm. * Equal contribution. Author ordering determined by coin flip over a Google Hangout.
translated by 谷歌翻译
我们的目标是使随机梯度$ \ sigma^2 $在随机梯度和(ii)问题依赖性常数中自适应(i)自适应。当最大程度地减少条件编号$ \ kappa $的平滑,强大的功能时,我们证明,$ t $ t $ toerations sgd的$ t $ toerations sgd具有指数降低的阶跃尺寸和对平滑度的知识可以实现$ \ tilde {o} \ left(\ exp) \ left(\ frac {-t} {\ kappa} \ right) + \ frac {\ sigma^2} {t} \ right)$ rate,而又不知道$ \ sigma^2 $。为了适应平滑度,我们使用随机线路搜索(SLS)并显示(通过上下距离),其SGD的SGD与SLS以所需的速率收敛,但仅针对溶液的邻域。另一方面,我们证明具有平滑度的离线估计值的SGD会收敛到最小化器。但是,其速率与估计误差成正比的速度减慢。接下来,我们证明具有Nesterov加速度和指数步骤尺寸(称为ASGD)的SGD可以实现接近最佳的$ \ tilde {o} \ left(\ exp \ left(\ frac {-t} {-t} {\ sqrt {\ sqrt {\ sqrt { \ kappa}}} \ right) + \ frac {\ sigma^2} {t} \ right)$ rate,而无需$ \ sigma^2 $。当与平滑度和强频率的离线估计值一起使用时,ASGD仍会收敛到溶液,尽管速度较慢。我们从经验上证明了指数级尺寸的有效性以及新型SLS的变体。
translated by 谷歌翻译
在本文中,我们提出了Nesterov加速改组梯度(NASG),这是一种用于凸有限和最小化问题的新算法。我们的方法将传统的Nesterov的加速动量与不同的改组抽样方案相结合。我们证明,我们的算法使用统一的改组方案提高了$ \ Mathcal {o}(1/t)$的速率,其中$ t $是时代的数量。该速率比凸状制度中的任何其他改组梯度方法要好。我们的收敛分析不需要对有限域或有界梯度条件的假设。对于随机洗牌方案,我们进一步改善了收敛性。在采用某种初始条件时,我们表明我们的方法在解决方案的小社区附近收敛得更快。数值模拟证明了我们算法的效率。
translated by 谷歌翻译
在这项工作中,我们调查目的在于对流畅损失功能的期望,目标是找到近似静止点的目标。处理此类问题的最流行的方法是方差减少技术,也已知在这种情况下获得紧密的收敛速率,在这种情况下匹配下限。 Nevertheless, these techniques require a careful maintenance of anchor points in conjunction with appropriately selected "mega-batchsizes".这导致了一个充满挑战的超参数调整问题,削弱了他们的实用性。最近,[Cutkosky和Orabona,2019]已经表明,可以使用递归动量以避免使用锚点和大量批量,并且仍然获得该设置的最佳速率。然而,他们称为Storm的方法至关重要地依赖于平滑度的知识,以及梯度规范的束缚。在这项工作中,我们提出了暴风雨+,一种完全无参数的新方法,不需要大量批量尺寸,并获得最佳O $ O(1 / T ^ {1/3})$速率查找近似静止点。我们的工作在风暴算法上构建,结合一种新的方法,以便自适应地设置学习率和动量参数。
translated by 谷歌翻译
当任何延迟较大时,异步随机梯度下降(SGD)的现有分析显着降低,给人的印象是性能主要取决于延迟。相反,无论梯度中的延迟如何,我们都证明,我们可以更好地保证相同的异步SGD算法,而不是仅取决于用于实现算法的平行设备的数量。我们的保证严格比现有分析要好,我们还认为,异步SGD在我们考虑的设置中优于同步Minibatch SGD。为了进行分析,我们介绍了基于“虚拟迭代”和延迟自适应步骤的新颖递归,这使我们能够为凸面和非凸面目标得出最先进的保证。
translated by 谷歌翻译
Sign-based algorithms (e.g. SIGNSGD) have been proposed as a biased gradient compression technique to alleviate the communication bottleneck in training large neural networks across multiple workers. We show simple convex counter-examples where signSGD does not converge to the optimum. Further, even when it does converge, signSGD may generalize poorly when compared with SGD. These issues arise because of the biased nature of the sign compression operator.We then show that using error-feedback, i.e. incorporating the error made by the compression operator into the next step, overcomes these issues. We prove that our algorithm (EF-SGD) with arbitrary compression operator achieves the same rate of convergence as SGD without any additional assumptions. Thus EF-SGD achieves gradient compression for free. Our experiments thoroughly substantiate the theory and show that error-feedback improves both convergence and generalization. Code can be found at https://github.com/epfml/error-feedback-SGD.
translated by 谷歌翻译
由于其吸引人的稳健性以及可提供的效率保证,随机模型的方法最近得到了最新的关注。我们为改善基于模型的方法进行了两个重要扩展,即在随机弱凸优化上提高了基于模型的方法。首先,我们通过涉及一组样本来提出基于MiniBatch模型的方法,以近似每次迭代中的模型函数。我们首次表明随机算法即使对于非平滑和非凸(特别是弱凸)问题,即使是批量大小也可以实现线性加速。为此,我们开发了对每个算法迭代中涉及的近端映射的新颖敏感性分析。我们的分析似乎是更多常规设置的独立利益。其次,由于动量随机梯度下降的成功,我们提出了一种新的随机外推模型的方法,大大延伸到更广泛的随机算法中的经典多济会动量技术,用于弱凸优化。在相当灵活的外推术语范围内建立收敛速率。虽然主要关注弱凸优化,但我们还将我们的工作扩展到凸优化。我们将小纤维和外推模型的方法应用于随机凸优化,为此,我们为其提供了一种新的复杂性绑定和有前途的线性加速,批量尺寸。此外,提出了一种基于基于Nesterov动量的基于模型的方法,为此,我们建立了达到最优性的最佳复杂性。
translated by 谷歌翻译
我们提出了一种新颖的随机弗兰克 - 沃尔夫(又名条件梯度)算法,用于使用广义的线性预测/结构进行约束的平滑有限和最小化。这类问题包括稀疏,低级别或其他结构化约束的经验风险最小化。提出的方法易于实现,不需要阶梯尺寸调整,并且具有独立于数据集大小的恒定触电成本。此外,作为该方法的副产品,我们获得了Frank-Wolfe间隙的随机估计器,可以用作停止标准。根据设置,提出的方法匹配或改进了随机Frank-Wolfe算法的最佳计算保证。几个数据集上的基准强调了不同的策略,其中所提出的方法比相关方法表现出更快的经验收敛性。最后,我们在开源软件包中提供了所有考虑的方法的实现。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
我们介绍和分析结构化的随机零订单下降(S-SZD),这是一种有限的差异方法,该方法在一组$ l \ leq d $正交方向上近似于随机梯度,其中$ d $是环境空间的维度。这些方向是随机选择的,并且可能在每个步骤中发生变化。对于平滑的凸功能,我们几乎可以确保迭代的收敛性和对$ o(d/l k^{ - c})$的功能值的收敛速率,每$ c <1/2 $,这是任意关闭的就迭代次数而言,是随机梯度下降(SGD)。我们的界限还显示了使用$ l $多个方向而不是一个方向的好处。对于满足polyak-{\ l} ojasiewicz条件的非convex函数,我们在这种假设下建立了随机Zeroth Order Order Order算法的第一个收敛速率。我们在数值模拟中证实了我们的理论发现,在数值模拟中,满足假设以及对超参数优化的现实世界问题,观察到S-SZD具有很好的实践性能。
translated by 谷歌翻译
自Reddi等人以来。 2018年指出了亚当的分歧问题,已经设计了许多新变体以获得融合。但是,香草·亚当(Vanilla Adam)仍然非常受欢迎,并且在实践中效果很好。为什么理论和实践之间存在差距?我们指出,理论和实践的设置之间存在不匹配:Reddi等。 2018年选择亚当的超参数后选择问题,即$(\ beta_1,\ beta_2)$;虽然实际应用通常首先解决问题,然后调整$(\ beta_1,\ beta_2)$。由于这一观察,我们猜想只有当我们改变选择问题和超参数的顺序时,理论上的经验收敛才能是合理的。在这项工作中,我们确认了这一猜想。我们证明,当$ \ beta_2 $很大时,$ \ beta_1 <\ sqrt {\ beta_2} <1 $,Adam收集到关键点附近。邻居的大小是随机梯度方差的命题。在额外的条件(强烈生长条件)下,亚当收敛到关键点。随着$ \ beta_2 $的增加,我们的收敛结果可以覆盖[0,1)$中的任何$ \ beta_1 \,包括$ \ beta_1 = 0.9 $,这是深度学习库中的默认设置。我们的结果表明,亚当可以在广泛的超参数下收敛,而无需对其更新规则进行任何修改。据我们所知,我们是第一个证明这一结果的人,而没有强有力的假设,例如有限梯度。当$ \ beta_2 $很小时,我们进一步指出了一个$(\ beta_1,\ beta_2)$的大区域,亚当可以在其中偏离无限。我们的差异结果考虑与我们的收敛结果相同的设置,表明在增加$ \ beta_2 $时从差异到收敛的相变。这些正面和负面的结果可以提供有关如何调整亚当超级参数的建议。
translated by 谷歌翻译
我们提出了一类新的Langevin基础算法,它克服了当前用于深度学习模型的微调的流行自适应优化器的许多已知缺点。其支撑性理论依赖于欧拉多面近似对随机微分方程(SDES)的多边形近似的进步。结果,它继承了授权算法的稳定性属性,而它讨论了其他已知问题,例如,涉及其他已知问题。在神经网络中消失梯度。特别是,我们为这部小型课程的算法的融合性能提供了令人反感的分析和完全理论上,我们将其命名为$ \ varepsilon $ o poula(或简单地,opopoura)。最后,有几种实验呈现出不同类型的深度学习模型,其展示了opopoula在许多流行的自适应优化算法上的优越性。
translated by 谷歌翻译