本文研究了一系列组成函数的随机优化,其中每个汇总的内部函数与相应的求和指数耦合。我们将这个问题家族称为有限和耦合的组成优化(FCCO)。它在机器学习中具有广泛的应用,用于优化非凸或凸组成措施/目标,例如平均精度(AP),p-norm推动,列表排名损失,邻居组成分析(NCA),深度生存分析,深层可变模型等等,这应该得到更精细的分析。然而,现有的算法和分析在一个或其他方面受到限制。本文的贡献是为非凸和凸目标的简单随机算法提供全面的收敛分析。我们的关键结果是通过使用带有微型批次的基于移动平均的估计器,通过并行加速提高了Oracle的复杂性。我们的理论分析还展示了通过对外部和内部水平相等大小的批量来改善实际实现的新见解。关于AP最大化,NCA和P-norm推动的数值实验证实了该理论的某些方面。
translated by 谷歌翻译
X-fisk是一个介绍的术语,以代表组成量度或目标家族,其中每个数据点与一组数据点显式或隐式进行比较,以定义风险函数。它包括许多广泛使用的措施或目标在一定的召回水平上的精确度,对比目标等处于最高$ K $的位置。尽管在机器学习,计算机视觉,信息检索等文献中已经研究了这些措施/目标及其优化算法,但优化了这些措施/目标在深度学习方面遇到了一些独特的挑战。在这份技术报告中,我们通过重点关注其算法基础,调查了最近对深X风险优化(DXO)的严格努力。我们介绍了一类技术,以优化X风险以进行深度学习。我们分别将DXO分别属于非凸端优化的非凸优化问题的三个特殊家族,分别分别属于Min-Max优化,非凸组成优化和非Convex Bilevel优化。对于每个问题家族,我们提出了一些强大的基线算法及其复杂性,这将激发进一步的研究以改善现有结果。关于提出的结果和未来研究的讨论在最后进行。在www.libauc.org的libauc库中实现了用于优化各种X风险的有效算法。
translated by 谷歌翻译
NDCG是标准化的折扣累积增益,是信息检索和机器学习中广泛使用的排名指标。但是,仍然缺乏最大化NDCG的有效且可证明的随机方法,尤其是对于深层模型。在本文中,我们提出了一种优化NDCG及其最高$ K $变体的原则方法。首先,我们制定了一个新颖的组成优化问题,以优化NDCG替代物,以及一个新型的双层构图优化问题,用于优化顶部$ K $ NDCG代理。然后,我们开发有效的随机算法,并为非凸目标提供可证明的收敛保证。与现有的NDCG优化方法不同,我们的算法量表的均量复杂性与迷你批量大小,而不是总项目的数量。为了提高深度学习的有效性,我们通过使用初始热身和停止梯度操作员进一步提出实用策略。多个数据集的实验结果表明,我们的方法在NDCG方面优于先前的排名方法。据我们所知,这是首次提出随机算法以优化具有可证明的收敛保证的NDCG。我们提出的方法在https://libauc.org/的libauc库中实现。
translated by 谷歌翻译
已经对蜘蛛/莎拉/风暴等方差降低技术进行了广泛的研究,以提高随机非凸优化的收敛速率,这些优化通常维护和更新跨迭代中单个函数的估计器序列。 {\如果我们需要在迭代中跟踪多个功能映射,但是只有访问$ \ Mathcal {o}的随机样品(1)$在每次迭代时$ functional映射?}在解决一个新兴的家族时,有一个重要的应用程序以$ \ sum_ {i = 1}^m f_i(g_i(\ mathbf {w}))的形式形式的耦合组合优化问题,其中$ g_i $可通过随机甲骨文访问$ g_i $。关键问题是跟踪和估计$ \ mathbf g(\ mathbf {w})=(g_1(\ mathbf {w}),\ ldots,g_m(\ mathbf {w})$ $ \ mathbf g(\ mathbf {w})$具有$ m $块,只允许探测$ \ mathcal {o}(1)$块才能达到其随机值和雅各布人。为了提高解决这些问题的复杂性,我们提出了一种新型随机方法,称为多块单个探针差异(MSVR)估计器,以跟踪$ \ mathbf g(\ mathbf {w})$的序列。它的灵感来自风暴,但引入了定制的误差校正术语,不仅可以减轻所选块的随机样品中的噪声,而且还可以减轻那些未进行采样的块中的噪声。在MSVR估计器的帮助下,我们开发了几种算法来解决上述组成问题,并在具有非convex/convex/convex/strank strank convex目标的各种设置中具有改善的复杂性。我们的结果在几个方面都改善了先前的结果,包括样本复杂性和对强凸参数的依赖。多任务深度AUC最大化的经验研究表明,使用新估计器的性能更好。
translated by 谷歌翻译
在本文中,我们提出了适用于深度学习的单向和双向部分AUC(PAUC)最大化的系统和高效的基于梯度的方法。我们通过使用分布强大的优化(DRO)来定义每个单独的积极数据的损失,提出了PAUC替代目标的新公式。我们考虑了两种DRO的配方,其中一种是基于条件 - 价值风险(CVAR),该风险(CVAR)得出了PAUC的非平滑但精确的估计器,而另一个基于KL差异正则DRO产生不确定的dro。但是PAUC的平滑(软)估计器。对于单向和双向PAUC最大化,我们提出了两种算法,并证明了它们分别优化其两种配方的收敛性。实验证明了所提出的算法对PAUC最大化的有效性,以对各种数据集进行深度学习。
translated by 谷歌翻译
在本文中,我们研究了多块最小双重双层优化问题,其中上层是非凸线的最小值最小值目标,而下层级别是一个强烈的凸目标,并且有多个双重变量块和下层级别。问题。由于交织在一起的多块最小双重双重结构,每次迭代处的计算成本可能高高,尤其是在大量块中。为了应对这一挑战,我们提出了一种单循环随机随机算法,该算法需要在每次迭代时仅恒定数量的块进行更新。在对问题的一些温和假设下,我们建立了$ \ Mathcal {o}(1/\ Epsilon^4)$的样本复杂性,用于查找$ \ epsilon $ - 稳定点。这匹配了在一般无偏见的随机甲骨文模型下求解随机非convex优化的最佳复杂性。此外,我们在多任务深度AUC(ROC曲线下)最大化和多任务深度部分AUC最大化中提供了两种应用。实验结果验证了我们的理论,并证明了我们方法对数百个任务问题的有效性。
translated by 谷歌翻译
在本文中,我们提出了一种实用的在线方法,用于解决具有非凸面目标的一类分布稳健优化(DRO),这在机器学习中具有重要应用,以改善神经网络的稳健性。在文献中,大多数用于解决DRO的方法都基于随机原始方法。然而,DRO的原始方法患有几个缺点:(1)操纵对应于数据尺寸的高维双变量是昂贵的; (2)他们对网上学习不友好,其中数据顺序地发表。为了解决这些问题,我们考虑一类具有KL发散正则化的Dual变量的DRO,将MIN-MAX问题转换为组成最小化问题,并提出了无需较大的批量批量的无需线在线随机方法。我们建立了所提出的方法的最先进的复杂性,而无需多达\ L Ojasiewicz(PL)条件。大规模深度学习任务(i)的实证研究表明,我们的方法可以将培训加速超过2次,而不是基线方法,并在带有$ \ SIM $ 265K图像的大型数据集上节省培训时间。 (ii)验证DRO对实证数据集上的经验风险最小化(ERM)的最高表现。独立兴趣,所提出的方法也可用于解决与最先进的复杂性的随机成分问题家族。
translated by 谷歌翻译
本文重点介绍了解决光滑非凸强凹入最小问题的随机方法,这导致了由于其深度学习中的潜在应用而受到越来越长的关注(例如,深度AUC最大化,分布鲁棒优化)。然而,大多数现有算法在实践中都很慢,并且它们的分析围绕到几乎静止点的收敛。我们考虑利用Polyak-\ L Ojasiewicz(PL)条件来设计更快的随机算法,具有更强的收敛保证。尽管已经用于设计许多随机最小化算法的PL条件,但它们对非凸敏最大优化的应用仍然罕见。在本文中,我们提出并分析了基于近端的跨越时代的方法的通用框架,许多众所周知的随机更新嵌入。以{\ BF原始物镜差和二元间隙}的方式建立快速收敛。与现有研究相比,(i)我们的分析基于一个新的Lyapunov函数,包括原始物理差距和正则化功能的二元间隙,(ii)结果更加全面,提高了更好的依赖性的速率不同假设下的条件号。我们还开展深层和非深度学习实验,以验证我们的方法的有效性。
translated by 谷歌翻译
随机梯度下降(SGDA)及其变体一直是解决最小值问题的主力。但是,与研究有差异隐私(DP)约束的经过良好研究的随机梯度下降(SGD)相反,在理解具有DP约束的SGDA的概括(实用程序)方面几乎没有工作。在本文中,我们使用算法稳定性方法在不同的设置中建立DP-SGDA的概括(实用程序)。特别是,对于凸 - 凸环设置,我们证明DP-SGDA可以在平滑和非平滑案例中都可以根据弱原始二元人群风险获得最佳的效用率。据我们所知,这是在非平滑案例中DP-SGDA的第一个已知结果。我们进一步在非convex-rong-concave环境中提供了实用性分析,这是原始人口风险的首个已知结果。即使在非私有设置中,此非convex设置的收敛和概括结果也是新的。最后,进行了数值实验,以证明DP-SGDA在凸和非凸病例中的有效性。
translated by 谷歌翻译
最近,模型 - 不可知的元学习(MAML)已经获得了巨大的关注。然而,MAML的随机优化仍然不成熟。 MAML的现有算法利用“剧集”思想,通过对每个迭代的每个采样任务进行采样和一些数据点来更新元模型。但是,它们不一定能够以恒定的小批量大小保证收敛,或者需要在每次迭代时处理大量任务,这对于持续学习或跨设备联合学习不可行,其中仅提供少量任务每次迭代或每轮。本文通过(i)提出了与消失收敛误差的有效的基于内存的随机算法提出了基于存储的基于存储器的随机算法,这只需要采样恒定数量的任务和恒定数量的每次迭代数据样本; (ii)提出基于通信的分布式内存基于存储器的MAML算法,用于跨设备(带客户端采样)和跨筒仓(无客户采样)设置中的个性化联合学习。理论结果显着改善了MAML的优化理论,实证结果也证实了理论。
translated by 谷歌翻译
成对学习是指损失函数取决于一对情况的学习任务。它实例化了许多重要的机器学习任务,如双级排名和度量学习。一种流行的方法来处理成对学习中的流数据是在线梯度下降(OGD)算法,其中需要将当前实例配对以前具有足够大的尺寸的先前实例的电流实例,因此遭受可扩展性问题。在本文中,我们提出了用于成对学习的简单随机和在线梯度下降方法。与现有研究的显着差异是,我们仅将当前实例与前一个构建梯度方向配对,这在存储和计算复杂性中是有效的。我们为凸和非凸起的展示结果,优化和泛化误差界以及平滑和非光滑问题都开发了新颖的稳定性结果,优化和泛化误差界限。我们引入了新颖的技术来解耦模型的依赖性和前一个例子在优化和泛化分析中。我们的研究解决了使用具有非常小的固定尺寸的缓冲集开发OGD的有意义的泛化范围的开放问题。我们还扩展了我们的算法和稳定性分析,以便为成对学习开发差异私有的SGD算法,这显着提高了现有结果。
translated by 谷歌翻译
ROC(AUROC)和精密召回曲线(AUPRC)的区域是用于评估不平衡问题的分类性能的常见度量。与AUROC相比,AUPRC是一个更合适的度量,用于高度不平衡的数据集。虽然已经广泛研究了Auroc的随机优化,但Auprc的原则随机优化已经很少被探索。在这项工作中,我们提出了一个原则的技术方法来优化Auprc进行深度学习。我们的方法是基于最大化平均精度(AP),这是Auprc的一个非偏见点估计器。我们将目标分为{\ IT依赖的组成函数}的总和,内部函数取决于外层的随机变量。通过利用随机成分优化的最新进展,我们提出了具有{\ IT可提供的收敛保证的皂的适应性和非自适应随机算法。图像和图表数据集的广泛实验结果表明,我们所提出的方法在AUPRC方面占据了对不平衡问题的现有方法。据我们所知,我们的工作代表了第一次尝试使用可提供的融合优化AUPRC。 SOAP已在Libauc库中在〜\ URL {https://libauc.org/}中实现。
translated by 谷歌翻译
In this paper, we present a simple yet effective method (ABSGD) for addressing the data imbalance issue in deep learning. Our method is a simple modification to momentum SGD where we leverage an attentional mechanism to assign an individual importance weight to each gradient in the mini-batch. Unlike many existing heuristic-driven methods for tackling data imbalance, our method is grounded in {\it theoretically justified distributionally robust optimization (DRO)}, which is guaranteed to converge to a stationary point of an information-regularized DRO problem. The individual-level weight of a sampled data is systematically proportional to the exponential of a scaled loss value of the data, where the scaling factor is interpreted as the regularization parameter in the framework of information-regularized DRO. Compared with existing class-level weighting schemes, our method can capture the diversity between individual examples within each class. Compared with existing individual-level weighting methods using meta-learning that require three backward propagations for computing mini-batch stochastic gradients, our method is more efficient with only one backward propagation at each iteration as in standard deep learning methods. To balance between the learning of feature extraction layers and the learning of the classifier layer, we employ a two-stage method that uses SGD for pretraining followed by ABSGD for learning a robust classifier and finetuning lower layers. Our empirical studies on several benchmark datasets demonstrate the effectiveness of the proposed method.
translated by 谷歌翻译
在本文中,我们考虑基于移动普通(SEMA)的广泛使用但不完全了解随机估计器,其仅需要{\ bf是一般无偏的随机oracle}。我们展示了Sema在一系列随机非凸优化问题上的力量。特别是,我们分析了基于SEMA的SEMA的{\ BF差异递归性能的各种随机方法(现有或新提出),即三个非凸优化,即标准随机非凸起最小化,随机非凸强烈凹入最小最大优化,随机均方优化。我们的贡献包括:(i)对于标准随机非凸起最小化,我们向亚当风格方法(包括ADAM,AMSGRAD,Adabound等)提供了一个简单而直观的融合证明,随着越来越大的“势头” “一阶时刻的参数,它给出了一种替代但更自然的方式来保证亚当融合; (ii)对于随机非凸强度凹入的最小值优化,我们介绍了一种基于移动平均估计器的单环原始 - 双随机动量和自适应方法,并确定其Oracle复杂性$ O(1 / \ epsilon ^ 4)$不使用大型批量大小,解决文献中的差距; (iii)对于随机双脚优化,我们介绍了一种基于移动平均估计器的单环随机方法,并确定其Oracle复杂性$ \ widetilde o(1 / \ epsilon ^ 4)$,而无需计算Hessian矩阵的SVD,改善最先进的结果。对于所有这些问题,我们还建立了使用随机梯度估计器的差异递减结果。
translated by 谷歌翻译
我们调查随机镜面下降(SMD)的趋同相对光滑和平滑凸优化。在相对平滑的凸优化中,我们为SMD提供了新的收敛保证,并持续步骤。对于平滑的凸优化,我们提出了一种新的自适应步骤方案 - 镜子随机Polyak Spectize(MSP)。值得注意的是,我们的收敛导致两个设置都不会使有界渐变假设或有界方差假设,并且我们向邻域显示在插值下消失的邻居的融合。MSP概括了最近提出的随机Polyak Spectize(SPS)(Loizou等,2021)以镜子血液镜子,并且在继承镜子血清的好处的同时,现代机器学习应用仍然是实用和高效的。我们将我们的结果与各种监督的学习任务和SMD的不同实例相结合,展示了MSP的有效性。
translated by 谷歌翻译
最近,有大量的工作致力于研究马尔可夫链随机梯度方法(MC-SGMS),这些方法主要集中于他们解决最小化问题的收敛分析。在本文中,我们通过统计学习理论框架中的算法稳定性镜头对MC-SGM进行了全面的MC-SGMS分析。对于经验风险最小化(ERM)问题,我们通过引入实用的论点稳定性来建立平稳和非平滑案例的最佳人口风险界限。对于最小值问题,我们建立了在平均参数稳定性和概括误差之间的定量连接,该误差扩展了均匀稳定性\ cite {lei2021Staritibal}的现有结果。我们进一步开发了预期和高概率的凸孔问题问题的第一个几乎最佳的收敛速率,这与我们的稳定性结果相结合,表明可以在平滑和非平滑案例中达到最佳的概括界限。据我们所知,这是对梯度从马尔可夫过程采样时对SGM的首次概括分析。
translated by 谷歌翻译
在本文中,我们提出了一种称为ANITA的新型加速梯度方法,用于解决基本的有限和优化问题。具体而言,我们同时考虑一般凸面和强烈凸面设置:i)对于一般凸有限的和有限的问题,Anita改善了Varag给定的先前最新结果(Lan等,2019)。特别是,对于大规模问题或收敛错误不是很小,即$ n \ geq \ frac {1} {\ epsilon^2} $,Anita获得\ emph {first} optimal restion $ o(n )$,匹配Woodworth and Srebro(2016)提供的下限$ \ Omega(N)$,而先前的结果为$ O(N \ log \ frac {1} {\ epsilon})$ 。 ii)对于强烈凸有限的问题,我们还表明,Anita可以实现最佳收敛速率$ o \ big(((n+\ sqrt {\ frac {\ frac {nl} {\ mu}} {\ mu}})\ log \ log \ frac {1} {1} {1} {1} { \ epsilon} \ big)$匹配下限$ \ omega \ big(((n+\ sqrt {\ frac {nl} {nl} {\ mu}})\ log \ frac {1} {\ epsilon} {\ epsilon} \ big) Lan and Zhou(2015)。此外,与以前的加速算法(如Varag(Lan等,2019)和Katyusha(Allen-Zhu,2017年),Anita享有更简单的无环算法结构。此外,我们提供了一种新颖的\ emph {动态多阶段收敛分析},这是将先前结果提高到最佳速率的关键技术。我们认为,针对基本有限和有限问题的新理论率和新颖的收敛分析将直接导致许多其他相关问题(例如分布式/联合/联合/分散的优化问题)的关键改进(例如,Li和Richt \'Arik,2021年,2021年)。最后,数值实验表明,Anita收敛的速度比以前的最先进的Varag(Lan等,2019)更快,从而验证了我们的理论结果并证实了Anita的实践优势。
translated by 谷歌翻译
梯度下降上升(GDA),最简单的单环路算法用于非凸起最小化优化,广泛用于实际应用,例如生成的对抗网络(GANS)和对抗性训练。尽管其理想的简单性,最近的工作表明了理论上的GDA的较差收敛率,即使在一侧对象的强凹面也是如此。本文为两个替代的单环算法建立了新的收敛结果 - 交替GDA和平滑GDA - 在温和的假设下,目标对一个变量的polyak-lojasiewicz(pl)条件满足Polyak-lojasiewicz(pl)条件。我们证明,找到一个$ \ epsilon $ -stationary点,(i)交替的GDA及其随机变体(没有迷你批量),分别需要$ o(\ kappa ^ {2} \ epsilon ^ { - 2})$和$ o(\ kappa ^ {4} \ epsilon ^ {-4})$迭代,而(ii)平滑gda及其随机变体(没有迷你批次)分别需要$ o(\ kappa \ epsilon ^ { - 2}) $和$ o(\ kappa ^ {2} \ epsilon ^ { - 4})$迭代。后者大大改善了Vanilla GDA,并在类似的环境下给出了单环算法之间的最佳已知复杂性结果。我们进一步展示了这些算法在训练GAN和强大的非线性回归中的经验效率。
translated by 谷歌翻译
Bilevel优化是在机器学习的许多领域中最小化涉及另一个功能的价值函数的问题。在大规模的经验风险最小化设置中,样品数量很大,开发随机方法至关重要,而随机方法只能一次使用一些样品进行进展。但是,计算值函数的梯度涉及求解线性系统,这使得很难得出无偏的随机估计。为了克服这个问题,我们引入了一个新颖的框架,其中内部问题的解决方案,线性系统的解和主要变量同时发展。这些方向是作为总和写成的,使其直接得出无偏估计。我们方法的简单性使我们能够开发全球差异算法,其中所有变量的动力学都会降低差异。我们证明,萨巴(Saba)是我们框架中著名的传奇算法的改编,具有$ o(\ frac1t)$收敛速度,并且在polyak-lojasciewicz的假设下实现了线性收敛。这是验证这些属性之一的双光线优化的第一种随机算法。数值实验验证了我们方法的实用性。
translated by 谷歌翻译
本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题,其目标是使具有变量的外目标函数最小化,该变量被限制为对(内部)优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况,而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似(TTSA)算法。在算法中,使用较大步长的随机梯度更新用于内部问题,而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率:当外部问题强烈凸起(RESP。〜弱凸)时,TTSA算法查找$ \ MATHCAL {O}(k ^ { - 2/3})$ -Optimal(resp。〜$ \ mathcal {o}(k ^ {-2/5})$ - 静止)解决方案,其中$ k $是总迭代号。作为一个应用程序,我们表明,两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是,与全球最优政策相比,自然演员批评算法显示以预期折扣奖励的差距,以$ \ mathcal {o}(k ^ { - 1/4})的速率收敛。
translated by 谷歌翻译