大规模优化问题需要有效和高效的算法。一种如此流行和经过验证的算法是随机梯度下降,其使用一阶梯度信息来解决这些问题。本文研究了随机梯度下降法的几乎肯定的收敛速率而不是确定性,其学习率变得随机。特别是,其学习率配备了乘法的速度性速度,产生随机学习率方案。与确定性 - 学习速率方案相比,理论结果显示使用适当的随机学习率时的非凸起设置中随机梯度下降的几乎肯定的收敛速度。理论结果是经验验证的。
translated by 谷歌翻译
我们提出了一种在异质环境中联合学习的沟通有效方法。在存在$ k $不同的数据分布的情况下,系统异质性反映了,每个用户仅从$ k $分布中的一个中采样数据。所提出的方法只需要在用户和服务器之间进行一次通信,从而大大降低了通信成本。此外,提出的方法通过在样本量方面实现最佳的于点错误(MSE)率,即在异质环境中提供强大的学习保证相同的数据分布,前提是,每个用户的数据点数量高于我们从系统参数方面明确表征的阈值。值得注意的是,这是可以实现的,而无需任何了解基础分布,甚至不需要任何分布数量$ k $。数值实验说明了我们的发现并强调了所提出的方法的性能。
translated by 谷歌翻译
FP8是加速深度学习训练推论以外的16位格式的自然发展。在本文中,我们提出了一个8位浮点(FP8)二进制互换格式,该格式由两个编码组成-E4M3(4位指数和3位Mantissa)和E5M2(5位指数和2位指数和2位Mantissa)。尽管E5M2遵循IEEE 754惯例代表特殊值的惯例,但E4M3的动态范围是通过不代表无限态,只有一个Mantissa Bit-Pattern来扩展NAN。我们证明了FP8格式对各种图像和语言任务的功效,从而有效地匹配了16位培训课程所达到的质量。我们的研究涵盖了主要的现代神经网络体系结构 - CNN,RNN和基于变压器的模型,使所有超参数与16位基线训练课程保持不变。我们的培训实验包括大型,最多175b参数,语言模型。我们还检查了使用16位格式训练的语言模型的FP8训练后定量化,该格式抗拒固定点INT8量化。
translated by 谷歌翻译
我们使用成本函数的梯度提出了一种基于距离的聚类的通用方法,该梯度可以测量相对于群集分配和聚类中心位置的聚类质量。该方法是迭代两步过程(在群集分配和群集中心更新之间交替),并且适用于广泛的功能,满足了一些温和的假设。提出的方法的主要优点是简单且计算廉价的更新规则。与以前专门针对聚类问题的特定表述的方法不同,我们的方法适用于广泛的成本,包括基于Huber损失的非BREGMAN聚类方法。我们分析了提出的算法的收敛性,并表明它在任意中心初始化下将其收敛到适当定义的固定点的集合。在布雷格曼成本函数的特殊情况下,算法收敛到质心伏罗尼亚分区集,这与先前的工作一致。关于实际数据的数值实验证明了该方法的有效性。
translated by 谷歌翻译
近年来,我们在自动驾驶汽车的发展中看到了显着的步骤。多家公司开始推出令人印象深刻的系统,这些系统在各种环境中工作。这些系统有时可以给人一种印象,即完全自动驾驶即将到来,我们很快就会在没有方向盘的情况下建造汽车。给予AI的自主权和控制水平的增加为人道交互的新模式提供了机会。然而,调查表明,在自动驾驶汽车中对AI提供更多控制伴随着乘客的一定程度的不安。在尝试缓解这个问题时,最近的作品通过允许乘客提供指导到视觉场景中的特定对象的命令来采取自然语言的方法。尽管如此,这只是汽车的一半,因为汽车也应该了解该命令的物理目的地,这就是我们在本文中的专注。我们提出了一个扩展,其中我们向3D目的地注释了在执行给定的命令之后需要达到的3D目的地,并在预测该目的地位置进行多个不同的基线进行评估。此外,我们介绍一个胜过适用于这种特定设置的先前作品的模型。
translated by 谷歌翻译