智能论文笔记

Online Lewis Weight Sampling

David P. Woodruff , Taisuke Yasuda

分类：机器学习 | (统计)机器学习

2022-07-17

科恩（Cohen）和彭（Peng）的开创性工作向理论计算机科学界推出了刘易斯（Lewis）的重量抽样，从而产生了快速采样算法的近似值$ d $二维子空间$ \ ell_p $ to $ \ ell_p $ to $ \ ell_p $ to $（1+ \ epsilon）$错误。几项工作将这一重要原始性扩展到其他设置，包括在线核心，滑动窗口和对抗流型模型。但是，这些结果仅适用于\ {1,2 \} $中的$ p \，$ p = 1 $的结果需要一个次优$ \ tilde o（d^2/\ epsilon^2）$样本。在这项工作中，我们设计了第一个几乎最佳的$ \ ell_p $ subspace嵌入在（0，\ infty）$中的所有$ p \ in Online Coreset，滑动窗口和对抗流型模型中的第一个$ p \。在所有三个模型中，我们的算法存储$ \ tilde o（d^{1 \ lor（p/2）}/\ epsilon^2）$行。这回答了[bdmmuwz2020]的主要开放问题的实质性概括，并给出了所有$ p \ notin \ {1,2 \} $的第一个结果。为了我们的结果，我们首先分析了“一击”采样行对其刘易斯重量的采样行采样，带有样品复杂性$ \ tilde o（d^{p/2}/\ epsilon^2）$对于$ p> 2 $。以前，该方案仅具有样品复杂性$ \ tilde o（d^{p/2}/\ epsilon^5）$，而$ \ tilde o（d^{p/2） }/\ epsilon^2）$是否使用了更复杂的递归抽样。递归抽样不能在线实施，因此需要对一击刘易斯重量采样进行分析。我们的分析使用与在线数字线性代数的新颖连接。 [MSSW2018]引入的复杂性参数$ \ mu $，我们显示第一个下限表明对$ \ mu $的线性依赖性是必要的。

translated by 谷歌翻译

Adaptive Sketches for Robust Regression with Importance Sampling

Sepideh Mahabadi , David P. Woodruff , Samson Zhou

分类：机器学习

2022-07-16

我们引入了通过随机梯度下降（SGD）来解决鲁棒回归的数据结构，通过对概率与其规范成正比，即重要性采样成正比进行采样。尽管SGD广泛用于大规模机器学习，但由于均匀抽样的较高差异，它可能会经历缓慢的收敛速率而闻名。另一方面，重要性采样可以显着降低差异，但通常很难实施，因为计算采样概率需要对数据进行额外的通过，在这种情况下，可以使用标准梯度下降（GD）。在本文中，我们介绍了一种算法，该算法大约将$ d $ d $ d $ $ d $ d $的算法从$ n $行超过$ n $行的强大回归问题中的最佳重要性采样分布中进行采样。因此，我们的算法在使用sublinear空间时有效地运行了$ t $ t $ sgd，并具有重要的采样，并且只是对数据进行了一次通过。我们的技术还扩展到对二阶优化的重要性采样。

translated by 谷歌翻译

Low Rank Approximation for General Tensor Networks

Arvind V. Mahankali , David P. Woodruff , Ziyu Zhang

分类：机器学习

2022-07-15

我们研究了用$ q $ modes $ a \ in \ mathbb {r}^{n \ times \ ldots \ times n} $的近似给定张量的问题。图$ g =（v，e）$，其中$ | v | = q $，以及张张量的集合$ \ {u_v \ mid v \ in v \} $，以$ g $指定的方式收缩以获取张量$ t $。对于$ u_v $的每种模式，对应于$ v $的边缘事件，尺寸为$ k $，我们希望找到$ u_v $，以便最小化$ t $和$ a $之间的frobenius norm距离。这概括了许多众所周知的张量网络分解，例如张量列，张量环，塔克和PEPS分解。我们大约是二进制树网络$ t'$带有$ o（q）$核的大约$ a $，因此该网络的每个边缘上的尺寸最多是$ \ widetilde {o}（k^{o（dt） } \ cdot q/\ varepsilon）$，其中$ d $是$ g $的最大度，$ t $是其树宽，因此$ \ | a -t'-t'\ | _f^2 \ leq（1 + \ Varepsilon）\ | a -t \ | _f^2 $。我们算法的运行时间为$ o（q \ cdot \ text {nnz}（a）） + n \ cdot \ text {poly}（k^{dt} q/\ varepsilon）$，其中$ \ text {nnz }（a）$是$ a $的非零条目的数量。我们的算法基于一种可能具有独立感兴趣的张量分解的新维度降低技术。我们还开发了固定参数可处理的$（1 + \ varepsilon）$ - 用于张量火车和塔克分解的近似算法，改善了歌曲的运行时间，Woodruff和Zhong（Soda，2019），并避免使用通用多项式系统求解器。我们表明，我们的算法对$ 1/\ varepsilon $具有几乎最佳的依赖性，假设没有$ O（1）$ - 近似算法的$ 2 \至4 $ norm，并且运行时间比蛮力更好。最后，我们通过可靠的损失函数和固定参数可拖动CP分解给出了塔克分解的其他结果。

translated by 谷歌翻译

Bounding the Width of Neural Networks via Coupled Initialization -- A Worst Case Analysis

Alexander Munteanu , Simon Omlor , Zhao Song , David P. Woodruff

分类：机器学习 | (统计)机器学习

2022-06-26

训练神经网络的一种常见方法是将所有权重初始化为独立的高斯向量。我们观察到，通过将权重初始化为独立对，每对由两个相同的高斯向量组成，我们可以显着改善收敛分析。虽然已经研究了类似的技术来进行随机输入[Daniely，Neurips 2020]，但尚未使用任意输入进行分析。使用此技术，我们展示了如何显着减少两层relu网络所需的神经元数量，均在逻辑损失的参数化设置不足的情况下，大约$ \ gamma^{ - 8} $ [Ji and telgarsky，ICLR， 2020]至$ \ gamma^{ - 2} $，其中$ \ gamma $表示带有神经切线内核的分离边距，以及在与平方损失的过度参数化设置中，从大约$ n^4 $ [song [song]和Yang，2019年]至$ n^2 $，隐含地改善了[Brand，Peng，Song和Weinstein，ITCS 2021]的近期运行时间。对于参数不足的设置，我们还证明了在先前工作时改善的新下限，并且在某些假设下是最好的。

translated by 谷歌翻译

Sketching Algorithms and Lower Bounds for Ridge Regression

Praneeth Kacham , David P. Woodruff

分类：机器学习

2022-04-13

我们给出了一种基于草图的迭代算法，该算法计算$ 1 +\ varepsilon $近似解决方案，用于脊回归问题$ \ min_x \ | ax-b \ | ax-b \ | _2^2 +\ lambda \ lambda \ | x \ | x \ | _2^2 $ were $ a \ in r^{n \ times d} $带有$ d \ ge n $。我们的算法对于恒定数量的迭代（需要输入量的恒定通过），通过要求素描矩阵仅具有较弱的近似矩阵乘法（AMM）保证，可以改善早期工作（Chowdhury等人）（Chowdhury等人）。在$ \ varepsilon $上，以及恒定的子空间嵌入保证。相反，较早的工作要求素描矩阵具有取决于$ \ varepsilon $的子空间嵌入保证。例如，要在$ 1 $迭代中生产$ 1+\ varepsilon $近似解决方案，需要$ 2 $通过输入，我们的算法需要OSNAP嵌入$ m = o（n \ sigma^2/\ lambda \ lambda \ varepsilon \ varepsilon ）带有稀疏参数$ s = o（\ log（n））$的$行，而Chowdhury等人的早期算法。使用相同数量的OSNAP行需要稀疏$ s = o（\ sqrt {\ sigma^2/\ lambda \ varepsilon} \ cdot \ log（n））$，其中$ \ sigma = \ opnorm = \ opnorm {a}是矩阵$ a $的光谱规范。我们还表明，该算法可用于为内核脊回归提供更快的算法。最后，我们表明，我们的算法所需的草图大小实质上对于山脊回归算法的自然框架实质上是最佳的，它通过证明AMM的遗漏素描矩阵上的下限。 AMM的草图大小的下限可能具有独立的兴趣。

translated by 谷歌翻译

Low-Rank Approximation with $1/ε^{1/3}$ Matrix-Vector Products

Ainesh Bakshi , Kenneth L. Clarkson , David P. Woodruff

分类：机器学习

2022-02-10

我们研究基于Krylov子空间的迭代方法，用于在任何Schatten $ p $ Norm中的低级别近似值。在这里，通过矩阵向量产品访问矩阵$ a $ $如此$ \ | a（i -zz^\ top）\ | _ {s_p} \ leq（1+ \ epsilon）\ min_ {u^\ top u = i_k} } $，其中$ \ | m \ | _ {s_p} $表示$ m $的单数值的$ \ ell_p $ norm。对于$ p = 2 $（frobenius norm）和$ p = \ infty $（频谱规范）的特殊情况，musco and Musco（Neurips 2015）获得了基于Krylov方法的算法，该方法使用$ \ tilde {o}（k）（k /\ sqrt {\ epsilon}）$ matrix-vector产品，改进na \“ ive $ \ tilde {o}（k/\ epsilon）$依赖性，可以通过功率方法获得，其中$ \ tilde {o} $抑制均可抑制poly $（\ log（dk/\ epsilon））$。我们的主要结果是仅使用$ \ tilde {o}（kp^{1/6}/\ epsilon^{1/3} {1/3}）$ matrix $ matrix的算法 - 矢量产品，并为所有$ p \ geq 1 $。为$ p = 2 $工作，我们的限制改进了先前的$ \ tilde {o}（k/\ epsilon^{1/2}）$绑定到$ \ tilde {o}（k/\ epsilon^{1/3}）$。由于schatten- $ p $和schatten-$ \ infty $ norms在$（1+ \ epsilon）$ pers $ p时相同\ geq（\ log d）/\ epsilon $，我们的界限恢复了Musco和Musco的结果，以$ p = \ infty $。此外，我们证明了矩阵矢量查询$ \ omega的下限（1/\ epsilon^ {1/3}）$对于任何固定常数$ p \ geq 1 $，表明令人惊讶的$ \ tilde {\ theta}（1/\ epsilon^{ 1/3}）$是常数〜$ k $的最佳复杂性。为了获得我们的结果，我们介绍了几种新技术，包括同时对多个Krylov子空间进行优化，以及针对分区操作员的不平等现象。我们在[1,2] $中以$ p \的限制使用了Araki-lieb-thirring Trace不平等，而对于$ p> 2 $，我们呼吁对安装分区操作员的规范压缩不平等。

translated by 谷歌翻译

Leverage Score Sampling for Tensor Product Matrices in Input Sparsity Time

David P. Woodruff , Amir Zandieh

分类：机器学习

2022-02-09

我们提出了一种输入稀疏时间抽样算法，该算法可以近似于$ q $ - 折叠的列量张量产品$ q $矩阵的量子矩阵，使用几乎最佳的样品，从（q）$因素。此外，对于数据集的$ q $倍自量量的重要特殊情况，这是学位的功能矩阵-y $ q $ polyenmial kernel，我们方法运行时的领先术语与该方法的大小成正比输入数据集，并且不依赖$ Q $。以前的技术要么在其运行时产生Poly $（Q）$的放缓，要么以$ Q $的依赖性为代价，但要以次优目标维度为代价，并在其运行时四处依赖于数据点的数量。我们的抽样技术依赖于$ q $部分相关的随机预测的集合，这些预测可以同时应用于数据集$ x $的总时间，这仅取决于$ x $的大小，同时又有其$ q $ - fold kronecker产品在$ x^{\ otimes q} $的列跨度中的任何固定向量的近乎等值线。我们还表明，我们的采样方法概括为多项式以外的其他类别的内核，例如高斯和神经切线核。

translated by 谷歌翻译

Active Sampling for Linear Regression Beyond the $\ell_2$ Norm

Cameron Musco , Christopher Musco , David P. Woodruff , Taisuke Yasuda

分类：机器学习 | (统计)机器学习

2021-11-09

我们研究了用于线性回归的主动采样算法，该算法仅旨在查询目标向量$ b \ in \ mathbb {r} ^ n $的少量条目，并将近最低限度输出到$ \ min_ {x \ In \ mathbb {r} ^ d} \ | ax-b \ | $，其中$ a \ in \ mathbb {r} ^ {n \ times d} $是一个设计矩阵和$ \ | \ cdot \ | $是一些损失函数。对于$ \ ell_p $ norm回归的任何$ 0 <p <\ idty $，我们提供了一种基于Lewis权重采样的算法，其使用只需$ \ tilde {o}输出$（1+ \ epsilon）$近似解决方案（d ^ {\ max（1，{p / 2}）} / \ mathrm {poly}（\ epsilon））$查询到$ b $。我们表明，这一依赖于$ D $是最佳的，直到对数因素。我们的结果解决了陈和Derezi的最近开放问题，陈和Derezi \'{n} Ski，他们为$ \ ell_1 $ norm提供了附近的最佳界限，以及$ p \中的$ \ ell_p $回归的次优界限（1,2） $。我们还提供了$ O的第一个总灵敏度上限（D ^ {\ max \ {1，p / 2 \} \ log ^ 2 n）$以满足最多的$ p $多项式增长。这改善了Tukan，Maalouf和Feldman的最新结果。通过将此与我们的技术组合起来的$ \ ell_p $回归结果，我们获得了一个使$ \ tilde o的活动回归算法（d ^ {1+ \ max \ {1，p / 2 \}} / \ mathrm {poly}。（\ epsilon））$疑问，回答陈和德里兹的另一个打开问题{n}滑雪。对于Huber损失的重要特殊情况，我们进一步改善了我们对$ \ tilde o的主动样本复杂性的绑定（d ^ {（1+ \ sqrt2）/ 2} / \ epsilon ^ c）$和非活跃$ \ tilde o的样本复杂性（d ^ {4-2 \ sqrt 2} / \ epsilon ^ c）$，由于克拉克森和伍德拉夫而改善了Huber回归的以前的D ^ 4 $。我们的敏感性界限具有进一步的影响，使用灵敏度采样改善了各种先前的结果，包括orlicz规范子空间嵌入和鲁棒子空间近似。最后，我们的主动采样结果为每种$ \ ell_p $ norm提供的第一个Sublinear时间算法。

translated by 谷歌翻译

Near-Optimal Algorithms for Linear Algebra in the Current Matrix Multiplication Time

Nadiia Chepurko , Kenneth L. Clarkson , Praneeth Kacham , David P. Woodruff

分类：机器学习

2021-07-16

在数值线性代数社区中，建议要获得诸如等级计算等各种问题的几乎最佳边界，找到最大线性独立的列（基础），回归或低秩近似，自然方式是解决尼尔森和尼文森的主要开放问题（Focs，2013）。该问题关于现有的忽略子空间嵌入的草图维度的对数因子，实现了恒因子近似的嵌入。我们展示了如何使用精细的草图技术绕过这个问题，并获得这些问题的最佳或几乎最佳的范围。我们使用的关键技术是基于不确定原理和提取器的Indyk的明确映射，在首次应用已知的漏窃子空间嵌入后，允许我们快速展开载体的质量，以便采样现在有效。由此，我们避免了在使用矩阵Chernoff不平等的界限中是标准的草图维度的对数因子。对于排名计算的基本问题和找到基础，我们的算法改善了张，郭和刘（Jacm，2013），并且在恒因因子和多个（日志日志（n）） - 因子中是最佳的。此外，对于恒定因子回归和低秩近似，我们给出了当前矩阵乘法指数的第一个最佳算法。

translated by 谷歌翻译

Quantum-Inspired Algorithms from Randomized Numerical Linear Algebra

Nadiia Chepurko , Kenneth L. Clarkson , Lior Horesh , Honghao Lin , David P. Woodruff

分类：机器学习

2020-11-09

我们创建经典的（非量词）动态数据结构，为推荐系统和最小二乘回归的查询提供了与量子类似物相当的查询。近年来，这种算法的去量化引起了人们的关注。我们为这些问题获得了更清晰的界限。更重要的是，我们通过争辩说，这些问题的先前量子启发算法正在做杠杆或脊杠杆得分取样，以实现这些改进。这些是随机数值线性代数中强大而标准的技术。有了这种识别，我们能够在数值线性代数中采用大量工作来获得这些问题的算法，这些算法比现有方法更简单或更快（或两者兼而有之）。我们的实验表明，所提出的数据结构在现实世界数据集上也很好地工作。

translated by 谷歌翻译