In this paper, we propose Adam-Hash: an adaptive and dynamic multi-resolution hashing data-structure for fast pairwise summation estimation. Given a data-set $X \subset \mathbb{R}^d$, a binary function $f:\mathbb{R}^d\times \mathbb{R}^d\to \mathbb{R}$, and a point $y \in \mathbb{R}^d$, the Pairwise Summation Estimate $\mathrm{PSE}_X(y) := \frac{1}{|X|} \sum_{x \in X} f(x,y)$. For any given data-set $X$, we need to design a data-structure such that given any query point $y \in \mathbb{R}^d$, the data-structure approximately estimates $\mathrm{PSE}_X(y)$ in time that is sub-linear in $|X|$. Prior works on this problem have focused exclusively on the case where the data-set is static, and the queries are independent. In this paper, we design a hashing-based PSE data-structure which works for the more practical \textit{dynamic} setting in which insertions, deletions, and replacements of points are allowed. Moreover, our proposed Adam-Hash is also robust to adaptive PSE queries, where an adversary can choose query $q_j \in \mathbb{R}^d$ depending on the output from previous queries $q_1, q_2, \dots, q_{j-1}$.
K-means++ is an important algorithm to choose initial cluster centers for the k-means clustering algorithm. In this work, we present a new algorithm that can solve the $k$-means++ problem with near optimal running time. Given $n$ data points in $\mathbb{R}^d$, the current state-of-the-art algorithm runs in $\widetilde{O}(k )$ iterations, and each iteration takes $\widetilde{O}(nd k)$ time. The overall running time is thus $\widetilde{O}(n d k^2)$. We propose a new algorithm \textsc{FastKmeans++} that only takes in $\widetilde{O}(nd + nk^2)$ time, in total.
深度学习的成功以巨大的计算和能源成本,而训练大规模过度参数的神经网络的可伸缩性正成为AI进步的真正障碍。尽管传统反向传播通过梯度不错的传统反向传播的流行和低成本,但在理论和实践中,SGD在非凸面设置中具有高度的收敛速度。为了减轻这一成本,最近的工作提议采用替代性(牛顿型)培训方法,但收敛速度更快,尽管其每题成本更高。对于具有$ m = \ mathrm {poly}(n)$参数的典型神经网络,$ n $ datapoints in $ \ mathbb {r}^d $ of $ n $ datapoints的输入批次, Weinstein,ITCS'2021]需要$ \ sim mnd + n^3 $每次迭代。在本文中,我们提出了一种新颖的培训方法,它仅需要$ m^{1- \ alpha} n d + n^3 $摊销时间在同一过度叠加机制中,其中$ \ alpha \ in(0.01,1)$是某些固定常数。此方法依赖于神经网络的新替代视图,作为一组二进制搜索树,每个迭代都对应于修改树中节点的一小部分。我们认为,这种观点将在DNN的设计和分析中进一步应用。
内核密度估计(KDE)在机器学习中脱颖而出。问题是按以下方式定义的:给定的内核函数$ f(x,y)$和一组点$ \ {x_1,x_2,x_2,\ cdots,x_n \} \ subset \ subset \ mathbb {r}^d $,我们想计算$ \ frac {1} {n} \ sum_ {i = 1}^{n} f(x_i,y)$ for任何查询点$ y \ in \ mathbb {r}^d $。最近,将数据结构用于有效KDE的趋势越来越大。但是,提出的KDE数据结构集中在静态设置上。 KDE数据结构在动态变化的数据分布上的鲁棒性没有解决。在这项工作中,我们专注于具有对对抗性查询的KDE数据结构的动态维护。特别是,我们提供了KDE数据结构的理论框架。在我们的框架中,KDE数据结构仅需要次级空间。此外,我们的数据结构支持sublinear时间中数据集的动态更新。此外,我们可以在均匀时间内使用潜在的对手进行自适应查询。
在线二手匹配是在线算法中的一个基本问题。目的是匹配两组顶点,以最大化边缘权重的总和,在该顶点中,对于一组顶点,每个顶点及其相应的边缘重量以序列形式出现。当前,在实际的建议系统或搜索引擎中,权重是由用户的深度表示与项目深度表示之间的内部产品决定的。标准的在线匹配需要支付$ nd $的时间来线性扫描所有$ n $项目,计算重量(假设每个表示向量都有长度$ d $),然后根据权重决定匹配。但是,实际上,$ n $可能很大,例如在在线电子商务平台中。因此,改善计算权重的时间是一个实践意义的问题。在这项工作中,我们为大约计算权重的理论基础提供了基础。我们表明,借助我们提出的随机数据结构,可以在额定时间内计算权重,同时仍保留匹配算法的竞争比率。
随着智能设备和物联网无处不在的部署的出现,机器学习推断的数据源已越来越多地转移到网络的边缘。现有的机器学习推理平台通常假设一个均匀的基础架构,并且不考虑包括边缘设备,本地集线器,边缘数据中心和云数据中心的更复杂和分层的计算基础架构。另一方面,最近的Automl工作为异质环境提供了可行的解决方案,用于模型压缩,修剪和量化。对于机器学习模型,现在我们可能很容易找到甚至生成一系列在准确性和效率之间进行不同权衡的模型。我们设计和实施Jellybean,这是一种用于服务和优化机器学习推理工作流程的系统。给定的服务级目标(例如,吞吐量,准确性),Jellybean选择了满足准确性目标的最具成本效益的模型,并决定如何在基础架构的不同层次上部署它们。评估表明,与最先进的模型选择和工人分配解决方案相比,Jellybean的视觉问题回答总成本最高可达58%,而NVIDIA AI City Challenge的车辆跟踪最多可达36%。 Jellybean还优于先前的ML服务系统(例如,在云上火花)的服务成本高达5倍。
ALPA通过生成统一数据,操作员和管道并行性的执行计划来自动对大型深度学习(DL)模型的模型平行训练。现有的模型并行训练系统要求用户手动创建并行化计划,或者自动从有限的模型并行性配置中生成一个计划。它们不足以在分布式计算设备上扩展复杂的DL模型。 ALPA通过将并行性视为两个层次级别来分配大型DL模型的训练:操作员和操作员并行性。基于它,ALPA构建了一个新的分层空间,用于大规模的模型并行执行计划。 ALPA设计了许多汇编,以在每个并行性级别自动得出有效的并行执行计划。 ALPA实现了有效的运行时,以在分布式计算设备上协调两级并行执行。我们的评估表明,ALPA生成的并行化计划,即使在其设计的型号上,也可以匹配或超过手动模型并联训练系统。与专业系统不同,ALPA还推广到具有异质体系结构和模型的模型,而没有手动设计的计划。 ALPA的源代码可在上公开获得
许多深度学习任务必须处理图表(例如,蛋白质结构,社交网络,源代码摘要树木)。由于这些任务的重要性,人们转向图形神经网络(GNN)作为图形学习的事实方法。由于他们的令人信服的表现,GNN已经被广泛应用。不幸的是,使用GNN的一个主要障碍是GNN需要大量的时间和资源来训练。最近,在图表数据上学习的新方法是图形神经切线内核(GNTK)[du,Hou,Salakhutdinov,Poczos,Wang和Xu 19]。 GNTK是曲线图数据上神经切线核(NTK)[Jacot,Gabriel和Hipller 18](一个内核方法)的应用,并解决NTK回归等同于使用梯度下降来训练无限宽的神经网络。使用GNTK的主要好处是,类似于任何内核方法,GNTK的参数可以直接在一步中解决。这可以避免耗时的梯度下降。同时,素描越来越多地用于加速各种优化问题,包括解决内核回归。给定$ N $ Graphs的内核矩阵,在解决内核回归中使用素描可以将运行时间减少到$ O(n ^ 3)$。但遗憾的是,此类方法通常需要关于内核矩阵的广泛知识,而在GNTK的情况下,我们发现内核矩阵的构造已经是$ O(n ^ 2n ^ 4)$,假设每个图都有$ n $节点。核矩阵施工时间可以是主要的性能瓶颈,当图的大小为$ n $增加时。因此,要问的自然问题是我们是否可以加快内核矩阵构造以改善GNTK回归的端到端运行时间。本文提供了第一种构建$ O(n ^ 2n ^ 3)$运行时间的内核矩阵的算法。
As an important variant of entity alignment (EA), multi-modal entity alignment (MMEA) aims to discover identical entities across different knowledge graphs (KGs) with multiple modalities like images. However, current MMEA algorithms all adopt KG-level modality fusion strategies but ignore modality differences among individual entities, hurting the robustness to potential noise involved in modalities (e.g., unidentifiable images and relations). In this paper we present MEAformer, a multi-modal entity alignment transformer approach for meta modality hybrid, to dynamically predict the mutual correlation coefficients among modalities for instance-level feature fusion. A modal-aware hard entity replay strategy is also proposed for addressing vague entity details. Extensive experimental results show that our model not only achieves SOTA performance on multiple training scenarios including supervised, unsupervised, iterative, and low resource, but also has limited parameters, optimistic speed, and good interpretability. Our code will be available soon.
With increasing privacy concerns on data, recent studies have made significant progress using federated learning (FL) on privacy-sensitive natural language processing (NLP) tasks. Much literature suggests fully fine-tuning pre-trained language models (PLMs) in the FL paradigm can mitigate the data heterogeneity problem and close the performance gap with centralized training. However, large PLMs bring the curse of prohibitive communication overhead and local model adaptation costs for the FL system. To this end, we introduce various parameter-efficient tuning (PETuning) methods into federated learning. Specifically, we provide a holistic empirical study of representative PLMs tuning methods in FL. The experimental results cover the analysis of data heterogeneity levels, data scales, and different FL scenarios. Overall communication overhead can be significantly reduced by locally tuning and globally aggregating lightweight model parameters while maintaining acceptable performance in various FL settings. To facilitate the research of PETuning in FL, we also develop a federated tuning framework FedPETuning, which allows practitioners to exploit different PETuning methods under the FL training paradigm conveniently. The source code is available at \url{}.
