随着边缘设备变得越来越强大,数据分析逐渐从集中式转移到分散的制度,在该制度中,利用边缘计算资源以在本地处理更多数据。这种分析制度被认为是联合数据分析(FDA)。尽管FDA最近有成功的案例,但大多数文献都专注于深度神经网络。在这项工作中,我们退后一步,为最基本的统计模型之一开发了FDA处理:线性回归。我们的处理是建立在层次建模的基础上,该模型允许多个组借用强度。为此,我们提出了两个联合的层次模型结构,它们在跨设备之间提供共享表示以促进信息共享。值得注意的是,我们提出的框架能够提供不确定性量化,可变选择,假设测试以及对新看不见数据的快速适应。我们在一系列现实生活中验证了我们的方法,包括对飞机发动机的条件监控。结果表明,我们对线性模型的FDA处理可以作为联合算法未来开发的竞争基准模型。
translated by 谷歌翻译
在本文中,我们提出\ texttt {fgpr}:一个联合高斯进程($ \ mathcal {gp} $)回归框架,它使用了用于本地客户端计算的模型聚合和随机梯度血缘的平均策略。值得注意的是,由此产生的全局模型在个性化中excels作为\ texttt {fgpr}共同学习所有客户端之前的全局$ \ mathcal {gp} $。然后通过利用该本地数据来获得预测后的后退,并在从特定客户端编码个性化功能的本地数据获得。从理论上讲,我们显示\ texttt {fgpr}会聚到完整对数似然函数的关键点,但符合统计误差。通过广泛的案例研究,我们展示了\ TextTT {FGPR}在广泛的应用中擅长,并且是隐私保留多保真数据建模的有希望的方法。
translated by 谷歌翻译
This study investigates clustered federated learning (FL), one of the formulations of FL with non-i.i.d. data, where the devices are partitioned into clusters and each cluster optimally fits its data with a localized model. We propose a novel clustered FL framework, which applies a nonconvex penalty to pairwise differences of parameters. This framework can automatically identify clusters without a priori knowledge of the number of clusters and the set of devices in each cluster. To implement the proposed framework, we develop a novel clustered FL method called FPFC. Advancing from the standard ADMM, our method is implemented in parallel, updates only a subset of devices at each communication round, and allows each participating device to perform a variable amount of work. This greatly reduces the communication cost while simultaneously preserving privacy, making it practical for FL. We also propose a new warmup strategy for hyperparameter tuning under FL settings and consider the asynchronous variant of FPFC (asyncFPFC). Theoretically, we provide convergence guarantees of FPFC for general nonconvex losses and establish the statistical convergence rate under a linear model with squared loss. Our extensive experiments demonstrate the advantages of FPFC over existing methods.
translated by 谷歌翻译
做出强大的预测是一个重要的挑战。联邦学习(FL)中的一个单独挑战是减少交流回合的数量,尤其是因为这样做会降低异质数据设置的性能。为了解决这两个问题,我们对学习全球模型的问题有贝叶斯的看法。我们展示了如何使用客户预测性后代近似全局预测后验。这与其他作品不同,该作品将局部模型空间后代汇总到全局模型空间后部,并且由于后部的高维多模式性质而易受高近似误差的影响。相比之下,我们的方法对预测后期进行了聚集,由于输出空间的低维度,通常更容易近似。我们基于此想法提出了一种算法,该算法在每个客户端对MCMC采样进行了进行估计,然后在一轮中汇总它们以获得全局合奏模型。通过对多个分类和回归任务的经验评估,我们表明,尽管使用了一轮通信,但该方法与其他FL技术具有竞争力,并且在异质环境上的表现优于它们。该代码可在https://github.com/hasanmohsin/fedpredspace_1 round上公开获得。
translated by 谷歌翻译
随着数据生成越来越多地在没有连接连接的设备上进行,因此与机器学习(ML)相关的流量将在无线网络中无处不在。许多研究表明,传统的无线协议高效或不可持续以支持ML,这创造了对新的无线通信方法的需求。在这项调查中,我们对最先进的无线方法进行了详尽的审查,这些方法是专门设计用于支持分布式数据集的ML服务的。当前,文献中有两个明确的主题,模拟的无线计算和针对ML优化的数字无线电资源管理。这项调查对这些方法进行了全面的介绍,回顾了最重要的作品,突出了开放问题并讨论了应用程序方案。
translated by 谷歌翻译
Fairness and robustness are two important concerns for federated learning systems. In this work, we identify that robustness to data and model poisoning attacks and fairness, measured as the uniformity of performance across devices, are competing constraints in statistically heterogeneous networks. To address these constraints, we propose employing a simple, general framework for personalized federated learning, Ditto, that can inherently provide fairness and robustness benefits, and develop a scalable solver for it. Theoretically, we analyze the ability of Ditto to achieve fairness and robustness simultaneously on a class of linear problems. Empirically, across a suite of federated datasets, we show that Ditto not only achieves competitive performance relative to recent personalization methods, but also enables more accurate, robust, and fair models relative to state-of-the-art fair or robust baselines.
translated by 谷歌翻译
Federated learning involves training statistical models over remote devices or siloed data centers, such as mobile phones or hospitals, while keeping data localized. Training in heterogeneous and potentially massive networks introduces novel challenges that require a fundamental departure from standard approaches for large-scale machine learning, distributed optimization, and privacy-preserving data analysis. In this article, we discuss the unique characteristics and challenges of federated learning, provide a broad overview of current approaches, and outline several directions of future work that are relevant to a wide range of research communities.
translated by 谷歌翻译
Federated Learning is a distributed learning paradigm with two key challenges that differentiate it from traditional distributed optimization: (1) significant variability in terms of the systems characteristics on each device in the network (systems heterogeneity), and (2) non-identically distributed data across the network (statistical heterogeneity). In this work, we introduce a framework, FedProx, to tackle heterogeneity in federated networks. FedProx can be viewed as a generalization and re-parametrization of FedAvg, the current state-of-the-art method for federated learning. While this re-parameterization makes only minor modifications to the method itself, these modifications have important ramifications both in theory and in practice. Theoretically, we provide convergence guarantees for our framework when learning over data from non-identical distributions (statistical heterogeneity), and while adhering to device-level systems constraints by allowing each participating device to perform a variable amount of work (systems heterogeneity). Practically, we demonstrate that FedProx allows for more robust convergence than FedAvg across a suite of realistic federated datasets. In particular, in highly heterogeneous settings, FedProx demonstrates significantly more stable and accurate convergence behavior relative to FedAvg-improving absolute test accuracy by 22% on average.
translated by 谷歌翻译
In recent years, mobile devices are equipped with increasingly advanced sensing and computing capabilities. Coupled with advancements in Deep Learning (DL), this opens up countless possibilities for meaningful applications, e.g., for medical purposes and in vehicular networks. Traditional cloudbased Machine Learning (ML) approaches require the data to be centralized in a cloud server or data center. However, this results in critical issues related to unacceptable latency and communication inefficiency. To this end, Mobile Edge Computing (MEC) has been proposed to bring intelligence closer to the edge, where data is produced. However, conventional enabling technologies for ML at mobile edge networks still require personal data to be shared with external parties, e.g., edge servers. Recently, in light of increasingly stringent data privacy legislations and growing privacy concerns, the concept of Federated Learning (FL) has been introduced. In FL, end devices use their local data to train an ML model required by the server. The end devices then send the model updates rather than raw data to the server for aggregation. FL can serve as an enabling technology in mobile edge networks since it enables the collaborative training of an ML model and also enables DL for mobile edge network optimization. However, in a large-scale and complex mobile edge network, heterogeneous devices with varying constraints are involved. This raises challenges of communication costs, resource allocation, and privacy and security in the implementation of FL at scale. In this survey, we begin with an introduction to the background and fundamentals of FL. Then, we highlight the aforementioned challenges of FL implementation and review existing solutions. Furthermore, we present the applications of FL for mobile edge network optimization. Finally, we discuss the important challenges and future research directions in FL.
translated by 谷歌翻译
联合学习描述了多个客户端的模型的分布式培训,同时保留数据私有设备。在这项工作中,我们将服务器策划的联合学习过程视为分层潜在的变量模型,其中服务器提供了通过客户端特定的模型参数的先前分发的参数。我们表明,通过简单的高斯前瞻和众所周知的期望 - 最大化(EM)算法的硬版,在这种模型中学习对应于FEDVG,是联合学习设置的最流行的算法。在FEDAVG上的这种透视统一了最近在该字段中的几个工作,并通过分层模型的不同选择开辟了扩展的可能性。基于这种观点,我们进一步提出了一种雇用现有分布的分级模型的变体来促进稀疏性。通过使用Hard-Em算法来学习,我们获得FedSparse,可以在联邦学习设置中学习稀疏神经网络的过程。 FedSparse将来自客户端的通信成本降低到服务器,反之亦然,以及对稀疏网络推断的计算成本 - 这两者都具有很大的实际重要性在联合学习中。
translated by 谷歌翻译
使用人工智能(AI)赋予无线网络中数据量的前所未有的数据量激增,为提供无处不在的数据驱动智能服务而开辟了新的视野。通过集中收集数据集和培训模型来实现传统的云彩中心学习(ML)基础的服务。然而,这种传统的训练技术包括两个挑战:(i)由于数据通信增加而导致的高通信和能源成本,(ii)通过允许不受信任的各方利用这些信息来威胁数据隐私。最近,鉴于这些限制,一种新兴的新兴技术,包括联合学习(FL),以使ML带到无线网络的边缘。通过以分布式方式培训全局模型,可以通过FL Server策划的全局模型来提取数据孤岛的好处。 FL利用分散的数据集和参与客户的计算资源,在不影响数据隐私的情况下开发广义ML模型。在本文中,我们介绍了对FL的基本面和能够实现技术的全面调查。此外,提出了一个广泛的研究,详细说明了无线网络中的流体的各种应用,并突出了他们的挑战和局限性。进一步探索了FL的疗效,其新兴的前瞻性超出了第五代(B5G)和第六代(6G)通信系统。本调查的目的是在关键的无线技术中概述了流动的技术,这些技术将作为建立对该主题的坚定了解的基础。最后,我们向未来的研究方向提供前进的道路。
translated by 谷歌翻译
在本文中,我们应对PCA:异质性的重大挑战。当从不同趋势的不同来源收集数据的同时仍具有一致性时,提取共享知识的同时保留每个来源的独特功能至关重要。为此,我们提出了个性化的PCA(PERPCA),该PCA(PERPCA)使用相互正交的全球和本地主要组件来编码唯一的和共享的功能。我们表明,在轻度条件下,即使协方差矩阵截然不同,也可以通过约束优化问题来识别和恢复独特的和共享的特征。此外,我们设计了一种完全由分布式stiefel梯度下降来解决问题的完全联合算法。该算法引入了一组新的操作,称为通用缩回,以处理正交性约束,并且仅要求跨来源共享全局PC。我们证明了在合适的假设下算法的线性收敛。全面的数值实验突出了PERPCA在特征提取和异质数据集预测方面的出色性能。作为将共享和唯一功能从异质数据集解除共享和独特功能的系统方法,PERPCA在几种任务中找到了应用程序,包括视频细分,主题提取和分布式聚类。
translated by 谷歌翻译
我们引入了一种新的经验贝叶斯方法,用于大规模多线性回归。我们的方法结合了两个关键思想:(i)使用灵活的“自适应收缩”先验,该先验近似于正常分布的有限混合物,近似于正常分布的非参数家族; (ii)使用变分近似来有效估计先前的超参数并计算近似后期。将这两个想法结合起来,将快速,灵活的方法与计算速度相当,可与快速惩罚的回归方法(例如Lasso)相当,并在各种场景中具有出色的预测准确性。此外,我们表明,我们方法中的后验平均值可以解释为解决惩罚性回归问题,并通过直接解决优化问题(而不是通过交叉验证来调整)从数据中学到的惩罚函数的精确形式。 。我们的方法是在r https://github.com/stephenslab/mr.ash.ash.alpha的r软件包中实现的
translated by 谷歌翻译
联合学习的一个区别特征是(本地)客户数据可能具有统计异质性。这种异质性激发了个性化学习的设计,该学习是通过协作培训个人(个性化)模型的。文献中提出了各种个性化方法,似乎截然不同的形式和方法,从将单个全球模型用于本地正规化和模型插值,再到将多个全球模型用于个性化聚类等。在这项工作中,我们开始使用生成框架,可以统一几种不同的算法并暗示新算法。我们将生成框架应用于个性化的估计,并将其连接到经典的经验贝叶斯方法。我们在此框架下制定私人个性化估计。然后,我们将生成框架用于学习,该框架统一了几种已知的个性化FL算法,并提出了新算法。我们建议并研究一种基于知识蒸馏的新算法,该算法的数值优于几种已知算法。我们还为个性化学习方法开发隐私,并保证用户级的隐私和组成。我们通过数值评估估计和学习问题的性能以及隐私,证明了我们提出的方法的优势。
translated by 谷歌翻译
由于客户之间缺乏数据和统计多样性,联合学习从模型过度适应的巨大挑战面临巨大的挑战。为了应对这些挑战,本文提出了一种新型的个性化联合学习方法,该方法通过贝叶斯变异推断为pfedbayes。为了减轻过度拟合,将重量不确定性引入了客户和服务器的神经网络。为了实现个性化,每个客户端通过平衡私有数据的构建错误以及其KL Divergence与服务器的全局分布来更新其本地分布参数。理论分析给出了平均泛化误差的上限,并说明了概括误差的收敛速率是最小到对数因子的最佳选择。实验表明,所提出的方法在个性化模型上的表现优于其他高级个性化方法,例如Pfedbayes在MNIST,FMNIST和NON-I.I.I.D下,Pfedbayes的表现分别超过其他SOTA算法的其他SOTA算法的表现为1.25%,0.42%和11.71%。有限的数据。
translated by 谷歌翻译
在本文中,我们研究了启用高速雾无线电访问网络(F-RAN)中的内容受欢迎程度预测问题。为了以高准确性和低复杂性预测内容的流行,我们提出了基于高斯流程的回归器,以模拟内容请求模式。首先,我们提出的模型捕获了内容特征和受欢迎程度之间的关系。然后,我们利用贝叶斯学习来训练模型参数,这对于过度拟合非常可靠。但是,贝叶斯方法通常无法找到后验分布的闭合形式表达。为了解决此问题,我们采用随机方差降低梯度哈密顿蒙特卡洛(SVRG-HMC)方法来近似后验分布。为了利用其他FOG接入点(F-AP)的计算资源并减少开销的通信,我们提出了一个量化的联合学习(FL)框架与贝叶斯学习相结合。量化的联合贝叶斯学习框架允许每个F-AP在量化和编码后将梯度发送到云服务器。它可以有效地实现预测准确性和通信间接费用之间的权衡。仿真结果表明,我们提出的政策的绩效优于现有政策。
translated by 谷歌翻译
联邦学习一直是一个热门的研究主题,使不同组织的机器学习模型的协作培训在隐私限制下。随着研究人员试图支持更多具有不同隐私方法的机器学习模型,需要开发系统和基础设施,以便于开发各种联合学习算法。类似于Pytorch和Tensorflow等深度学习系统,可以增强深度学习的发展,联邦学习系统(FLSS)是等效的,并且面临各个方面的面临挑战,如有效性,效率和隐私。在本调查中,我们对联合学习系统进行了全面的审查。为实现流畅的流动和引导未来的研究,我们介绍了联合学习系统的定义并分析了系统组件。此外,我们根据六种不同方面提供联合学习系统的全面分类,包括数据分布,机器学习模型,隐私机制,通信架构,联合集市和联合的动机。分类可以帮助设计联合学习系统,如我们的案例研究所示。通过系统地总结现有联合学习系统,我们展示了设计因素,案例研究和未来的研究机会。
translated by 谷歌翻译
联合学习使多个数据中心能够协作培训中心模型,而无需公开任何机密数据。尽管确定性模型能够执行高预测准确性,但它们缺乏校准和量化不确定性的能力对于安全至关重要的应用是有问题的。与确定性模型不同,诸如贝叶斯神经网络之类的概率模型相对良好,能够量化不确定性以及其竞争性预测准确性。两种方法都出现在联邦学习框架中。但是,确定性模型的聚合方案不能直接应用于概率模型,因为权重对应于分布而不是点估计。在这项工作中,我们研究了各种聚合方案对变异贝叶斯神经网络的影响。通过三个图像分类数据集的经验结果,我们观察到,汇总分布的传播程度是学习过程中的重要因素。因此,我们提出了有关如何在联合学习中结合变异贝叶斯网络的问题的调查,同时为不同的聚合设置提供了基准。
translated by 谷歌翻译
联合学习(FL)框架使Edge客户能够协作学习共享的推理模型,同时保留对客户的培训数据的隐私。最近,已经采取了许多启发式方法来概括集中化的自适应优化方法,例如SGDM,Adam,Adagrad等,以提高收敛性和准确性的联合设置。但是,关于在联合设置中的位置以及如何设计和利用自适应优化方法的理论原理仍然很少。这项工作旨在从普通微分方程(ODE)的动力学的角度开发新的自适应优化方法,以开发FL的新型自适应优化方法。首先,建立了一个分析框架,以在联合优化方法和相应集中优化器的ODES分解之间建立连接。其次,基于这个分析框架,开发了一种动量解耦自适应优化方法FedDA,以充分利用每种本地迭代的全球动量并加速训练收敛。最后但并非最不重要的一点是,在训练过程结束时,全部批处理梯度用于模仿集中式优化,以确保收敛并克服由自适应优化方法引起的可能的不一致。
translated by 谷歌翻译
本文提出了一个传感器数据匿名模型,该模型接受了分散数据的培训,并在数据实用程序和隐私之间进行了理想的权衡,即使在收集到的传感器数据具有不同的基础分布的异质环境中也是如此。我们称为Blinder的匿名模型基于以对抗性方式训练的变异自动编码器和歧视网络。我们使用模型 - 不合稳定元学习框架来调整通过联合学习训练的匿名模型,以适应每个用户的数据分布。我们在不同的设置下评估了盲人,并表明它提供了端到端的隐私保护,以增加隐私损失高达4.00%,并将数据实用程序降低高达4.24%,而最新的数据实用程序则将其降低了4.24%。对集中数据培训的匿名模型。我们的实验证实,Blinder可以一次掩盖多个私人属性,并且具有足够低的功耗和计算开销,以便将其部署在边缘设备和智能手机上,以执行传感器数据的实时匿名化。
translated by 谷歌翻译