Federated Learning is a machine learning paradigm where we aim to train machine learning models in a distributed fashion. Many clients/edge devices collaborate with each other to train a single model on the central. Clients do not share their own datasets with each other, decoupling computation and data on the same device. In this paper, we propose yet another adaptive federated optimization method and some other ideas in the field of federated learning. We also perform experiments using these methods and showcase the improvement in the overall performance of federated learning.
translated by 谷歌翻译
联合学习(FL)以来已提议已应用于许多领域,例如信用评估,医疗等。由于网络或计算资源的差异,客户端可能不会同时更新其渐变可能需要花费等待或闲置的时间。这就是为什么需要异步联合学习(AFL)方法。AFL中的主要瓶颈是沟通。如何在模型性能和通信成本之间找到平衡是AFL的挑战。本文提出了一种新的AFL框架VAFL。我们通过足够的实验验证了算法的性能。实验表明,VAFL可以通过48.23 \%的平均通信压缩速率降低约51.02 \%的通信时间,并允许模型更快地收敛。代码可用于\ url {https://github.com/robai-lab/vafl}
translated by 谷歌翻译
联合学习(FL)是一种新兴技术,用于协作训练全球机器学习模型,同时将数据局限于用户设备。FL实施实施的主要障碍是用户之间的非独立且相同的(非IID)数据分布,这会减慢收敛性和降低性能。为了解决这个基本问题,我们提出了一种方法(comfed),以增强客户端和服务器侧的整个培训过程。舒适的关键思想是同时利用客户端变量减少技术来促进服务器聚合和全局自适应更新技术以加速学习。我们在CIFAR-10分类任务上的实验表明,Comfed可以改善专用于非IID数据的最新算法。
translated by 谷歌翻译
联邦学习(FL)是利用属于患者,人,公司或行业的敏感数据的合适解决方案,这些数据在刚性隐私约束下工作的难题。 FL主要或部分地支持数据隐私和安全问题,并提供促进促进多个边缘设备或组织的模型问题的替代方案,以使用许多本地数据培训全局模型而不具有它们。由其分布式自然引起的FL的非IID数据具有显着的性能下降和稳定性偏斜。本文介绍了一种新颖的方法,通过增强图像动态平衡客户端的数据分布,以解决FL的非IID数据问题。介绍的方法非常稳定模型培训,并将模型的测试精度从83.22%提高到89.43%,对于高度IID FL设定中的胸部X射线图像的多胸疾病检测。 IID,非IID和非IID的结果,联合培训表明,该方法可能有助于鼓励组织或研究人员开发更好的系统,以获得与数据隐私的数据的价值不仅适用于医疗保健,而且领域。
translated by 谷歌翻译
联合学习(FL)是一项新兴技术,可在保持数据分布和私密的同时向多个客户培训机器学习模型。根据参与的客户和模型培训量表,可以将联合学习分为两种类型:跨设备FL,客户通常是移动设备,客户编号可以达到数百万的规模;客户是组织或公司,并且客户编号通常很小(例如,一百之内)。尽管现有研究主要集中于跨设备FL,但本文旨在提供跨索洛FL的概述。更具体地说,我们首先讨论了交叉Silo FL的应用,并概述了其主要挑战。然后,我们通过关注与跨设备FL的联系和差异,对Cross-Silo FL挑战的现有方法进行系统的概述。最后,我们讨论了未来的方向和开放问题,值得社区的研究工作。
translated by 谷歌翻译
联邦学习(FL)是一种分布式学习方法,它为医学机构提供了在全球模型中合作的前景,同时保留患者的隐私。尽管大多数医疗中心执行类似的医学成像任务,但它们的差异(例如专业,患者数量和设备)导致了独特的数据分布。数据异质性对FL和本地模型的个性化构成了挑战。在这项工作中,我们研究了FL生产中间半全球模型的一种自适应分层聚类方法,因此具有相似数据分布的客户有机会形成更专业的模型。我们的方法形成了几个群集,这些集群由具有最相似数据分布的客户端组成;然后,每个集群继续分开训练。在集群中,我们使用元学习来改善参与者模型的个性化。我们通过评估我们在HAM10K数据集上的建议方法和极端异质数据分布的HAM10K数据集上的我们提出的方法,将聚类方法与经典的FedAvg和集中式培训进行比较。我们的实验表明,与标准的FL方法相比,分类精度相比,异质分布的性能显着提高。此外,我们表明,如果在群集中应用,则模型会更快地收敛,并且仅使用一小部分数据,却优于集中式培训。
translated by 谷歌翻译
由于对个人数据隐私的不断增长和当地客户的迅速增长的数据量,Federated Learnated(FL)的动机已成为新的机器学习设置。 FL系统由中央参数服务器和多个本地客户端组成。它将数据保留在本地客户端,并通过共享本地学到的模型参数来学习集中式模型。不需要共享本地数据,并且可以很好地保护隐私。然而,由于它是模型而不是共享的原始数据,因此系统可以暴露于恶意客户端发起的中毒模型攻击。此外,由于服务器上没有本地客户端数据,因此确定恶意客户端是一项挑战。此外,仍然可以使用上载模型估算客户本地数据,从而导致隐私披露。在这项工作中,我们首先提出了一个基于模型更新的联合平均算法,以防御拜占庭式攻击,例如加性噪声攻击和弹药攻击。提出了单个客户模型初始化方法,以通过隐藏各个本地机器学习模型来提供进一步的隐私保护。在结合这两个方案时,隐私和安全性都可以有效地增强。当没有攻击时,提出的方案被证明在非IID数据分布下实验会收敛。在拜占庭式攻击下,提议的方案的表现要比基于经典模型的FedAvg算法要好得多。
translated by 谷歌翻译
Federated learning (FL) enables the building of robust and generalizable AI models by leveraging diverse datasets from multiple collaborators without centralizing the data. We created NVIDIA FLARE as an open-source software development kit (SDK) to make it easier for data scientists to use FL in their research and real-world applications. The SDK includes solutions for state-of-the-art FL algorithms and federated machine learning approaches, which facilitate building workflows for distributed learning across enterprises and enable platform developers to create a secure, privacy-preserving offering for multiparty collaboration utilizing homomorphic encryption or differential privacy. The SDK is a lightweight, flexible, and scalable Python package, and allows researchers to bring their data science workflows implemented in any training libraries (PyTorch, TensorFlow, XGBoost, or even NumPy) and apply them in real-world FL settings. This paper introduces the key design principles of FLARE and illustrates some use cases (e.g., COVID analysis) with customizable FL workflows that implement different privacy-preserving algorithms. Code is available at https://github.com/NVIDIA/NVFlare.
translated by 谷歌翻译
在点击率(CTR)预测的联合学习(FL)中,用户的数据未共享以保护隐私。学习是通过在客户端设备上本地培训进行的,并仅将模型更改传达给服务器。有两个主要的挑战:(i)客户异质性,制作使用加权平均来汇总客户模型更新的FL算法的进步缓慢且学习结果不令人满意; (ii)由于每个实验所需的大量计算时间和资源,因此使用反复试验方法调整服务器学习率的困难。为了应对这些挑战,我们提出了一种简单的在线元学习方法,以学习汇总模型更新的策略,该方法根据客户属性适应客户的重要性并调整更新的步骤大小。我们在公共数据集上进行广泛的评估。我们的方法在收敛速度和最终学习结果的质量方面都大大优于最先进的方法。
translated by 谷歌翻译
With the development and progress of science and technology, the Internet of Things(IoT) has gradually entered people's lives, bringing great convenience to our lives and improving people's work efficiency. Specifically, the IoT can replace humans in jobs that they cannot perform. As a new type of IoT vehicle, the current status and trend of research on Unmanned Aerial Vehicle(UAV) is gratifying, and the development prospect is very promising. However, privacy and communication are still very serious issues in drone applications. This is because most drones still use centralized cloud-based data processing, which may lead to leakage of data collected by drones. At the same time, the large amount of data collected by drones may incur greater communication overhead when transferred to the cloud. Federated learning as a means of privacy protection can effectively solve the above two problems. However, federated learning when applied to UAV networks also needs to consider the heterogeneity of data, which is caused by regional differences in UAV regulation. In response, this paper proposes a new algorithm FedBA to optimize the global model and solves the data heterogeneity problem. In addition, we apply the algorithm to some real datasets, and the experimental results show that the algorithm outperforms other algorithms and improves the accuracy of the local model for UAVs.
translated by 谷歌翻译
联合学习(FL)作为边缘设备的有希望的技术,以协作学习共享预测模型,同时保持其训练数据,从而解耦了从需要存储云中的数据的机器学习的能力。然而,在规模和系统异质性方面,FL难以现实地实现。虽然有许多用于模拟FL算法的研究框架,但它们不支持在异构边缘设备上进行可扩展的流程。在本文中,我们呈现花 - 一种全面的FL框架,通过提供新的设施来执行大规模的FL实验并考虑丰富的异构流程来区分现有平台。我们的实验表明花卉可以仅使用一对高端GPU在客户尺寸下进行FL实验。然后,研究人员可以将实验无缝地迁移到真实设备中以检查设计空间的其他部分。我们认为花卉为社区提供了一个批判性的新工具,用于研究和发展。
translated by 谷歌翻译
随着对用户数据隐私的越来越关注,联合学习(FL)已被开发为在边缘设备上训练机器学习模型的独特培训范式,而无需访问敏感数据。传统的FL和现有方法直接在云服务器的同一型号和培训设备的所有边缘上采用聚合方法。尽管这些方法保护了数据隐私,但它们不能具有模型异质性,甚至忽略了异质的计算能力,也可以忽略陡峭的沟通成本。在本文中,我们目的是将资源感知的FL汇总为从边缘模型中提取的本地知识的集合,而不是汇总每个本地模型的权重,然后将其蒸馏成一个强大的全局知识,作为服务器模型通过知识蒸馏。通过深入的相互学习,将本地模型和全球知识提取到很小的知识网络中。这种知识提取使Edge客户端可以部署资源感知模型并执行多模型知识融合,同时保持沟通效率和模型异质性。经验结果表明,在异质数据和模型中的通信成本和概括性能方面,我们的方法比现有的FL算法有了显着改善。我们的方法将VGG-11的沟通成本降低了102美元$ \ times $和Resnet-32,当培训Resnet-20作为知识网络时,最多可达30美元$ \ times $。
translated by 谷歌翻译
Federated learning is a popular paradigm for machine learning. Ideally, federated learning works best when all clients share a similar data distribution. However, it is not always the case in the real world. Therefore, the topic of federated learning on heterogeneous data has gained more and more effort from both academia and industry. In this project, we first do extensive experiments to show how data skew and quantity skew will affect the performance of state-of-art federated learning algorithms. Then we propose a new algorithm FedMix which adjusts existing federated learning algorithms and we show its performance. We find that existing state-of-art algorithms such as FedProx and FedNova do not have a significant improvement in all testing cases. But by testing the existing and new algorithms, it seems that tweaking the client side is more effective than tweaking the server side.
translated by 谷歌翻译
随着对数据隐私和所有权的越来越关注,近年来见证了机器学习(ML)的范式转移。新兴的范式,联合学习(FL)引起了人们的关注,并已成为机器学习实现的新设计。 FL可以在中央服务器的协调下启用数据筒仓的ML模型培训,从而消除了开销,而无需共享原始数据。在本文中,我们对FL范式进行了综述,尤其是比较类型,网络结构和全局模型聚合方法。然后,我们对能源域中的FL应用进行了全面审查(请参阅本文的智能电网)。我们提供FL的主题分类,以解决各种与能源有关的问题,包括需求响应,识别,预测和联合优化。我们详细描述了分类法,并以讨论各个方面的讨论,包括其能源信息学应用程序中的挑战,机会和局限性,例如能源系统建模和设计,隐私和进化。
translated by 谷歌翻译
联合学习用于大量(数百万)边缘移动设备的机器学习模型的分散培训。它充满挑战,因为移动设备通常具有有限的通信带宽和本地计算资源。因此,提高联合学习的效率对于可扩展性和可用性至关重要。在本文中,我们建议利用部分训练的神经网络,该网络在整个训练过程中冻结了一部分模型参数,以降低对模型性能的影响几乎没有影响的通信成本。通过广泛的实验,我们经验证明,部分培训的神经网络(FEDPT)的联合学习可能导致卓越的通信准确性权衡,通信成本高达46美元,以小的准确度成本。我们的方法还实现了更快的培训,具有较小的内存占用空间,更好的效用,以便强​​大的差异隐私保证。对于推动设备上学习中的过度参数化的局限性,所提出的FEDPT方法可以特别有趣。
translated by 谷歌翻译
做出强大的预测是一个重要的挑战。联邦学习(FL)中的一个单独挑战是减少交流回合的数量,尤其是因为这样做会降低异质数据设置的性能。为了解决这两个问题,我们对学习全球模型的问题有贝叶斯的看法。我们展示了如何使用客户预测性后代近似全局预测后验。这与其他作品不同,该作品将局部模型空间后代汇总到全局模型空间后部,并且由于后部的高维多模式性质而易受高近似误差的影响。相比之下,我们的方法对预测后期进行了聚集,由于输出空间的低维度,通常更容易近似。我们基于此想法提出了一种算法,该算法在每个客户端对MCMC采样进行了进行估计,然后在一轮中汇总它们以获得全局合奏模型。通过对多个分类和回归任务的经验评估,我们表明,尽管使用了一轮通信,但该方法与其他FL技术具有竞争力,并且在异质环境上的表现优于它们。该代码可在https://github.com/hasanmohsin/fedpredspace_1 round上公开获得。
translated by 谷歌翻译
联邦学习(FL)试图在本地客户端分发模型培训,而无需在集中式数据中心收集数据,从而消除了数据私人关系问题。 FL的一个主要挑战是数据异质性(每个客户的数据分布可能会有所不同),因为它可能导致本地客户的权重差异并减慢全球融合。当前专为数据异质性设计的SOTA FL方法通常会施加正则化以限制非IID数据的影响,并且是状态算法,即它们随着时间的推移维持局部统计数据。尽管有效,但这些方法只能用于FL的特殊情况,仅涉及少数可靠的客户。对于fl的更典型应用,客户端数量很大(例如,边缘设备和移动应用程序),这些方法无法应用,激发了对任何可用于任何数量客户端使用的无状态方法的无状态方法的需求。我们得出了一阶梯度正则化,以惩罚由于本地数据异质性而导致的本地更新不一致。具体而言,为了减轻权重差异,我们将全局数据分布的一阶近似引入本地目标,该目标凭直觉地惩罚了与全局更新相反方向的更新。最终结果是一种无状态的FL算法,可实现1)在非IID数据分布下,比SOTA方法明显更快地收敛(即较少的通信回合)和2)总体融合性能更高。重要的是,我们的方法不会对客户大小施加不切实际的限制,从而可以从大多数FL应用程序中向大量客户学习。
translated by 谷歌翻译
联合学习(FL)已成为边缘设备的一种有前途的技术,可以协作学习共享的机器学习模型,同时将培训数据保留在设备上,从而消除了在云中存储和访问完整数据的需求。但是,考虑到公共边缘设备设置中的异质性,FL很难实施,测试和部署在实践中,从而使研究人员从根本上难以有效原型和测试其优化算法。在这项工作中,我们的目的是通过引入FL_PYTORCH:用Python编写的一套开源软件来减轻此问题,该软件以最受欢迎的研究深度学习(DL)框架Pytorch为基础。我们构建了FL_PYTORCH作为FL的研究模拟器,以实现快速开发,原型制作和实验新的和现有的FL优化算法。我们的系统支持摘要,为研究人员提供足够的灵活性,以实验现有和新颖的方法以推进最先进的方法。此外,FL_PYTORCH是一个易于使用的控制台系统,允许使用本地CPU或GPU同时运行多个客户端,甚至可以远程计算设备,而无需用户提供的任何分布式实现。 FL_PYTORCH还提供图形用户界面。对于新方法,研究人员仅提供其算法的集中实施。为了展示系统的可能性和实用性,我们尝试了几种著名的最先进的FL算法和一些最常见的FL数据集。
translated by 谷歌翻译
联合学习(FL)允许相互不信任的客户可以协作培训通用的机器学习模型,而无需共享其私人/专有培训数据。不幸的是,FL很容易受到恶意客户的中毒,他们旨在通过在FL培训过程中发送恶意模型更新来阻碍常见训练的模型的准确性。我们认为,对现有FL系统的中毒攻击成功的关键因素是客户可用的模型更新空间,使恶意客户可以通过解决优化问题来搜索最有毒的模型更新。为了解决这个问题,我们提出了联合排名学习(FRL)。 FRL将标准FL中的模型参数更新(浮点数连续空间)从模型参数更新(一个连续的空间)缩小到参数排名的空间(整数值的离散空间)。为了能够使用参数等级(而不是参数权重)训练全球模型,FRL利用了最近的SuperMasks培训机制的想法。具体而言,FRL客户端根据其本地培训数据对随机初始化的神经网络(由服务器提供)的参数进行排名。 FRL Server使用投票机制来汇总客户在每个培训时期提交的参数排名,以生成下一个培训时期的全球排名。从直觉上讲,我们基于投票的聚合机制阻止中毒客户对全球模型进行重大的对抗性修改,因为每个客户都会进行一次投票!我们通过分析证明和实验证明了FRL对中毒的鲁棒性。我们还显示了FRL的高沟通效率。我们的实验证明了FRL在现实世界中的优势。
translated by 谷歌翻译
In recent years the applications of machine learning models have increased rapidly, due to the large amount of available data and technological progress.While some domains like web analysis can benefit from this with only minor restrictions, other fields like in medicine with patient data are strongerregulated. In particular \emph{data privacy} plays an important role as recently highlighted by the trustworthy AI initiative of the EU or general privacy regulations in legislation. Another major challenge is, that the required training \emph{data is} often \emph{distributed} in terms of features or samples and unavailable for classicalbatch learning approaches. In 2016 Google came up with a framework, called \emph{Federated Learning} to solve both of these problems. We provide a brief overview on existing Methods and Applications in the field of vertical and horizontal \emph{Federated Learning}, as well as \emph{Fderated Transfer Learning}.
translated by 谷歌翻译