The increasing privacy concerns on personal private text data promote the development of federated learning (FL) in recent years. However, the existing studies on applying FL in NLP are not suitable to coordinate participants with heterogeneous or private learning objectives. In this study, we further broaden the application scope of FL in NLP by proposing an Assign-Then-Contrast (denoted as ATC) framework, which enables clients with heterogeneous NLP tasks to construct an FL course and learn useful knowledge from each other. Specifically, the clients are suggested to first perform local training with the unified tasks assigned by the server rather than using their own learning objectives, which is called the Assign training stage. After that, in the Contrast training stage, clients train with different local learning objectives and exchange knowledge with other clients who contribute consistent and useful model updates. We conduct extensive experiments on six widely-used datasets covering both Natural Language Understanding (NLU) and Natural Language Generation (NLG) tasks, and the proposed ATC framework achieves significant improvements compared with various baseline methods. The source code is available at \url{https://github.com/alibaba/FederatedScope/tree/master/federatedscope/nlp/hetero_tasks}.
translated by 谷歌翻译
为了开发有效的顺序推荐人,提出了一系列序列表示学习(SRL)方法来模拟历史用户行为。大多数现有的SRL方法都依赖于开发序列模型以更好地捕获用户偏好的明确项目ID。尽管在某种程度上有效,但由于通过明确建模项目ID的限制,这些方法很难转移到新的建议方案。为了解决这个问题,我们提出了一种新颖的通用序列表示方法,名为UNISREC。提出的方法利用项目的文本在不同的建议方案中学习可转移表示形式。为了学习通用项目表示形式,我们设计了一个基于参数美白和Experts的混合物增强的适配器的轻巧项目编码体系结构。为了学习通用序列表示,我们通过抽样多域负面因素介绍了两个对比的预训练任务。借助预训练的通用序列表示模型,我们的方法可以在电感或跨传导设置下以参数有效的方式有效地传输到新的推荐域或平台。在现实世界数据集上进行的广泛实验证明了该方法的有效性。尤其是,我们的方法还导致跨平台环境中的性能提高,显示了所提出的通用SRL方法的强可传递性。代码和预培训模型可在以下网址获得:https://github.com/rucaibox/unisrec。
translated by 谷歌翻译
高参数优化(HPO)对于机器学习算法以实现令人满意的性能至关重要,其进度已被相关基准增强。尽管如此,现有的努力在基准基准的方面都专注于HPO,同时忽略了联合学习(FL),这是从分散数据中进行协作学习模型的有希望的范式。在本文中,我们首先从各个方面确定了FL算法的HPO唯一性。由于这种唯一性,现有的HPO基准不再满足比较FL设置中HPO方法的需求。为了促进HPO在FL环境中的研究,我们提出并实施了一个基准套件FedHPO-B,该基准套件融合了全面的FL任务,实现了有效的功能评估,并简化了持续的扩展。我们还基于FEDHPO-B进行了广泛的实验,以基准一些HPO方法。我们在https://github.com/alibaba/federatedscope/tree/master/master/master/benchmark/fedhpob上开放Source Fedhpo-b。
translated by 谷歌翻译
使用和部署不同本地模型的个性化联合学习(PFL),由于其在处理佛罗里达州客户的统计异质性方面的成功,近年来引起了人们的关注。但是,对不同PFL方法的标准化评估和系统分析仍然是一个挑战。首先,高度多样化的数据集,FL仿真设置和PFL实现可以防止对PFL方法的快速和公平比较。其次,在各种实践场景中,PFL方法的有效性和鲁棒性不足,例如新客户的概括和资源有限的客户参与。最后,当前的PFL文献在采用的评估和消融方案中有所不同。为了应对这些挑战,我们提出了第一个全面的PFL基准PFL基准,以促进快速,可重现,标准化和彻底的PFL评估。所提出的基准测试包含具有统一数据分区和现实异质设置的不同应用程序域中的10多个数据集;一个模块化且易于扩展的PFL代码库,具有20多个竞争性PFL基线实现;以及在集装环境下进行的系统评估,以概括,公平,系统开销和收敛性。我们强调了最先进的PFL方法的好处和潜力,并希望PFL板台实现了进一步的PFL研究和广泛的应用,否则由于缺乏专用的基准,这将是困难的。该代码在https://github.com/alibaba/federatedscope/tree/master/master/benchmark/pfl-bench上发布。
translated by 谷歌翻译
为了调查现实世界中联邦学习的异质性,我们将经典的联合学习概括为联合的异性任务学习,这强调了参与者在数据分布和学习任务方面的联盟学习中的不一致性。我们还提出了B-FHTL,这是一种联合的杂项任务学习基准,该基准包括模拟数据集,FL协议和统一的评估机制。 B-FHTL数据集包含三个精心设计的联合学习任务,异质性增加。每个任务都使用不同的非IID数据和学习任务模拟客户端。为了确保不同的FL算法之间的公平比较,B-FHTL通过提供高级API来避免隐私泄漏,在整个FL协议中构建,并预设跨越不同的学习任务的最常见评估指标,例如回归,分类,文本,文本,文本此外,我们还比较了B-FHTL中联合多任务学习,联合个性化和联合元学习领域的FL算法,并突出了联盟异质任务学习的异质性和困难的影响。我们的基准测试,包括联合数据集,协议,评估机制和初步实验,可在https://github.com/alibaba/federatedscope/tree/master/master/master/benchmark/b-fhtl上开放。
translated by 谷歌翻译
联合学习(FL)的令人难以置信的发展使计算机视觉和自然语言处理领域的各种任务受益,而现有的TFF和FATE等现有框架使在现实应用程序中的部署变得容易。但是,即使图形数据很普遍,联合图形学习(FGL)由于其独特的特征和要求而没有得到很好的支持。缺乏与FGL相关的框架增加了完成可再现研究和在现实世界应用中部署的努力。在本文中,我们首先讨论了创建易于使用的FGL软件包的挑战,因此提出了我们实施的FederatedScope-GNN(FS-G)的包裹,该软件包提供了(1)统一的模块化视图并表达FGL算法; (2)用于开箱即用的FGL功能的综合数据和模型; (3)有效的模型自动调整组件; (4)现成的隐私攻击和防御能力。我们通过进行广泛的实验来验证FS-G的有效性,该实验同时获得了许多有关FGL的宝贵见解。此外,我们采用FS-G在现实世界中的电子商务方案中为FGL应用程序提供服务,在该场景中获得的改进表明了巨大的潜在业务利益。我们在https://github.com/alibaba/federatedscope上公开发布FS-G,作为FederatedScope的子模型,以促进FGL的研究,并启用由于缺乏专用包装而无法无视的广泛应用。
translated by 谷歌翻译
尽管现有联合学习平台(FL)平台已取得了显着的进展,以提供开发基础架构,但这些平台可能无法很好地应对各种异质性带来的挑战,包括参与者本地数据,资源,行为和学习目标中的异质性。为了填补这一空白,在本文中,我们提出了一个名为FederatedScope的新型FL平台,该平台采用事件驱动的架构为用户提供极大的灵活性,以独立描述不同参与者的行为。这样的设计使用户可以轻松地描述参与者具有各种本地培训过程,学习目标和后端,并通过同步或异步培训策略将其协调为FL课程。 FederatedScope为易于使用和灵活的平台提供了丰富类型的插入操作和组件,以有效地进行进一步开发,并且我们实施了几个重要组件,以更好地帮助用户进行隐私保护,攻击模拟和自动调整。我们已经在https://github.com/alibaba/federatedscope上发布了FederatedScope,以在各种情况下促进联邦学习的学术研究和工业部署。
translated by 谷歌翻译
我们为AI驱动数据库提供了一个SYSML框架。使用Baihe,可能会改装现有的关系数据库系统以使用学习组件进行查询优化或其他常见任务,例如例如,学习索引结构。为确保Baihe的实用性和现实世界适用性,其高级架构基于以下要求:与核心系统的分离,最小的第三方依赖,鲁棒性,稳定性和容错,以及稳定性和可配置性。基于高级架构,我们将描述Baihe的具体实现PostgreSQL,并为学习查询优化器提供了实例使用情况。为了服务于从业者,以及DB和AI4DB社区的研究人员将在开源许可下发布PostgreSQL的Baihe。
translated by 谷歌翻译
最近,电子商务平台上的产品问题应答(PQA)引起了越来越幅度的关注,因为它可以作为智能的在线购物助理和改善客户购物体验。它的关键功能,自动回答的产品相关问题的生成,通过旨在在与问题相关的答案时产生内容保存。然而,现有方法忽略了PQA,即个性化的重要特征。提供相同的“完全总结”回答所有客户的回答不足,因为许多客户更愿意通过考虑自己的偏好对产品方面或信息需求的偏好来看待具有定制信息的个性化答案。为了解决这一挑战,我们提出了一种新颖的个性化答复生成方法(页面),具有多视角偏好建模,探讨了历史用户生成的内容,以模拟用户偏好,以在PQA中生成个性化答案。具体而言,我们首先将问题相关的用户历史作为外部知识作为模拟知识级用户偏好。然后我们利用高斯SoftMax分布模型来捕获潜在的方面级别用户偏好。最后,我们通过利用个人用户偏好和动态用户词汇表,开发一个角色感知指针网络以在内容和样式方面生成个性化答案。实验结果对现实世界电子商务QA数据集表明,所提出的方法通过生成信息和定制答案来表明现有方法,并显示电子商务中的答案可以从个性化中受益。
translated by 谷歌翻译
基数估计(Cardest)是查询优化器的中央组件,在生成DBMS中的高质量查询计划方面发挥着重要作用。使用传统和ML增强的方法,在过去几十年中,在过去几十年中已经广泛研究了Cardest问题。虽然,Cardest中最困难的问题,即如何在多个表上估算连接查询大小,尚未得到广泛解决。目前的方法要么回复独立假设,要么用沉重的负担应用技术,其性能仍然远非令人满意。更糟糕的是,现有的卡最多的卡片通常旨在优化一个目标,即推理速度或估计准确性,这不能适应不同的场合。在本文中,我们提出了一个非常一般的框架,称为胶水,以解决这些挑战。其关键的想法是在不同表格中优雅地解耦并无损合并单个表卡最大的结果,以估计加入查询大小。胶水支持使用任何现有的Cardest方法获取单个表格明智的Cardest结果,可以处理任何复杂的连接模式。因此,它很容易适应具有不同性能要求的不同场景,即,OLTP具有快速估计时间或OLAP,具有高估计精度。同时,我们显示胶水可以无缝集成到计划搜索过程中,并能够支持计算不同数量的值。所有这些属性都表现出在现实世界DBMS中部署胶水的潜在进步。
translated by 谷歌翻译