With increasing privacy concerns on data, recent studies have made significant progress using federated learning (FL) on privacy-sensitive natural language processing (NLP) tasks. Much literature suggests fully fine-tuning pre-trained language models (PLMs) in the FL paradigm can mitigate the data heterogeneity problem and close the performance gap with centralized training. However, large PLMs bring the curse of prohibitive communication overhead and local model adaptation costs for the FL system. To this end, we introduce various parameter-efficient tuning (PETuning) methods into federated learning. Specifically, we provide a holistic empirical study of representative PLMs tuning methods in FL. The experimental results cover the analysis of data heterogeneity levels, data scales, and different FL scenarios. Overall communication overhead can be significantly reduced by locally tuning and globally aggregating lightweight model parameters while maintaining acceptable performance in various FL settings. To facilitate the research of PETuning in FL, we also develop a federated tuning framework FedPETuning, which allows practitioners to exploit different PETuning methods under the FL training paradigm conveniently. The source code is available at \url{https://github.com/iezhuozhuo/FedETuning/tree/deltaTuning}.
translated by 谷歌翻译
Code completion is a valuable topic in both academia and industry. Recently, large-scale mono-programming-lingual (MonoPL) pre-training models have been proposed to boost the performance of code completion. However, the code completion on low-resource programming languages (PL) is difficult for the data-driven paradigm, while there are plenty of developers using low-resource PLs. On the other hand, there are few studies exploring the effects of multi-programming-lingual (MultiPL) pre-training for the code completion, especially the impact on low-resource programming languages. To this end, we propose the MultiCoder to enhance the low-resource code completion via MultiPL pre-training and MultiPL Mixture-of-Experts (MoE) layers. We further propose a novel PL-level MoE routing strategy (PL-MoE) for improving the code completion on all PLs. Experimental results on CodeXGLUE and MultiCC demonstrate that 1) the proposed MultiCoder significantly outperforms the MonoPL baselines on low-resource programming languages, and 2) the PL-MoE module further boosts the performance on six programming languages. In addition, we analyze the effects of the proposed method in details and explore the effectiveness of our method in a variety of scenarios.
translated by 谷歌翻译
图形神经网络(GNN)由于从图形结构数据中学习表示能力而引起了很多关注。尽管GNN在许多域中成功地应用了,但GNN的优化程度较低,并且在节点分类的性能很大程度上受到了长尾节点学位分布的影响。本文着重于通过归一化提高GNN的性能。详细说明,通过研究图中的节点度的长尾巴分布,我们提出了一种新颖的GNN归一化方法,该方法称为RESNORM(\ textbf {res}将长尾巴分布纳入正常分布,通过\ textbf {norm} alization)。 RESNOR的$比例$操作重塑节点标准偏差(NSTD)分布,以提高尾部节点的准确性(\ textit {i}。\ textit {e}。,低度节点)。我们提供了理论解释和经验证据,以理解上述$ scale $的机制。除了长期的分销问题外,过度光滑也是困扰社区的基本问题。为此,我们分析了标准偏移的行为,并证明了标准移位是重量矩阵上的预处理,从而增加了过度平滑的风险。考虑到过度光滑的问题,我们为Resnorm设计了一个$ Shift $操作,以低成本的方式模拟了特定于学位的参数策略。广泛的实验验证了重新分类对几个节点分类基准数据集的有效性。
translated by 谷歌翻译
很少有射击学习(FSL)需要视觉模型来快速适应任务分布的变化的全新分类任务。了解此任务分配转移带来的困难是FSL的核心。在本文中,我们表明,从频道的角度来看,简单的频道特征转换可能是揭开此秘密的关键。当在测试时间数据集中面对新颖的少量任务时,这种转换可以极大地提高学习图像表示的概括能力,同时对培训算法和数据集的选择不可知。通过对这种转变的深入分析,我们发现FSL中表示的难度源于图像表示的严重通道偏置问题:渠道在不同任务中的重要性可能不同,而卷积神经网络可能不敏感,可能是不敏感的,可能是不敏感的,或对这种转变做出错误的反应。这指出了现代视觉系统和未来需要进一步关注的概括能力的核心问题。
translated by 谷歌翻译
紧张的卷积神经网络(TCNN)吸引了他们在减少模型参数或增强概括能力方面的力量方面引起了很多研究的关注。然而,即使体重初始化方法,TCNN的探索也受到阻碍。要具体,一般的初始化方法,例如Xavier或Kaiming初始化,通常无法为TCNN产生适当的权重。同时,尽管针对特定架构(例如张量环网)采用了临时方法,但它们不适用于具有其他张量分解方法(例如CP或Tucker分解)的TCNN。为了解决这个问题,我们提出了一个普遍的权重初始化范式,该范式概括了Xavier和Kaiming方法,并且可以广泛适用于任意TCNN。具体而言,我们首先介绍重现转换,以将TCNN中的向后过程转换为等效卷积过程。然后,基于向前和后退过程中的卷积运算符,我们构建了一个统一的范式,以控制TCNN中特征和梯度的方差。因此,我们可以为各种TCNN得出粉丝和风扇的初始化。我们证明我们的范式可以稳定TCNN的训练,从而导致更快的收敛性和更好的结果。
translated by 谷歌翻译
恶意攻击者和诚实但有趣的服务器可以从联合学习中上传的梯度中窃取私人客户数据。尽管当前的保护方法(例如,添加剂同构密码系统)可以保证联合学习系统的安全性,但它们带来了额外的计算和通信成本。为了减轻成本,我们提出了\ texttt {fedage}框架,该框架使服务器能够在编码域中汇总梯度,而无需访问任何单个客户端的原始梯度。因此,\ texttt {fedage}可以防止好奇的服务器逐渐窃取,同时保持相同的预测性能而没有额外的通信成本。此外,从理论上讲,我们证明所提出的编码编码框架是具有差异隐私的高斯机制。最后,我们在几个联合设置下评估\ texttt {fedage},结果证明了提出的框架的功效。
translated by 谷歌翻译
少量分类旨在通过一些培训样本来调整小型课程的分类器。然而,训练数据的不足可能导致某个类中的特征分布偏差估计。为了缓解这个问题,我们通过探索新颖和基类之间的类别相关性,作为先前知识来展示一个简单而有效的功能整流方法。我们通过将特征映射到潜在的向量中明确地捕获这种相关性,其中匹配基类的数量的维度,将其视为在基类上的特征的对数概率。基于该潜伏向量,整流特征由解码器直接构建,我们预计在去除其他随机因素的同时保持与类别相关的信息,因此更接近其类心。此外,通过改变SoftMax中的温度值,我们可以重新平衡特征整流和重建以获得更好的性能。我们的方法是通用的,灵活的,不可知的任何特征提取器和分类器,容易嵌入到现有的FSL方法中。实验验证了我们的方法能够整流偏置功能,尤其是当特征远离班级质心时。拟议的方法一直在三种广泛使用的基准上获得相当大的性能收益,用不同的骨干和分类器评估。该代码将公开。
translated by 谷歌翻译
最近,深层回归森林(如深)差异模型(DDMS),最近已经广泛研究了面部年龄估计,头部姿势估计,凝视估计等问题。这些问题部分是挑战,因为没有噪声和偏差的大量有效培训数据通常不可用。虽然通过学习更具歧视特征或重新重量样本来实现的一些进展,但我们认为更可取的是逐渐学习以歧视人类。然后,我们诉诸自行节奏的学习(SPL)。但是,出现了自然问题:可以自花奏的政权引导DDMS实现更强大,偏差的解决方案吗? SPL的严重问题是通过这项工作首先讨论的,是倾向于加剧解决方案的偏差,特别是对于明显的不平衡数据。为此,本文提出了一种新的自定位范例,用于深鉴别模型,这根据与每个示例相关的产出似然和熵区分噪声和不足的例子,并从新的视角下解决SECT中的基本排名问题:公平性。此范例是根本的,可以轻松地与各种DDMS结合。在三个计算机视觉任务中进行了广泛的实验,例如面部年龄估计,头部姿态估计和凝视估计,证明了我们的范式的功效。据我们所知,我们的作品是SPL的文献中的第一篇论文,以为自我节奏政权建设的排名公平。
translated by 谷歌翻译
现实世界数据通常存在长尾分布。对不平衡数据的培训倾向于呈现神经网络在头部上表现良好,而尾部课程则更加差。尾班的培训实例的严重稀疏性是主要挑战,这导致培训期间的偏见分配估计。丰富的努力已经致力于改善挑战,包括数据重新采样和综合尾班的新培训实例。然而,没有先前的研究已经利用了从头课程转移到尾班的可转让知识,以校准尾舱的分布。在本文中,我们假设可以通过类似的头部级别来丰富尾部类,并提出一种名为标签感知分布校准Ladc的新型分布校准方法。 Ladc从相关的头部课程转移统计数据以推断尾部课程的分布。从校准分布的采样进一步促进重新平衡分类器。图像和文本的实验和文本长尾数据集表明,LADC显着优于现有方法。可视化还显示LADC提供更准确的分布估计。
translated by 谷歌翻译
最近的研究表明,先进的前锋在深度生成模型中发挥着重要作用。作为基于示例的基于示例的VAE的变体,示例性VAE已经实现了令人印象深刻的结果。然而,由于模型设计的性质,基于示例的模型通常需要大量的数据来参与训练,这导致巨大的计算复杂性。为了解决这个问题,我们提出了贝叶斯伪移动的样份vae(bype-vae),一种基于Bayesian伪动脉的先前vae的新变种。该提出的先后在小规模的伪电阻上而不是整个数据集进行调节,以降低计算成本并避免过度拟合。同时,在VAE训练期间,通过随机优化算法获得最佳伪验证,旨在最大限度地基于伪移动的基于伪组件的Kullback-Leibler发散,并且基于整个数据集。实验结果表明,Bype-VAE可以在密度估计,代表学习和生成数据增强的任务中实现最先进的VAES对最先进的VAES的竞争改进。特别是,在基本的VAE架构上,Bype-VAE比示例性VAE快3倍,同时几乎保持性能。代码可用于\ url {https:/github.com/aiqz/bype-vae}。
translated by 谷歌翻译