深度神经网络可以捕获查询和文档之间的复杂交互历史信息,因为它们的许多复杂的非线性单元,使它们能够提供正确的搜索建议。但是,在现实情况下,服务提供商经常面临更复杂的障碍,例如部署成本限制和公平要求。已经提出了将训练有素的复杂模型(教师)转移到简单模型(学生)的知识的知识蒸馏,以减轻前者的关注,但最佳当前蒸馏方法仅着重于如何使学生模型模仿教师模型的预测。为了更好地促进深层模型的应用,我们建议基于知识蒸馏的公平信息检索框架。该框架可以改善模型的基于暴露的公平性,同时大大降低模型大小。我们在三个巨大数据集上进行的广泛实验表明,我们提出的框架可以将模型尺寸降低到其原始尺寸的最小1%,同时保持其黑盒状态。它还将公平性能提高15%〜46%,同时保持高水平的建议效率。
translated by 谷歌翻译
虽然传统的排名系统仅关注最大化排名项目的效用,但公平感知的排名系统另外尝试平衡不同保护属性(如性别或种族)的曝光。为了实现这种类型的排名,我们基于分布鲁棒性的第一个原则推导出新的排名系统。我们在选择分布的球员之间制定最小的游戏,以最大限度地提高实用程序,同时满足公平的限制,针对对攻击性匹配统计训练数据的统计数据来最小化实用性。我们表明,我们的方法提供比现有基线方法高度公平的排名更好的效用。
translated by 谷歌翻译
在线学习排名(OL2R)近年来吸引了巨大的研究兴趣,因为它在避免在离线监督排名模型学习中避免昂贵的相关标签来吸引昂贵的相关标签。这样的解决方案探讨了未知数(例如,故意呈现顶部位置的选定结果)以改善其相关性估计。然而,这触发了对其排名公平的担忧:不同的物品组可能在OL2R过程中接受差异治疗。但是现有的公平排名解决方案通常需要事先需要了解结果相关性或表演的排名,这与OL2R的设置相矛盾,因此不能直接应用于保证公平性。在这项工作中,我们提出了一般的框架,以实现由奥尔200R小组暴露定义的公平性。关键的想法是为了校准公平控制,相关学习和在线排名质量的探索和开发。特别是,当模型正在探索一组相关性反馈的结果时,我们将探索限制在随机排列的子集中,其中维护跨组的公平性,而反馈仍然不偏见。理论上,我们证明了这种策略在OL2R遗憾地介绍了最小的扭曲,以获得公平性。在两个公共学习中进行了广泛的实证分析,以对基准数据集进行排名,以展示所提出的解决方案的有效性与现有的公平OL2R解决方案相比。
translated by 谷歌翻译
学习 - 排名问题旨在排名,以最大限度地曝光与用户查询相关的那些。这种排名系统的理想特性是保证指定项目组之间的一些公平概念。虽然最近在学习排名系统的背景下审议了公平性,但目前的方法无法提供拟议的排名政策的公平性的担保。本文解决了这一差距,并介绍了智能预测,并优化了公平排名(SPOFR),综合优化和学习框架,以便进行公平受限学习。端到端的SPOFR框架包括受约束的优化子模型,并产生保证的排名策略,以满足公平限制,同时允许对公平实用权概况进行精细控制。SPOFR显示出在既定的性能指标方面显着提高当前最先进的公平学习系统。
translated by 谷歌翻译
在学习到等级的问题中,特权功能是在模型培训期间可用的功能,但在测试时不可用。这种特征自然出现在商品推荐系统中;例如,“用户单击此项目”作为功能可预测离线数据中的“用户购买此项目”,但在线服务期间显然不可用。特权功能的另一个来源是那些太昂贵而无法在线计算但可行的功能。特权功能蒸馏(PFD)是指自然想法:使用所有功能(包括特权的)训练“老师”模型,然后使用它来训练不使用特权功能的“学生”模型。在本文中,我们首先在经验上研究了三个公共排名数据集和从亚马逊日志中得出的工业规模排名问题。我们表明,PFD在所有这些数据集上都超过了几个基线(无缩写,预处理,自我验证和广义蒸馏)。接下来,我们通过经验消融研究和线性模型的理论分析来分析PFD的原因和何时表现良好。两项研究都发现了一个有趣的非主持酮行为:随着特权特征的预测能力增加,最初的学生模型的性能最初会增加,但随后降低。我们表明了后来的表现降低的原因是,一个非常预测的特权教师会产生较高的差异的预测,从而导致较高的差异学生估计和劣等测试表现。
translated by 谷歌翻译
知识蒸馏是将知识从强大的教师转移到有效的学生模型的有效方法。理想情况下,我们希望老师越好,学生越好。但是,这种期望并不总是成真。通常,由于教师和学生之间的不可忽略的差距,更好的教师模型通过蒸馏导致不良学生。为了弥合差距,我们提出了一种渐进式蒸馏方法,以进行致密检索。产品由教师渐进式蒸馏和数据进行渐进的蒸馏组成,以逐步改善学生。我们对五个广泛使用的基准,MARCO通道,TREC Passage 19,TREC文档19,MARCO文档和自然问题进行了广泛的实验,其中POD在蒸馏方法中实现了密集检索的最新方法。代码和模型将发布。
translated by 谷歌翻译
排名已成为双面在线市场的主要界面。许多人指出,排名不仅影响用户的满意度(例如,客户,听众,雇主,旅行者),而且排名中的位置将曝光率分配给排名项目(例如,例如文章,产品,歌曲,求职者,餐馆,酒店)。这已经提出了对项目的公平性问题,大多数现有作品通过将项目的暴露与项目相关性明确链接在一起,从而解决了公平性。但是,我们认为,这种链接功能的任何特定选择都可能很难捍卫,我们表明结果排名仍然不公平。为了避免这些缺点,我们开发了一种植根于公平分裂原则的新的公理方法。这不仅避免了选择链接功能的需求,而且更有意义地量化了对曝光范围之外的项目的影响。我们对统一排名的嫉妒性和主导地位的公理假设,对于公平排名政策,每个项目都应该比其他任何项目的排名分配,并且任何项目都不应受到排名的不利影响。为了计算按照这些公理的公平政策,我们提出了一个与纳什社会福利有关的新排名目标。我们表明,该解决方案已保证其嫉妒性,其对每个项目的统一排名的主导地位以及帕累托的最优性。相比之下,我们表明,基于暴露的公平性可以产生大量嫉妒,并对这些物品产生高度不同的影响。除了这些理论上的结果外,我们还从经验上说明了我们的框架如何控制基于影响的个人项目公平和用户实用程序之间的权衡。
translated by 谷歌翻译
最初引入了知识蒸馏,以利用来自单一教师模型的额外监督为学生模型培训。为了提高学生表现,最近的一些变体试图利用多个教师利用不同的知识来源。然而,现有研究主要通过对多种教师预测的平均或将它们与其他无标签策略相结合,将知识集成在多种来源中,可能在可能存在低质量的教师预测存在中误导学生。为了解决这个问题,我们提出了信心感知的多教师知识蒸馏(CA-MKD),该知识蒸馏(CA-MKD)在地面真理标签的帮助下,适用于每个教师预测的样本明智的可靠性,与那些接近单热的教师预测标签分配了大量的重量。此外,CA-MKD包含中间层,以进一步提高学生表现。广泛的实验表明,我们的CA-MKD始终如一地优于各种教师学生架构的所有最先进的方法。
translated by 谷歌翻译
With the growth of high-dimensional sparse data in web-scale recommender systems, the computational cost to learn high-order feature interaction in CTR prediction task largely increases, which limits the use of high-order interaction models in real industrial applications. Some recent knowledge distillation based methods transfer knowledge from complex teacher models to shallow student models for accelerating the online model inference. However, they suffer from the degradation of model accuracy in knowledge distillation process. It is challenging to balance the efficiency and effectiveness of the shallow student models. To address this problem, we propose a Directed Acyclic Graph Factorization Machine (KD-DAGFM) to learn the high-order feature interactions from existing complex interaction models for CTR prediction via Knowledge Distillation. The proposed lightweight student model DAGFM can learn arbitrary explicit feature interactions from teacher networks, which achieves approximately lossless performance and is proved by a dynamic programming algorithm. Besides, an improved general model KD-DAGFM+ is shown to be effective in distilling both explicit and implicit feature interactions from any complex teacher model. Extensive experiments are conducted on four real-world datasets, including a large-scale industrial dataset from WeChat platform with billions of feature dimensions. KD-DAGFM achieves the best performance with less than 21.5% FLOPs of the state-of-the-art method on both online and offline experiments, showing the superiority of DAGFM to deal with the industrial scale data in CTR prediction task. Our implementation code is available at: https://github.com/RUCAIBox/DAGFM.
translated by 谷歌翻译
Knowledge distillation is often used to transfer knowledge from a strong teacher model to a relatively weak student model. Traditional knowledge distillation methods include response-based methods and feature-based methods. Response-based methods are used the most widely but suffer from lower upper limit of model performance, while feature-based methods have constraints on the vocabularies and tokenizers. In this paper, we propose a tokenizer-free method liberal feature-based distillation (LEAD). LEAD aligns the distribution between teacher model and student model, which is effective, extendable, portable and has no requirements on vocabularies, tokenizer, or model architecture. Extensive experiments show the effectiveness of LEAD on several widely-used benchmarks, including MS MARCO Passage, TREC Passage 19, TREC Passage 20, MS MARCO Document, TREC Document 19 and TREC Document 20.
translated by 谷歌翻译
尽管配备的远景和语言预处理(VLP)在过去两年中取得了显着的进展,但它遭受了重大缺点:VLP型号不断增加的尺寸限制了其部署到现实世界的搜索场景(高潜伏期是不可接受的)。为了减轻此问题,我们提出了一种新颖的插件动态对比度蒸馏(DCD)框架,以压缩ITR任务的大型VLP模型。从技术上讲,我们面临以下两个挑战:1)由于GPU内存有限,在处理交叉模式融合功能期间优化了太多的负样本,因此很难直接应用于跨模式任务,因此很难直接应用于跨模式任务。 。 2)从不同的硬样品中静态优化学生网络的效率效率低下,这些样本对蒸馏学习和学生网络优化具有不同的影响。我们试图从两点克服这些挑战。首先,为了实现多模式对比度学习并平衡培训成本和效果,我们建议使用教师网络估算学生的困难样本,使学生吸收了预培训的老师的强大知识,并掌握知识来自硬样品。其次,要从硬样品对学习动态,我们提出动态蒸馏以动态学习不同困难的样本,从更好地平衡知识和学生的自学能力的困难的角度。我们成功地将我们提出的DCD策略应用于两个最先进的视觉语言预处理模型,即vilt和仪表。关于MS-Coco和FlickR30K基准测试的广泛实验显示了我们DCD框架的有效性和效率。令人鼓舞的是,与现有的ITR型号相比,我们可以至少加快推断至少129美元的$ \ times $。
translated by 谷歌翻译
深度推荐系统共同利用检索和排名操作来产生建议结果。猎犬的目标是从整个项目中选择一小部分相关候选人,并具有高效率;尽管通常更精确但耗时的排名者应该以高精度识别检索到的候选人中的最佳项目。但是,猎犬和排名通常以较差的方式接受培训,从而在整体工作时会导致建议表现有限。在这项工作中,我们提出了一个新颖的DRS培训框架Corr(合作猎犬和Ranker的缩写),可以在其中相互加强猎犬和Ranker。一方面,从推荐数据和通过知识蒸馏的排名中学到了猎犬​​。知道排名更精确,知识蒸馏可能会为改善检索质量提供额外的弱点信号。另一方面,通过学习将真相的积极项目与从猎犬采样的硬性负面候选人中区分出来,对排名者进行了训练。随着迭代的进行,排名可能会变得更加精确,作为回报,这引起了猎犬的信息培训信号。同时,随着猎犬的改善,可以采样较难的负候选者,这有助于排名更高的判别能力。为了促进CORR的有效行为,引入了KL差异的渐近均匀近似,以便对采样项目进行知识蒸馏。此外,开发了一种可扩展和自适应策略,以有效地从猎犬那里进行采样。全面的实验研究是在四个大规模基准数据集中进行的,其中CORR改善了由于猎犬和Ranker之间的合作而产生的总体建议质量。
translated by 谷歌翻译
推荐系统通常会从各种用户行为中学习用户兴趣,包括点击和点击后行为(例如,喜欢和喜欢)。但是,这些行为不可避免地表现出受欢迎程度的偏见,从而导致一些不公平的问题:1)对于具有相似质量,更受欢迎的物品的物品会获得更多的曝光; 2)更糟糕的是,受欢迎程度较低的流行物品可能会获得更多的曝光率。现有关于缓解流行偏见的工作会盲目消除偏见,通常忽略项目质量的影响。我们认为,不同用户行为(例如,转换率)之间的关系实际上反映了项目质量。因此,为了处理不公平的问题,我们建议通过考虑多种用户行为来减轻流行性偏见。在这项工作中,我们研究了多行为推荐中相互作用生成过程背后的因果关系。具体来说,我们发现:1)项目受欢迎程度是暴露的项目和用户的点击交互之间的混杂因素,导致第一个不公平; 2)一些隐藏的混杂因素(例如,项目生产者的声誉)影响了项目的流行和质量,导致第二次不公平。为了减轻这些混杂问题,我们提出了一个因果框架来估计因果效应,该因果效应利用后门调整以阻止混杂因素引起的后门路径。在推论阶段,我们消除了受欢迎程度的负面影响,并利用质量的良好效果进行推荐。在两个现实世界数据集上的实验验证了我们提出的框架的有效性,这在不牺牲建议准确性的情况下增强了公平性。
translated by 谷歌翻译
历史互动是推荐模型培训的默认选择,通常表现出高稀疏性,即大多数用户项目对都是未观察到的缺失数据。标准选择是将缺失的数据视为负训练样本,并估计用户项目对之间的相互作用以及观察到的相互作用。通过这种方式,在训练过程中不可避免地会误标记一些潜在的互动,这将损害模型的保真度,阻碍模型回忆起错误标签的项目,尤其是长尾尾。在这项工作中,我们从新的不确定性的新角度研究了标签的问题,该问题描述了缺失数据的固有随机性。随机性促使我们超越了相互作用的可能性,并接受了不确定性建模。为此,我们提出了一个新的不确定性不确定性建议(AUR)框架,该框架由新的不确定性估计器以及正常的推荐模型组成。根据核心不确定性理论,我们得出了一个新的建议目标来学习估计量。由于错误标签的机会反映了一对的潜力,因此AUR根据不确定性提出了建议,该建议被证明是为了改善较不受欢迎的项目的建议性能而不会牺牲整体性能。我们在三个代表性推荐模型上实例化AUR:来自主流模型体系结构的矩阵分解(MF),LightGCN和VAE。两个现实世界数据集的广泛结果验证了AUR W.R.T.的有效性。更好的建议结果,尤其是在长尾项目上。
translated by 谷歌翻译
One of the most efficient methods for model compression is hint distillation, where the student model is injected with information (hints) from several different layers of the teacher model. Although the selection of hint points can drastically alter the compression performance, conventional distillation approaches overlook this fact and use the same hint points as in the early studies. Therefore, we propose a clustering based hint selection methodology, where the layers of teacher model are clustered with respect to several metrics and the cluster centers are used as the hint points. Our method is applicable for any student network, once it is applied on a chosen teacher network. The proposed approach is validated in CIFAR-100 and ImageNet datasets, using various teacher-student pairs and numerous hint distillation methods. Our results show that hint points selected by our algorithm results in superior compression performance compared to state-of-the-art knowledge distillation algorithms on the same student models and datasets.
translated by 谷歌翻译
机器学习中的知识蒸馏是将知识从名为教师的大型模型转移到一个名为“学生”的较小模型的过程。知识蒸馏是将大型网络(教师)压缩到较小网络(学生)的技术之一,该网络可以部署在手机等小型设备中。当教师和学生之间的网络规模差距增加时,学生网络的表现就会下降。为了解决这个问题,在教师模型和名为助教模型的学生模型之间采用了中间模型,这反过来弥补了教师与学生之间的差距。在这项研究中,我们已经表明,使用多个助教模型,可以进一步改进学生模型(较小的模型)。我们使用加权集合学习将这些多个助教模型组合在一起,我们使用了差异评估优化算法来生成权重值。
translated by 谷歌翻译
Graph Neural Networks (GNNs) have shown satisfying performance on various graph learning tasks. To achieve better fitting capability, most GNNs are with a large number of parameters, which makes these GNNs computationally expensive. Therefore, it is difficult to deploy them onto edge devices with scarce computational resources, e.g., mobile phones and wearable smart devices. Knowledge Distillation (KD) is a common solution to compress GNNs, where a light-weighted model (i.e., the student model) is encouraged to mimic the behavior of a computationally expensive GNN (i.e., the teacher GNN model). Nevertheless, most existing GNN-based KD methods lack fairness consideration. As a consequence, the student model usually inherits and even exaggerates the bias from the teacher GNN. To handle such a problem, we take initial steps towards fair knowledge distillation for GNNs. Specifically, we first formulate a novel problem of fair knowledge distillation for GNN-based teacher-student frameworks. Then we propose a principled framework named RELIANT to mitigate the bias exhibited by the student model. Notably, the design of RELIANT is decoupled from any specific teacher and student model structures, and thus can be easily adapted to various GNN-based KD frameworks. We perform extensive experiments on multiple real-world datasets, which corroborates that RELIANT achieves less biased GNN knowledge distillation while maintaining high prediction utility.
translated by 谷歌翻译
In recent years, several metrics have been developed for evaluating group fairness of rankings. Given that these metrics were developed with different application contexts and ranking algorithms in mind, it is not straightforward which metric to choose for a given scenario. In this paper, we perform a comprehensive comparative analysis of existing group fairness metrics developed in the context of fair ranking. By virtue of their diverse application contexts, we argue that such a comparative analysis is not straightforward. Hence, we take an axiomatic approach whereby we design a set of thirteen properties for group fairness metrics that consider different ranking settings. A metric can then be selected depending on whether it satisfies all or a subset of these properties. We apply these properties on eleven existing group fairness metrics, and through both empirical and theoretical results we demonstrate that most of these metrics only satisfy a small subset of the proposed properties. These findings highlight limitations of existing metrics, and provide insights into how to evaluate and interpret different fairness metrics in practical deployment. The proposed properties can also assist practitioners in selecting appropriate metrics for evaluating fairness in a specific application.
translated by 谷歌翻译
Large transformer models can highly improve Answer Sentence Selection (AS2) tasks, but their high computational costs prevent their use in many real-world applications. In this paper, we explore the following research question: How can we make the AS2 models more accurate without significantly increasing their model complexity? To address the question, we propose a Multiple Heads Student architecture (named CERBERUS), an efficient neural network designed to distill an ensemble of large transformers into a single smaller model. CERBERUS consists of two components: a stack of transformer layers that is used to encode inputs, and a set of ranking heads; unlike traditional distillation technique, each of them is trained by distilling a different large transformer architecture in a way that preserves the diversity of the ensemble members. The resulting model captures the knowledge of heterogeneous transformer models by using just a few extra parameters. We show the effectiveness of CERBERUS on three English datasets for AS2; our proposed approach outperforms all single-model distillations we consider, rivaling the state-of-the-art large AS2 models that have 2.7x more parameters and run 2.5x slower. Code for our model is available at https://github.com/amazon-research/wqa-cerberus
translated by 谷歌翻译
基于蒸馏的压缩网络的性能受蒸馏质量的管辖。大型网络(教师)到较小网络(学生)的次优蒸馏的原因主要归因于给定教师与学生对的学习能力中的差距。虽然很难蒸馏所有教师的知识,但可以在很大程度上控制蒸馏质量以实现更好的性能。我们的实验表明,蒸馏品质主要受教师响应的质量来限制,这反过来又受到其反应中存在相似信息的影响。训练有素的大容量老师在学习细粒度辨别性质的过程中丢失了类别之间的相似性信息。没有相似性信息导致蒸馏过程从一个例子 - 许多阶级学习减少到一个示例 - 一类学习,从而限制了教师的不同知识的流程。由于隐式假设只能蒸馏出灌输所知,而不是仅关注知识蒸馏过程,我们仔细审查了知识序列过程。我们认为,对于给定的教师 - 学生对,通过在训练老师的同时找到批量大小和时代数量之间的甜蜜点,可以提高蒸馏品。我们讨论了找到这种甜蜜点以便更好地蒸馏的步骤。我们还提出了蒸馏假设,以区分知识蒸馏和正则化效果之间的蒸馏过程的行为。我们在三个不同的数据集中进行我们的所有实验。
translated by 谷歌翻译