我们提出了Metricbert,这是一个基于BERT的模型,该模型学会了以明确的相似性度量嵌入文本,同时遵守``传统''蒙面语言任务。我们专注于学习相似之处的下游任务,以表明公制表现优于最先进的替代方案,有时要大幅度。我们对我们的方法及其不同的变体进行了广泛的评估,这表明我们的训练目标对传统的对比损失,标准余弦相似性目标和其他六个基线非常有益。作为另一个贡献,我们发布了视频游戏描述的数据集,以及由域专家制作的一系列相似性注释。
translated by 谷歌翻译
最近,人们对基于变压器的模型产生有意义的文本嵌入的能力越来越兴趣,例如文本相似性。尽管该领域取得了重大进展,但相似性预测的解释仍然具有挑战性,尤其是在无监督的环境中。在这项工作中,我们提出了一种无监督的技术,用于解释预先训练的BERT模型推断出的段落相似性。通过查看一对段落,我们的技术确定了决定每个段落的语义的重要单词,在这两个段落中的单词之间匹配,并检索解释两者之间相似性的最重要对。该方法已通过广泛的人类评估进行了评估,并在包含长期复杂段落的数据集中证明了这一方法,已显示出巨大的希望,提供了与人类看法更好相关的准确解释。
translated by 谷歌翻译
产品匹配是全球对电子商务消费者行为的理解的基本步骤。实际上,产品匹配是指确定来自不同数据源(例如零售商)是否提供两个产品的任务。标准管道使用以前的阶段,称为阻止,其中给定产品提供了一组潜在的匹配候选者,以相似的特征(例如相同的品牌,类别,风味等)检索。从这些类似的候选产品中,那些不匹配的产品可以被视为艰难的负面因素。我们提出了Block-SCL,该策略使用阻止输出来充分利用监督的对比度学习(SCL)。具体而言,块-SCL使用在阻塞阶段获得的硬性样本来构建丰富的批处理。这些批次提供了一个强大的训练信号,导致该模型了解产品匹配的更有意义的句子嵌入。几个公共数据集中的实验结果表明,尽管仅将短产品标题作为输入,没有数据增强和更轻的变压器主链比竞争方法,但Block-SCL仍取得了最新的结果。
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译
我们从第一批原则提供了一个理论分析,该原则在预训练和微调性能的关系归纳偏差之间建立了新的联系,同时提供了一般预训练模型的延长视图。我们进一步探讨了现有的预训练方法如何强加相关的归纳偏差,发现绝大多数现有方法几乎专注于以帧内方式建模的关系,而不是每种样本方式。我们建立了这些调查结果,这些发现与跨越3个数据模式和10个下游任务的标准基准测试。这些调查验证了我们的理论分析,并提供了一种方法,以产生新的预训练方法,该方法与现有的方法符合用户指定的关系图。
translated by 谷歌翻译
Distance Metric Learning (DML) has attracted much attention in image processing in recent years. This paper analyzes its impact on supervised fine-tuning language models for Natural Language Processing (NLP) classification tasks under few-shot learning settings. We investigated several DML loss functions in training RoBERTa language models on known SentEval Transfer Tasks datasets. We also analyzed the possibility of using proxy-based DML losses during model inference. Our systematic experiments have shown that under few-shot learning settings, particularly proxy-based DML losses can positively affect the fine-tuning and inference of a supervised language model. Models tuned with a combination of CCE (categorical cross-entropy loss) and ProxyAnchor Loss have, on average, the best performance and outperform models with only CCE by about 3.27 percentage points -- up to 10.38 percentage points depending on the training dataset.
translated by 谷歌翻译
最近,在自动开放域对话框评估中应用预先接受训练的语言模型(PR-LM),有兴趣的兴趣。PR-LMS提供了满足多域评估挑战的有希望的方向。然而,不同PR-LMS对自动度量的性能的影响是不太理解的。本文审查了8种不同的PRM,并研究了三种不同对话评估基准的三种典型自动对话对话指标的影响。具体而言,我们分析PR-LMS的选择如何影响自动度量的性能。执行对每个度量的广泛相关分析以评估不同PR-LMS沿各种轴的影响,包括预训练目标,对话对话标准,模型规模和跨数据集鲁棒性。本研究有助于第一次全面评估不同PR-LMS对自动对话评估的影响。
translated by 谷歌翻译
本地引文建议的目标是推荐从本地引文上下文中缺少的参考,也可以从全球背景下选择。为了在大规模纸质数据库的背景下平衡引文建议的速度和准确性之间的权衡,一种可行的方法是使用有效的排名方法来预先取代有限数量的相关文件,然后使用更多复杂的模型。在那种静脉中,BM25已被发现是一种艰难的预取方法,这就是为什么最近的工作主要集中在重新登记的步骤中。即便如此,我们探讨了由分层注意网络构造的文本嵌入的最近邻南搜索的预取。当耦合与速度regered在本地引文推荐任务上进行微调时,我们的分层关注编码器(Hatten)实现了高预备回忆,以便重新登记给定数量的候选候选者。因此,我们的Reranker需要重新命名更少的预取候选者,但仍然在各种本地引文推荐数据集上实现最先进的性能,例如ACL-200,FullTextPeerread,Refse和Arxiv。
translated by 谷歌翻译
Video-and-language pre-training has shown promising results for learning generalizable representations. Most existing approaches usually model video and text in an implicit manner, without considering explicit structural representations of the multi-modal content. We denote such form of representations as structural knowledge, which express rich semantics of multiple granularities. There are related works that propose object-aware approaches to inject similar knowledge as inputs. However, the existing methods usually fail to effectively utilize such knowledge as regularizations to shape a superior cross-modal representation space. To this end, we propose a Cross-modaL knOwledge-enhanced Pre-training (CLOP) method with Knowledge Regularizations. There are two key designs of ours: 1) a simple yet effective Structural Knowledge Prediction (SKP) task to pull together the latent representations of similar videos; and 2) a novel Knowledge-guided sampling approach for Contrastive Learning (KCL) to push apart cross-modal hard negative samples. We evaluate our method on four text-video retrieval tasks and one multi-choice QA task. The experiments show clear improvements, outperforming prior works by a substantial margin. Besides, we provide ablations and insights of how our methods affect the latent representation space, demonstrating the value of incorporating knowledge regularizations into video-and-language pre-training.
translated by 谷歌翻译
完成知识三胞胎的任务具有广泛的下游应用程序。结构和语义信息在知识图完成中起着重要作用。与以前依靠知识图的结构或语义的方法不同,我们建议将语义共同嵌入知识三胞胎的自然语言描述及其结构信息。我们的方法通过对概率结构化损失进行微调预训练的语言模型来嵌入完成任务的知识图,其中语言模型的正向通过捕获语义和损失重建结构。我们对各种知识图基准的广泛实验证明了我们方法的最新性能。我们还表明,由于语义的更好使用,我们的方法可以显着提高低资源制度的性能。代码和数据集可在https://github.com/pkusjh/lass上找到。
translated by 谷歌翻译
分布式文档表示是自然语言处理中的基本问题之一。目前分布式文档表示方法主要考虑单词或句子的上下文信息。这些方法不考虑文件作为整体的一致性,例如文档之间的关系,文档中的纸张标题和抽象,标题和描述或相邻机构之间的关系。一致性显示文档是否有意义,逻辑和句法,尤其是科学文档(论文或专利等)。在本文中,我们提出了一个耦合文本对嵌入(CTPE)模型来学习科学文档的表示,其通过分割文档来维护文档与耦合文本对的相干性。首先,我们将文档划分为构造耦合文本对的两个部分(例如,标题和抽象等)。然后,我们采用负面采样来构建两个部分来自不同文档的未耦合文本对。最后,我们训练模型以判断文本对是否被耦合或解耦并使用所获得的耦合文本对的嵌入作为嵌入文档。我们在三个数据集上执行实验,以获得一个信息检索任务和两个推荐任务。实验结果验证了所提出的CTPE模型的有效性。
translated by 谷歌翻译
在NLP中,句子的语义表示学习是一个重要且研究的问题。该任务的当前趋势涉及通过与文本的对比目标进行培训基于变压器的句子编码器,即具有语义上相似的含义并散布他人的聚类句子。在这项工作中,我们发现,通过使用另一种模式(例如,句子和不相关的图像/音频数据),使用多模式多任务损失的训练,可以通过多模式多任务损失进行训练来改进变压器模型的性能。特别是,除了通过文本的对比损失学习外,我们的模型簇还来自非语言域(例如,视觉/音频),同时具有相似的对比度损失。我们框架对未配对的非语言数据的依赖使IT语言不可思议,从而使其在英语NLP之外广泛适用。在7个语义文本相似性基准上进行的实验表明,经过其他非语言(图像/音频)对比目标训练的模型可导致更高质量的句子嵌入。这表明变压器模型能够通过执行类似的任务(即聚类),并以多任务方式的不同模式的示例来更好地概括。
translated by 谷歌翻译
临床试验对于药物开发至关重要,但非常昂贵且耗时。在设计临床试验时,研究类似的历史试验是有益的。但是,冗长的试用文件和缺乏标记的数据使试验相似性搜索变得困难。我们提出了一种零拍的临床试验检索方法试验2VEC,该方法通过自学知识学习而无需注释类似的临床试验。具体而言,试验文件的元结构(例如,标题,资格标准,目标疾病)以及临床知识(例如,UMLS知识库https://www.nlm.nih.gov/research/umls/inmls/index.html)被杠杆化以自动生成对比样品。此外,Trial2VEC编码考虑元结构的试验文件,从而产生紧凑的嵌入,从而从整个文档中汇总了多相关信息。我们表明,我们的方法通过可视化产生了可解释的医学解释的嵌入,并且在试验检索的精确/召回率上的最佳基线比最佳基线得到15%的改善,这是在我们标记的1600个试验对中评估的。此外,我们证明预先训练的嵌入在240K试验中受益于下游试验结果预测任务。
translated by 谷歌翻译
变量名称对于传达预期的程序行为至关重要。基于机器学习的程序分析方法使用变量名称表示广泛的任务,例如建议新的变量名称和错误检测。理想情况下,这些方法可以捕获句法相似性的名称之间的语义关系,例如,名称平均和均值的事实是相似的。不幸的是,以前的工作发现,即使是先前的最佳的表示方法主要是捕获相关性(是否有两个变量始终链接),而不是相似性(是否具有相同的含义)。我们提出了VarCLR,一种用于学习变量名称的语义表示的新方法,这些方法有效地捕获了这种更严格的意义上的可变相似性。我们观察到这个问题是对比学习的优秀契合,旨在最小化明确类似的输入之间的距离,同时最大化不同输入之间的距离。这需要标记的培训数据,因此我们构建了一种新颖的弱监督的变量重命名数据集,从GitHub编辑开采。我们表明VarCLR能够有效地应用BERT等复杂的通用语言模型,以变为变量名称表示,因此也是与变量名称相似性搜索或拼写校正等相关的下游任务。 varclr产生模型,显着越优于idbench的最先进的现有基准,明确地捕获可变相似度(与相关性不同)。最后,我们贡献了所有数据,代码和预先训练模型的版本,旨在为现有或未来程序分析中使用的可变表示提供的可变表示的替代品。
translated by 谷歌翻译
我们在这项研究中的目标是研究一个更现实的环境,在这种环境中,我们可以为细粒度的产品类别进行弱监督的多模式实例级产品检索。我们首先贡献了product1m数据集,并定义了两个实际实例级检索任务,以实现价格比较和个性化建议的评估。对于两个实例级任务,如何准确地指出视觉语言数据中提到的产品目标并有效地降低了无关紧要的内容的影响非常具有挑战性。为了解决这个问题,我们利用训练一个更有效的跨模式与模型,该模型能够自适应地能够通过使用一个实体图,其节点和边缘分别表示实体和相似性,从而可以从多模式数据中合并来自多模式数据的关键概念信息。实体。具体而言,为实例级别的商品检索提出了一种新型的实体图增强的跨模式预处理(EGE-CMP)模型,该模型明确地将基于节点的基于节点的基于节点和子图的方式显式地注入实体知识。自我监管的混合流变压器可以减少不同对象内容之间的混淆,从而有效地指导网络专注于具有真实语义的实体。实验结果很好地验证了我们的EGE-CMP的功效和概括性,表现优于几个SOTA跨模式基线,例如夹子,Uniter和Capture。
translated by 谷歌翻译
近年来,在应用预训练的语言模型(例如Bert)上,取得了巨大进展,以获取信息检索(IR)任务。在网页中通常使用的超链接已被利用用于设计预训练目标。例如,超链接的锚文本已用于模拟查询,从而构建了巨大的查询文档对以进行预训练。但是,作为跨越两个网页的桥梁,尚未完全探索超链接的潜力。在这项工作中,我们专注于建模通过超链接连接的两个文档之间的关系,并为临时检索设计一个新的预训练目标。具体而言,我们将文档之间的关系分为四组:无链接,单向链接,对称链接和最相关的对称链接。通过比较从相邻组采样的两个文档,该模型可以逐渐提高其捕获匹配信号的能力。我们提出了一个渐进的超链接预测({php})框架,以探索预训练中超链接的利用。对两个大规模临时检索数据集和六个提问数据集的实验结果证明了其优于现有的预训练方法。
translated by 谷歌翻译
The booming development and huge market of micro-videos bring new e-commerce channels for merchants. Currently, more micro-video publishers prefer to embed relevant ads into their micro-videos, which not only provides them with business income but helps the audiences to discover their interesting products. However, due to the micro-video recording by unprofessional equipment, involving various topics and including multiple modalities, it is challenging to locate the products related to micro-videos efficiently, appropriately, and accurately. We formulate the microvideo-product retrieval task, which is the first attempt to explore the retrieval between the multi-modal and multi-modal instances. A novel approach named Multi-Queue Momentum Contrast (MQMC) network is proposed for bidirectional retrieval, consisting of the uni-modal feature and multi-modal instance representation learning. Moreover, a discriminative selection strategy with a multi-queue is used to distinguish the importance of different negatives based on their categories. We collect two large-scale microvideo-product datasets (MVS and MVS-large) for evaluation and manually construct the hierarchical category ontology, which covers sundry products in daily life. Extensive experiments show that MQMC outperforms the state-of-the-art baselines. Our replication package (including code, dataset, etc.) is publicly available at https://github.com/duyali2000/MQMC.
translated by 谷歌翻译
极端多标签文本分类(XMC)问题问题是从大型标签集查找输入文本实例的大多数相关标签。但是,XMC设置面临两个挑战:(1)不允许在动态环境中预测看不见的标签,(2)它需要大量监督(实例,标签)对,这可能难以获得新兴域名。最近,已经研究了广义零拍XMC(GZ-XMC)设置,并相应地提出了Zestxml以处理未经调整的标签,这仍需要大量注释(实例,标签)对。在本文中,我们考虑了一个更实际的场景,称为极端零拍摄XMC(EZ-XMC),其中不需要监督,并且只能访问实例的原始文本和标签。少量XMC(FS-XMC),还调查了具有有限监督的EZ-XMC的扩展。要学习实例的语义嵌入和标签与原始文本,我们建议预先列车基于变压器的编码器,具有自我监督的对比损失。具体而言,我们开发了一种预训练方法MACLR,它彻底利用了使用多尺度自适应聚类,标签正则化和具有伪正对的自我训练的技术的原始文本。四个公共EZ-XMC数据集的实验结果表明,与所有其他领先的基线方法相比,MaclR达到了卓越的性能,特别是平均精度和召回的预测约为5-10%。此外,我们还表明,当在训练中存在有限数量的地面真相阳性对时,我们的预训练编码器可以进一步提高FS-XMC。通过在这样的几滴子集中进行微调,Maclr仍然显着优于其他极端分类器。
translated by 谷歌翻译
最近的趋势表明,一般的模型,例如BERT,GPT-3,剪辑,在规模上广泛的数据训练,已经显示出具有单一学习架构的各种功能。在这项工作中,我们通过在大尺度上培训通用用户编码器来探讨通用用户表示学习的可能性。我们展示了扩展法在用户建模区域中持有,其中训练错误将作为幂律规模的幂级,具有计算量。我们的对比学习用户编码器(CLUE),优​​化任务 - 不可知目标,并且所产生的用户嵌入式延伸我们对各种下游任务中的可能做些什么。 Clue还向其他域和系统展示了巨大的可转移性,因为在线实验上的性能显示在线点击率(CTR)的显着改进。此外,我们还调查了如何根据扩展因子,即模型容量,序列长度和批量尺寸来改变性能如何变化。最后,我们讨论了线索的更广泛影响。
translated by 谷歌翻译
作为人类已知的最直观的界面之一,自然语言有可能调解许多涉及人类计算机互动的任务,尤其是在音乐信息检索等以应用程序为中心的领域。在这项工作中,我们探索了跨模式学习,以试图在音乐领域弥合音频和语言。为此,我们提出了Muscall,这是音乐对比的音频学习框架。我们的方法由双重编码架构组成,该体系结构了解音乐音频和描述性句子对之间的对齐方式,生成可用于文本到原告和音频到文本检索的多模式嵌入。多亏了这个属性,肌肉几乎可以转移到任何可以作为基于文本检索的任务转移到任何任务。我们的实验表明,我们的方法在检索音频时的性能要比基线要好得多,该音频与文本描述匹配,相反,与音频查询匹配的文本。我们还证明,我们的模型的多模式对齐能力可以成功扩展到零摄像转移方案,用于流派分类和在两个公共数据集上自动标记。
translated by 谷歌翻译