在许多实际应用(例如运动预测和3D感知)中,旋转模棱两可是理想的属性,它可以提供样本效率,更好的概括和对输入扰动的鲁棒性等好处。向量神经元(VN)是一个最近开发的框架,它通过将一维标量神经元扩展到三维“向量神经元”,提供一种简单而有效的方法来推导标准机器学习操作的旋转量表类似物。我们介绍了一种新颖的“ VN转换器”体系结构,以解决当前VN模型的几个缺点。我们的贡献是:$(i)$,我们得出了一种旋转等级的注意机制,这消除了原始矢量神经元模型所需的重型功能预处理的需求; $(ii)$我们扩展了VN框架以支持非空间属性,将这些模型的适用性扩展到现实世界数据集; $(iii)$,我们得出了一种旋转等级机制,用于多尺度减少点云的分辨率,从而大大加快了推理和训练; $(iv)$我们表明,可以使用小额折衷($ \ epsilon $ - approximate povrivariance)来获得对加速硬件的数值稳定性和培训鲁棒性的巨大改进,并且我们绑定了我们模型中对等效性侵犯的繁殖。最后,我们将VN转换器应用于3D形状分类和运动预测,并具有令人信服的结果。
translated by 谷歌翻译
Pre-trained language models, despite their rapid advancements powered by scale, still fall short of robust commonsense capabilities. And yet, scale appears to be the winning recipe; after all, the largest models seem to have acquired the largest amount of commonsense capabilities. Or is it? In this paper, we investigate the possibility of a seemingly impossible match: can smaller language models with dismal commonsense capabilities (i.e., GPT-2), ever win over models that are orders of magnitude larger and better (i.e., GPT-3), if the smaller models are powered with novel commonsense distillation algorithms? The key intellectual question we ask here is whether it is possible, if at all, to design a learning algorithm that does not benefit from scale, yet leads to a competitive level of commonsense acquisition. In this work, we study the generative models of commonsense knowledge, focusing on the task of generating generics, statements of commonsense facts about everyday concepts, e.g., birds can fly. We introduce a novel commonsense distillation framework, I2D2, that loosely follows the Symbolic Knowledge Distillation of West et al. but breaks the dependence on the extreme-scale models as the teacher model by two innovations: (1) the novel adaptation of NeuroLogic Decoding to enhance the generation quality of the weak, off-the-shelf language models, and (2) self-imitation learning to iteratively learn from the model's own enhanced commonsense acquisition capabilities. Empirical results suggest that scale is not the only way, as novel algorithms can be a promising alternative. Moreover, our study leads to a new corpus of generics, Gen-A-Tomic, that is of the largest and highest quality available to date.
translated by 谷歌翻译
Language models are widely deployed to provide automatic text completion services in user products. However, recent research has revealed that language models (especially large ones) bear considerable risk of memorizing private training data, which is then vulnerable to leakage and extraction by adversaries. In this study, we test the efficacy of a range of privacy-preserving techniques to mitigate unintended memorization of sensitive user text, while varying other factors such as model size and adversarial conditions. We test both "heuristic" mitigations (those without formal privacy guarantees) and Differentially Private training, which provides provable levels of privacy at the cost of some model performance. Our experiments show that (with the exception of L2 regularization), heuristic mitigations are largely ineffective in preventing memorization in our test suite, possibly because they make too strong of assumptions about the characteristics that define "sensitive" or "private" text. In contrast, Differential Privacy reliably prevents memorization in our experiments, despite its computational and model-performance costs.
translated by 谷歌翻译
我们制定并测试一种使用概括的多语言模型使用新兴通信(EC)的技术,以改进现代无监督的NMT系统,尤其是对于低资源语言。有人认为,目前在NLP上的主要范式仅在文本语料库上进行预处理,不会产生强大的自然语言理解系统,并且强调了对接地,面向目标和互动语言学习的需求。在我们的方法中,我们将现代的多语言模型(Mbart,Liu etal。2020)嵌入到EC图像引用游戏中,其中该模型被激励使用多语言世代来完成视力基础的任务,并假设有假设是这将使多种语言与共享的任务空间保持一致。我们提出了EC微调的两种变体(Steinert-Threlkeldet。Al。2022),其中一种在6/8翻译设置中优于基于反射的基线,并证明对尼泊尔和尼泊尔和尼泊尔和低资产的语言特别有益僧伽罗。
translated by 谷歌翻译
大型神经模型的培训和推断很昂贵。但是,对于许多应用程序域,虽然新任务和模型经常出现,但建模的基础文档主要保持不变。我们研究如何通过嵌入回收利用(ER)来降低此类设置的计算成本:在执行训练或推理时从以前的模型中重新使用激活。与以前的工作相反,重点是冻结小型分类头进行填充,这通常会导致绩效显着下降,我们提出了从预告片的模型中缓存中间层的输出,并为新任务的剩余层进行填充。我们表明,我们的方法在训练过程中提供了100%的速度和55-86%的推理,并且对科学领域中文本分类和实体识别任务的准确性产生了可观的影响。对于通用域的问答任务,ER提供了类似的加速和少量准确性。最后,我们确定了ER的几个开放挑战和未来的方向。
translated by 谷歌翻译
随着大型语言模型的出现,抽象性摘要的方法取得了长足的进步,从而在应用程序中使用了帮助知识工人处理笨拙的文档收集的潜力。一个这样的环境是民权诉讼交换所(CRLC)(https://clearinghouse.net),其中发布了有关大规模民权诉讼,服务律师,学者和公众的信息。如今,CRLC中的摘要需要对律师和法律专业的学生进行广泛的培训,这些律师和法律专业的学生花费数小时了解多个相关文件,以便产生重要事件和结果的高质量摘要。在这种持续的现实世界摘要工作的激励下,我们引入了Multi-iplesum,这是由正在进行的CRLC写作中绘制的9,280个专家作者的摘要集。鉴于源文档的长度,多文章介绍了一个具有挑战性的多文档摘要任务,通常每个情况超过200页。此外,多胎sum与其多个目标摘要中的其他数据集不同,每个数据集都处于不同的粒度(从一句“极端”摘要到超过五百个单词的多段落叙述)。我们提供了广泛的分析,表明,尽管培训数据(遵守严格的内容和样式准则)中的摘要很高,但最新的摘要模型在此任务上的表现较差。我们发布了多体式的摘要方法,以及促进应用程序的开发,以协助CRLC的任务https://multilexsum.github.io。
translated by 谷歌翻译
知识图(kg)链接预测是人工智能中的一项基本任务,在自然语言处理,信息检索和生物医学中的应用。最近,通过使用结合知识图嵌入(KGE)和上下文语言模型(LMS)的合奏,通过利用KGS中的跨模式信息来实现有希望的结果。但是,现有的合奏要么是(1)在排名准确性提高方面并不始终有效,要么(2)由于与深度语言模型的成对排名的组合爆炸问题,在较大数据集上效率不佳。在本文中,我们提出了一种新型的分层排名架构级联,以保持完全结合的排名准确性,同时大大提高效率。 Cascader使用LMS来重新启动更有效的基本毛金属的输出,依靠自适应子集选择方案,旨在最小化LMS,同时最大程度地利用KGE的精度增益。广泛的实验表明,Cascader在KGE基线上最多可提高9分,从而在四个基准上设定新的最先进的性能,同时在竞争性跨模式基线上提高效率一个或多个数量级。我们的经验分析表明,模型跨模式的多样性和保存单个模型的置信度信号有助于解释级联者的有效性,并提出了跨模式级联体系结构的有希望的方向。可以在https://github.com/tsafavi/cascader上获得代码和预估计的模型。
translated by 谷歌翻译
预测任务标签和为其预测生成自由文本阐述的自律化模型可以实现与NLP系统更直观的交互。然而,这些模型目前正在接受大量人为的自由文本解释,每个任务都会阻碍更广泛的使用。我们建议使用少数培训例子研究更现实的自律化建立。我们出示2月 - 一个标准化的四个现有英语数据集和相关指标。我们通过2月份广泛探索自然语言提示来确定正确的提示方法。然后,通过使用此提示并缩放模型大小,我们证明了几次拍摄自合合理化的进展。我们展示了这项任务的完善房间仍然有充足的改进空间:人类注册人评估的生成解释的平均合理性最多为51%,而人类解释的合理性是76%。我们希望2月份与我们的拟议方法一起促使社区承担几次拍摄的自我合理化挑战。
translated by 谷歌翻译
从PDFS中准确提取结构化内容是NLP在科学论文中的关键第一步。最近的工作通过纳入基本布局信息,例如在页面上的每个令牌的2D位置,进入语言模型预先润廓来提高提取精度。我们介绍了明确地模拟视觉布局(VILA)组,即文本行或文本块的新方法,以进一步提高性能。在我们的I-VILA方法中,我们表明,只需将特殊令牌插入模型输入的布局组边界即可导致令牌分类的1.9%的宏F1改进。在H-VILA方法中,我们表明布局组的分层编码可能导致宏F1损耗小于0.8%的高达47%的推理时间。与先前的布局感知方法不同,我们的方法不需要昂贵的额外预制,只有微调,我们显示的速度可以降低培训成本高达95%。实验在新策划的评估套件S2-Vlue上进行,该S2-VLUE统一现有的自动标记的数据集,包括从19个科学学科的不同论文的手动注释的新数据集。预先训练的权重,基准数据集和源代码可在https://github.com/allenai/vila获得。
translated by 谷歌翻译
确定多个文档的概念提及的练习是自然语言理解中的基本任务。以前关于跨文档Coreference解析(CDCR)的工作通常会考虑新闻中的事件提到,这很少涉及普遍存在的科学和技术的技术概念。这些复杂的概念采用不同的形式或含糊不清的形式,并且具有许多分层级别的粒度(例如,任务和子组织),构成了CDCR的挑战。我们呈现了分层CDCR(H-CDCR)的新任务,其目标是在它们之间联合推断COREREFER集群和层次结构。我们在科学论文中创建SciCo,一个专家注释的H-CDCR数据集,比突出的欧洲ecb +资源大3倍。我们研究了我们为H-CDCR定制的强大基线模型,并突出了未来工作的挑战。
translated by 谷歌翻译