本文档提供了SNACS的详细语言描述(Adposition和Case Supersenses的语义网络; Schneider等,2018),这是52个语义标签(“ Supersenses”)的库存,这些标签(“ Supersenses”)表征了在某种程度上使用ADIP定位和案例标记的使用。粒度水平,如Streusle语料库中所示(https://github.com/nert-nlp/streusle/;版本4.5 track track track offelines guidelines guidelines版本2.6)。尽管SNACS的库存渴望成为普遍的,但该文档是特定于英语的。其他语言的文档将单独发布。版本2是Schneider等人对英语提出的超音库存的修订。 (2015,2016)(此后为“ V1”),这又基于以前的计划。本清单是在对英语的V1语料库注释进行广泛审查后开发的,以及以前未分析的属格案例所有人(Blodgett和Schneider,2018年),并考虑了希伯来语,印地语,韩国和德国的定义和案例现象的考虑。 Hwang等。 (2017)介绍了V2方案的理论基础。 Schneider等。 (2018)总结了该方案,其应用于英语语料库数据以及自动歧义任务。刘等。 (2021)提供了一个英语词法语义识别标签仪,其中包括SNACS标签的输出。该文档也可以与Xposition网站上的语料库数据一起浏览(Gessler等,2022):http://www.xposition.org/
translated by 谷歌翻译
虽然高度多语言普遍依赖性(UD)项目为Clausal结构提供了广泛的指导方针以及规范名义短语内的结构,但缺乏缺乏打破模具的“恶作剧”标称现象的标准治疗。因此,即使用广泛的UD TreeBanking工作,如英语,也可以找到众多不一致的语言内部和跨越语言。本文调查英语UD Corpora证明的淘气名义表达式,并提出了主要用英语的解决方案,但这可能会为各种UD语言提供解决方案的路径。
translated by 谷歌翻译
我们最近开始一个项目,为来自背景知识的后推推,以促进深入自然语言理解的制定更有效和有效的方式。单词的含义被认为是它增加了持续情况的实体,预测,预设和潜在推论。随着单词组成,情况下的最小模型演变为限制和直接推理。此时我们开发了我们的计算架构并在真实文本上实现了它。我们的重点是证明了我们设计的可行性。
translated by 谷歌翻译
Recent work pre-training Transformers with self-supervised objectives on large text corpora has shown great success when fine-tuned on downstream NLP tasks including text summarization. However, pre-training objectives tailored for abstractive text summarization have not been explored. Furthermore there is a lack of systematic evaluation across diverse domains. In this work, we propose pre-training large Transformer-based encoder-decoder models on massive text corpora with a new selfsupervised objective. In PEGASUS, important sentences are removed/masked from an input document and are generated together as one output sequence from the remaining sentences, similar to an extractive summary. We evaluated our best PEGASUS model on 12 downstream summarization tasks spanning news, science, stories, instructions, emails, patents, and legislative bills. Experiments demonstrate it achieves state-of-the-art performance on all 12 downstream datasets measured by ROUGE scores. Our model also shows surprising performance on low-resource summarization, surpassing previous state-of-the-art results on 6 datasets with only 1000 examples. Finally we validated our results using human evaluation and show that our model summaries achieve human performance on multiple datasets.
translated by 谷歌翻译
在AI研究中,到目前为止,尽管这一方面在智能系统的功能中突出特征,但对功能和负担的表征和代表的表征和代表的关注一直是零星和稀疏的。迄今为止,零星和稀疏的稀疏努力是对功能和负担的表征和理解,也没有一般框架可以统一与功能概念的表示和应用有关的所有不同使用域和情况。本文开发了这样的一般框架,一种方法强调了一个事实,即所涉及的表示必须是明确的认知和概念性的,它们还必须包含有关涉及的事件和过程的因果特征,并采用了概念上的结构,这些概念结构是扎根的为了达到最大的通用性,他们所指的指南。描述了基本的一般框架,以及一组有关功能表示的基本指南原则。为了正确,充分地表征和表示功能,需要一种描述性表示语言。该语言是定义和开发的,并描述了其使用的许多示例。一般框架是基于一般语言含义表示代表框架的概念依赖性的扩展而开发的。为了支持功能的一般表征和表示,基本的概念依赖框架通过称为结构锚和概念依赖性阐述的代表性设备以及一组地面概念的定义来增强。这些新颖的代表性构建体得到了定义,开发和描述。处理功能的一般框架将代表实现人工智能的重大步骤。
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
There has been a recent resurgence in the area of explainable artificial intelligence as researchers and practitioners seek to make their algorithms more understandable. Much of this research is focused on explicitly explaining decisions or actions to a human observer, and it should not be controversial to say that looking at how humans explain to each other can serve as a useful starting point for explanation in artificial intelligence. However, it is fair to say that most work in explainable artificial intelligence uses only the researchers' intuition of what constitutes a 'good' explanation. There exists vast and valuable bodies of research in philosophy, psychology, and cognitive science of how people define, generate, select, evaluate, and present explanations, which argues that people employ certain cognitive biases and social expectations towards the explanation process. This paper argues that the field of explainable artificial intelligence should build on this existing research, and reviews relevant papers from philosophy, cognitive psychology/science, and social psychology, which study these topics. It draws out some important findings, and discusses ways that these can be infused with work on explainable artificial intelligence.
translated by 谷歌翻译
最近围绕语言处理模型的复杂性的最新炒作使人们对机器获得了类似人类自然语言的指挥的乐观情绪。人工智能中自然语言理解的领域声称在这一领域取得了长足的进步,但是,在这方面和其他学科中使用“理解”的概念性清晰,使我们很难辨别我们实际上有多近的距离。目前的方法和剩余挑战的全面,跨学科的概述尚待进行。除了语言知识之外,这还需要考虑我们特定于物种的能力,以对,记忆,标签和传达我们(足够相似的)体现和位置经验。此外,测量实际约束需要严格分析当前模型的技术能力,以及对理论可能性和局限性的更深入的哲学反思。在本文中,我将所有这些观点(哲学,认知语言和技术)团结在一起,以揭开达到真实(人类般的)语言理解所涉及的挑战。通过解开当前方法固有的理论假设,我希望说明我们距离实现这一目标的实际程度,如果确实是目标。
translated by 谷歌翻译
We propose the Detailed Outline Control (DOC) framework for improving long-range plot coherence when automatically generating several-thousand-word-long stories. DOC consists of two complementary components: a detailed outliner and a detailed controller. The detailed outliner creates a more detailed, hierarchically structured outline, shifting creative burden from the main drafting procedure to the planning stage. The detailed controller ensures the more detailed outline is still respected during generation by controlling story passages to align with outline details. In human evaluations of automatically generated stories, DOC substantially outperforms a strong Re3 baseline (Yang et al., 2022) on plot coherence (22.5% absolute gain), outline relevance (28.2%), and interestingness (20.7%). Humans also judged DOC to be much more controllable in an interactive generation setting.
translated by 谷歌翻译
目前的自动COSTERED解析的工作集中在Ontonotes基准数据集上,由于其大小和一致性。然而,NLP从业者的Onototes注释方案的许多方面并不能够很好地理解,包括治疗通用NPS,Noun修饰剂,无限期的视性,预测等。这些通常会导致违反直觉的索赔,结果和系统行为。这个意见案件旨在突出努力的努力的一些问题,并提出依赖三个原则的前进方式:1。专注于语义,不是Morphosyntax;2.交叉语言概括性;3.分离身份和范围,可以解决涉及时间和模态域一致性的旧问题。
translated by 谷歌翻译
在Mapuche语法由Smeets进行了介绍,介绍了Mapud \“Un诺的主要变形学方面,解释了它们的触发和所产生的上下文。我们提出了一种计算方法,其产生能够进行分类和分类的有限状态形态分析仪(和发电机)的计算方法适当地标记以Mapuche Word形式交互的所有组件(根和后缀)。本文的大部分侧重于呈现有关Mapud \“Un诺动词的形态及其使用FOMA的形式化的详细信息。本文还存在系统评估过程及其结果。
translated by 谷歌翻译
现代神经语言模型广泛用于任务中的任务,跨越培训数据记忆敏感信息。由于模型继续扩大参数,培训数据和计算,从学习理论的角度来看,培训数据和计算中的记忆既重要性也很重要,并且在现实世界应用中实际上至关重要。在语言模型中记忆的研究中的一个开放问题是如何过滤掉“常见的”记忆。事实上,大多数记忆标准与培训集的出现数量强烈关联,捕获“常见”记忆,例如熟悉的短语,公共知识或模板文本。在本文中,我们提供了由心理学中人类记忆分类的理性观点。从这个角度来看,我们制定了反事实记忆的概念,这表征了模型的预测如何改变,如果在训练期间省略了特定文件。我们在标准文本数据集中识别并研究了反复记忆培训示例。我们进一步估计每个训练示例对验证集和生成文本的影响,并显示这可以提供在测试时间的记忆源的直接证据。
translated by 谷歌翻译
当前的语言模型可以产生高质量的文本。他们只是复制他们之前看到的文本,或者他们学习了普遍的语言抽象吗?要取笑这些可能性,我们介绍了乌鸦,这是一套评估生成文本的新颖性,专注于顺序结构(n-gram)和句法结构。我们将这些分析应用于四种神经语言模型(LSTM,变压器,变换器-XL和GPT-2)。对于本地结构 - 例如,单个依赖性 - 模型生成的文本比来自每个模型的测试集的人类生成文本的基线显着不那么新颖。对于大规模结构 - 例如,总句结构 - 模型生成的文本与人生成的基线一样新颖甚至更新颖,但模型仍然有时复制,在某些情况下,在训练集中重复超过1000字超过1,000字的通道。我们还表现了广泛的手动分析,表明GPT-2的新文本通常在形态学和语法中形成良好,但具有合理的语义问题(例如,是自相矛盾)。
translated by 谷歌翻译
在过去的几年中,计算机视觉的显着进步总的来说是归因于深度学习,这是由于大量标记数据的可用性所推动的,并与GPU范式的爆炸性增长配对。在订阅这一观点的同时,本书批评了该领域中所谓的科学进步,并在基于信息的自然法则的框架内提出了对愿景的调查。具体而言,目前的作品提出了有关视觉的基本问题,这些问题尚未被理解,引导读者走上了一个由新颖挑战引起的与机器学习基础共鸣的旅程。中心论点是,要深入了解视觉计算过程,有必要超越通用机器学习算法的应用,而要专注于考虑到视觉信号的时空性质的适当学习理论。
translated by 谷歌翻译
Curiosity for machine agents has been a focus of lively research activity. The study of human and animal curiosity, particularly specific curiosity, has unearthed several properties that would offer important benefits for machine learners, but that have not yet been well-explored in machine intelligence. In this work, we conduct a comprehensive, multidisciplinary survey of the field of animal and machine curiosity. As a principal contribution of this work, we use this survey as a foundation to introduce and define what we consider to be five of the most important properties of specific curiosity: 1) directedness towards inostensible referents, 2) cessation when satisfied, 3) voluntary exposure, 4) transience, and 5) coherent long-term learning. As a second main contribution of this work, we show how these properties may be implemented together in a proof-of-concept reinforcement learning agent: we demonstrate how the properties manifest in the behaviour of this agent in a simple non-episodic grid-world environment that includes curiosity-inducing locations and induced targets of curiosity. As we would hope, our example of a computational specific curiosity agent exhibits short-term directed behaviour while updating long-term preferences to adaptively seek out curiosity-inducing situations. This work, therefore, presents a landmark synthesis and translation of specific curiosity to the domain of machine learning and reinforcement learning and provides a novel view into how specific curiosity operates and in the future might be integrated into the behaviour of goal-seeking, decision-making computational agents in complex environments.
translated by 谷歌翻译
在本文中,我们得出了“上下文中的单词含义”的概念,将其描述为强化和概念。我们介绍了一个框架,用于在上下文中指定对单词含义的局部和全局约束以及它们的相互作用,从而建模在话语解释中观察到的各种词汇转移和歧义。我们将句子表示为“情况描述系统”,这是一种概率模型,它将话语理解是一种对自己描述一种或多种情况描述的心理过程,该过程将解释观察到的话语。我们展示了如何在实践中实现该系统,并将其应用于包含各种背景化现象的示例。
translated by 谷歌翻译
方面含义是指如何提出情况的内部时间结构。这包括情况是将情况描述为状态还是事件,无论情况已经完成还是正在进行,以及是否被视为一个整体,还是关注特定阶段。这项调查概述了对词汇和语法方面进行建模以及对必要语言概念和术语的直观解释的概述。特别是,我们描述了统计,远程感,习惯性,完美和不完美的概念,以及最终性和情况类型的有影响力的清单。我们认为,由于方面是语义的关键组成部分,尤其是在以精确的方式报告情况的时间结构时,未来的NLP方法需要能够系统地处理和评估它,以实现人类水平的语言理解。
translated by 谷歌翻译
Advocates of algorithmic techniques like data mining argue that these techniques eliminate human biases from the decision-making process. But an algorithm is only as good as the data it works with. Data is frequently imperfect in ways that allow these algorithms to inherit the prejudices of prior decision makers. In other cases, data may simply reflect the widespread biases that persist in society at large. In still others, data mining can discover surprisingly useful regularities that are really just preexisting patterns of exclusion and inequality. Unthinking reliance on data mining can deny historically disadvantaged and vulnerable groups full participation in society. Worse still, because the resulting discrimination is almost always an unintentional emergent property of the algorithm's use rather than a conscious choice by its programmers, it can be unusually hard to identify the source of the problem or to explain it to a court. This Essay examines these concerns through the lens of American antidiscrimination law-more particularly, through Title
translated by 谷歌翻译
我们提出了一种新颖的基准和相关的评估指标,用于评估文本匿名方法的性能。文本匿名化定义为编辑文本文档以防止个人信息披露的任务,目前遭受了面向隐私的带注释的文本资源的短缺,因此难以正确评估各种匿名方法提供的隐私保护水平。本文介绍了标签(文本匿名基准),这是一种新的开源注释语料库,以解决此短缺。该语料库包括欧洲人权法院(ECHR)的1,268个英语法院案件,并充满了有关每个文档中出现的个人信息的全面注释,包括其语义类别,标识符类型,机密属性和共同参考关系。与以前的工作相比,TAB语料库旨在超越传统的识别(仅限于检测预定义的语义类别),并且明确标记了这些文本跨越的标记,这些文本应该被掩盖,以掩盖该人的身份受到保护。除了介绍语料库及其注释层外,我们还提出了一套评估指标,这些指标是针对衡量文本匿名性的性能而定制的,无论是在隐私保护和公用事业保护方面。我们通过评估几个基线文本匿名模型的经验性能来说明基准和提议的指标的使用。完整的语料库及其面向隐私的注释准则,评估脚本和基线模型可在以下网址提供:
translated by 谷歌翻译
讨论了与科学,工程,建筑和人为因素相关的月球表面上的运输设施问题。未来十年制造的后勤决策可能对财务成功至关重要。除了概述一些问题及其与数学和计算的关系外,本文还为决策者,科学家和工程师提供了有用的资源。
translated by 谷歌翻译