可靠的自动可读性评估方法有可能影响各种领域,从机器翻译到自我信息学习。最近,用于德语语言的大型语言模型(例如Gbert和GPT-2-Wechsel)已获得,从而可以开发基于深度学习的方法,有望进一步改善自动可读性评估。在这项贡献中,我们研究了精细调整Gbert和GPT-2-Wechsel模型的合奏能够可靠地预测德国句子的可读性的能力。我们将这些模型与语言特征相结合,并研究了预测性能对整体大小和组成的依赖性。 Gbert和GPT-2-Wechsel的混合合奏表现要比仅由Gbert或GPT-2-Wechsel模型组成的相同大小的合奏表现更好。我们的模型在2022年的Germeval 2022中进行了评估,该任务是关于德国句子数据的文本复杂性评估。在样本外数据上,我们的最佳合奏达到了均方根误差为0.435。
translated by 谷歌翻译
自动估计读者文本的复杂性具有多种应用程序,例如向语言学习者推荐具有适当复杂性的文本或支持文本简化方法的评估。在本文中,我们介绍了2022年文本复杂性的提交,这是一项回归任务,目的是预测B级的德国学习者对德国学习者的复杂性德国Wikipedia和其他Corpora训练基于变压器的模型,并避免任何功能工程或任何其他标记的数据。我们发现,基于伪标签的方法给出了令人印象深刻的结果,但几乎不需要对特定任务进行调整,因此很容易适应其他域和任务。
translated by 谷歌翻译
从语言学习者到残疾人,文本可读性评估对不同目标人士有广泛的应用。网络上文本内容生产的快速速度使得如果没有机器学习和自然语言处理技术的好处,就无法测量文本复杂性。尽管各种研究涉及近年来英语文本的可读性评估,但仍有改进其他语言的模型的空间。在本文中,我们提出了一种基于转移学习的德语文本评估文本复杂性评估的新模型。我们的结果表明,该模型比从输入文本中提取的语言特征优于更多经典的解决方案。最佳模型是基于BERT预训练的语言模型,达到了均方根误差(RMSE)为0.483。
translated by 谷歌翻译
State-of-the-art text simplification (TS) systems adopt end-to-end neural network models to directly generate the simplified version of the input text, and usually function as a blackbox. Moreover, TS is usually treated as an all-purpose generic task under the assumption of homogeneity, where the same simplification is suitable for all. In recent years, however, there has been increasing recognition of the need to adapt the simplification techniques to the specific needs of different target groups. In this work, we aim to advance current research on explainable and controllable TS in two ways: First, building on recently proposed work to increase the transparency of TS systems, we use a large set of (psycho-)linguistic features in combination with pre-trained language models to improve explainable complexity prediction. Second, based on the results of this preliminary task, we extend a state-of-the-art Seq2Seq TS model, ACCESS, to enable explicit control of ten attributes. The results of experiments show (1) that our approach improves the performance of state-of-the-art models for predicting explainable complexity and (2) that explicitly conditioning the Seq2Seq model on ten attributes leads to a significant improvement in performance in both within-domain and out-of-domain settings.
translated by 谷歌翻译
情绪感知智能系统对于广泛的应用是必不可少的。这些系统由语言模型驱动,这主要落入两个范式:基于词汇和上下文。虽然最近的上下文模型越来越占主导地位,但由于它们的可解释性和易用性,我们仍然可以看到基于词汇的模型的需求。例如,基于词汇的模型允许研究人员容易地确定哪些单词和短语对测量情绪的变化有贡献。任何基于词汇的方法的挑战是,词典需要通过新的单词和表达进行常规扩展。在这里,我们提出了两个用于自动词典扩展的模型。我们的第一个模型建立了一种基线,采用简单而浅的神经网络,使用非上下文方法初始化了预先训练的单词嵌入。我们的第二种模式改进了我们的基线,具有深度变压器的网络,它带来了估计其词汇极性的单词定义。我们的评估表明,两种模型都能够以与亚马逊机械土耳其人的评论者相似的准确度,但是在成本的一小部分中,可以获得类似的准确性。
translated by 谷歌翻译
Sentence simplification aims at making the structure of text easier to read and understand while maintaining its original meaning. This can be helpful for people with disabilities, new language learners, or those with low literacy. Simplification often involves removing difficult words and rephrasing the sentence. Previous research have focused on tackling this task by either using external linguistic databases for simplification or by using control tokens for desired fine-tuning of sentences. However, in this paper we purely use pre-trained transformer models. We experiment with a combination of GPT-2 and BERT models, achieving the best SARI score of 46.80 on the Mechanical Turk dataset, which is significantly better than previous state-of-the-art results. The code can be found at https://github.com/amanbasu/sentence-simplification.
translated by 谷歌翻译
Grammatical Error Correction (GEC) is the task of automatically detecting and correcting errors in text. The task not only includes the correction of grammatical errors, such as missing prepositions and mismatched subject-verb agreement, but also orthographic and semantic errors, such as misspellings and word choice errors respectively. The field has seen significant progress in the last decade, motivated in part by a series of five shared tasks, which drove the development of rule-based methods, statistical classifiers, statistical machine translation, and finally neural machine translation systems which represent the current dominant state of the art. In this survey paper, we condense the field into a single article and first outline some of the linguistic challenges of the task, introduce the most popular datasets that are available to researchers (for both English and other languages), and summarise the various methods and techniques that have been developed with a particular focus on artificial error generation. We next describe the many different approaches to evaluation as well as concerns surrounding metric reliability, especially in relation to subjective human judgements, before concluding with an overview of recent progress and suggestions for future work and remaining challenges. We hope that this survey will serve as comprehensive resource for researchers who are new to the field or who want to be kept apprised of recent developments.
translated by 谷歌翻译
大型和超大语言模型的开发,例如GPT-3,T5,Switch Transformer,Ernie等,已经显着改善了文本生成的性能。该领域的重要研究方向之一是产生具有争论的文本。该问题的解决方案可以用于商务会议,政治辩论,对话系统,以准备学生论文。这些应用的主要领域之一是经济领域。俄罗斯语言的论证文本生成的关键问题是缺乏注释的论证语料库。在本文中,我们将论证的微观版,说服力论文和UKP句子语料库的翻译版本用于微调Rubert模型。此外,该模型用于通过论证注释经济新闻的语料库。然后使用带注释的语料库微调Rugpt-3模型,该模型生成参数文本。结果表明,与原始的Rugpt-3模型相比,这种方法将论点生成的准确性提高了20个百分点(63.2 \%vs. 42.5 \%)。
translated by 谷歌翻译
对于自然语言处理应用可能是有问题的,因为它们的含义不能从其构成词语推断出来。缺乏成功的方法方法和足够大的数据集防止了用于检测成语的机器学习方法的开发,特别是对于在训练集中不发生的表达式。我们提出了一种叫做小鼠的方法,它使用上下文嵌入来实现此目的。我们展示了一个新的多字表达式数据集,具有文字和惯用含义,并使用它根据两个最先进的上下文单词嵌入式培训分类器:Elmo和Bert。我们表明,使用两个嵌入式的深度神经网络比现有方法更好地执行,并且能够检测惯用词使用,即使对于训练集中不存在的表达式。我们展示了开发模型的交叉传输,并分析了所需数据集的大小。
translated by 谷歌翻译
这项研究讨论了半监督学习的影响与验证的语言模型,以生成数据到文本。当还补充大规模语言模型时,尚不清楚半监督学习是否仍然有用。这项研究的目的是通过将仅补充语言模型的数据到文本系统与两个数据到文本系统进行比较,这些系统通过数据增强或伪标记的半固定学习方法而富含数据。结果表明,半监督学习会导致多样性指标的得分更高。在输出质量方面,使用伪标记方法扩展数据到文本系统的训练集确实提高了文本质量分数,但是数据增强方法在没有训练设置扩展的情况下得出了与系统相似的分数。这些结果表明,即使也存在语言模型,半监督的学习方法也可以增强产出质量和多样性。
translated by 谷歌翻译
与标准命名实体识别(NER)相比,在历史文本中识别人,位置和组织是一个巨大的挑战。为了获得机器可读的语料库,通常需要扫描历史文本,并且需要执行光学特征识别(OCR)。结果,历史文献包含错误。此外,位置或组织等实体可以随着时间的推移而改变,这构成了另一个挑战。总体而言,历史文本带有几种特殊性,这些特殊性与现代文本有很大不同,并且在该领域几乎无法使用训练神经标记器的大型标记的Corpora。在这项工作中,我们通过培训大型历史语言模型来解决历史,英语,法语,瑞典语和芬兰语的历史文献。我们通过使用未标记的数据预处理语言模型来规避大量标记数据的需求。我们提出了Hmbert,这是一种历史多语言基于BERT的语言模型,并以多种不同大小的版本发布该模型。此外,我们通过解决下游NER作为今年HIPE-2022共享任务的一部分来评估HMBERT的能力,并提供详细的分析和见解。对于多种语言的经典评论粗粒ner挑战,我们的标记者Histeria的表现优于其他团队的三种语言中的其他团队的模型。
translated by 谷歌翻译
获得具有语义注释的文本数据集是一个艰苦的过程,但对于自然语言过程(NLP)的监督培训至关重要。通常,在特定于域的上下文中开发和应用新的NLP管道通常需要定制设计的数据集来以监督机器学习方式解决NLP任务。当使用非英语语言进行医学数据处理时,这会暴露出几个次要和主要的相互联系的问题,例如缺乏任务匹配数据集以及特定于任务的预训练模型。在我们的工作中,我们建议利用审计的语言模型来培训数据获取,以便检索足够大的数据集,以训练更小,更有效的模型,以便使用特定的特定任务。为了证明您的方法的有效性,我们创建了一个自定义数据集,我们用来培训用于德国文本的医学模型,但在原则上我们的方法仍然不依赖语言。我们获得的数据集以及我们的预培训模型可在以下网址公开获取:https://github.com/frankkramer-lab/gptnermed
translated by 谷歌翻译
We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models (Peters et al., 2018a;Radford et al., 2018), BERT is designed to pretrain deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers. As a result, the pre-trained BERT model can be finetuned with just one additional output layer to create state-of-the-art models for a wide range of tasks, such as question answering and language inference, without substantial taskspecific architecture modifications.BERT is conceptually simple and empirically powerful. It obtains new state-of-the-art results on eleven natural language processing tasks, including pushing the GLUE score to 80.5% (7.7% point absolute improvement), MultiNLI accuracy to 86.7% (4.6% absolute improvement), SQuAD v1.1 question answering Test F1 to 93.2 (1.5 point absolute improvement) and SQuAD v2.0 Test F1 to 83.1 (5.1 point absolute improvement).
translated by 谷歌翻译
Understanding customer feedback is becoming a necessity for companies to identify problems and improve their products and services. Text classification and sentiment analysis can play a major role in analyzing this data by using a variety of machine and deep learning approaches. In this work, different transformer-based models are utilized to explore how efficient these models are when working with a German customer feedback dataset. In addition, these pre-trained models are further analyzed to determine if adapting them to a specific domain using unlabeled data can yield better results than off-the-shelf pre-trained models. To evaluate the models, two downstream tasks from the GermEval 2017 are considered. The experimental results show that transformer-based models can reach significant improvements compared to a fastText baseline and outperform the published scores and previous models. For the subtask Relevance Classification, the best models achieve a micro-averaged $F1$-Score of 96.1 % on the first test set and 95.9 % on the second one, and a score of 85.1 % and 85.3 % for the subtask Polarity Classification.
translated by 谷歌翻译
Text generation has made significant advances in the last few years. Yet, evaluation metrics have lagged behind, as the most popular choices (e.g., BLEU and ROUGE) may correlate poorly with human judgments. We propose BLEURT, a learned evaluation metric based on BERT that can model human judgments with a few thousand possibly biased training examples. A key aspect of our approach is a novel pre-training scheme that uses millions of synthetic examples to help the model generalize. BLEURT provides state-ofthe-art results on the last three years of the WMT Metrics shared task and the WebNLG Competition dataset. In contrast to a vanilla BERT-based approach, it yields superior results even when the training data is scarce and out-of-distribution.
translated by 谷歌翻译
我们提出了一个针对德国医学自然语言处理的统计模型,该模型训练了命名实体识别(NER),作为开放的公开模型。这项工作是我们第一个Gernerm模型的精致继任者,我们的工作大大优于我们的工作。我们证明了结合多种技术的有效性,以通过在预审预测的深度语言模型(LM),单词平衡和神经机器翻译上转移学习的方式来实现实体识别绩效。由于开放的公共医疗实体识别模型在德国文本上的稀疏情况,这项工作为医疗NLP作为基线模型的德国研究社区提供了好处。由于我们的模型基于公共英语数据,因此提供了其权重,而无需法律限制使用和分发。示例代码和统计模型可在以下网址获得:https://github.com/frankkramer-lab/gernermed-pp
translated by 谷歌翻译
语言基础与视觉是一个积极的研究领域,旨在通过利用视觉感知知识来丰富基于文本的单词含义的表示。尽管进行了多次接地尝试,但仍不清楚如何以一种保持文本和视觉知识的适当平衡的方式将视觉知识注入语言嵌入一词。一些普遍的问题是以下内容。视觉基础对抽象单词有益吗?还是仅限于具体单词的贡献?弥合文本和视觉之间差距的最佳方法是什么?通过视觉接地的文本嵌入,我们可以获得多少收益?本研究通过提出一种简单但非常有效的基础方法来解决这些问题,以预先训练的单词嵌入。我们的模型将文本嵌入与视觉保持一致,同时在很大程度上保留了在文本语料库中使用单词使用的分布统计数据。通过应用学习的对齐方式,我们能够生成视觉接地的嵌入,用于看不见的单词,包括抽象单词。一系列对单词相似性基准的评估表明,视觉接地不仅对具体单词有益,而且对抽象单词也有益。我们还表明,我们的视觉接地方法为上下文化的嵌入提供了优势,但只有在对相对尺寸相对较小的语料库进行培训时,我们才能提供优势。可以在https://github.com/hazel1994/visaly_grounded_word_word_embeddings_2上获得英语的代码和接地嵌入。
translated by 谷歌翻译
不同的语言表达方式可以通过强调某些参与者而不是其他观点来概念化同一事件。在这里,我们调查了一种具有社会后果的案例:基于性别的暴力(GBV)的语言表达如何影响我们认为谁负责?我们基于该领域的先前心理语言研究,并对从意大利报纸的语料库自动提取的GBV描述进行了大规模的感知调查。然后,我们训练回归模型,以预测GBV参与者在感知到的责任的不同方面的显着性。我们的最佳模型(微调的BERT)显示出稳定的整体性能,并且在维度和参与者之间存在较大差异:显着_focus_比Sartient _blame_更可预测,而肇事者的显着性比受害者的显着性更为可预测。使用不同表示的脊回归模型进行的实验表明,基于语言理论的特征与基于单词的特征类似。总体而言,我们表明,不同的语言选择确实触发了对责任感的不同看法,并且可以自动建模这种看法。这项工作可能是提高公众和新闻制作人不同观点后果的认识的核心工具。
translated by 谷歌翻译
Detecting sarcasm and verbal irony from people's subjective statements is crucial to understanding their intended meanings and real sentiments and positions in social scenarios. This paper describes the X-PuDu system that participated in SemEval-2022 Task 6, iSarcasmEval - Intended Sarcasm Detection in English and Arabic, which aims at detecting intended sarcasm in various settings of natural language understanding. Our solution finetunes pre-trained language models, such as ERNIE-M and DeBERTa, under the multilingual settings to recognize the irony from Arabic and English texts. Our system ranked second out of 43, and ninth out of 32 in Task A: one-sentence detection in English and Arabic; fifth out of 22 in Task B: binary multi-label classification in English; first out of 16, and fifth out of 13 in Task C: sentence-pair detection in English and Arabic.
translated by 谷歌翻译
GPT-2和BERT展示了在各种自然语言处理任务上使用预训练的语言模型(LMS)的有效性。但是,在应用于资源丰富的任务时,LM微调通常会遭受灾难性的遗忘。在这项工作中,我们引入了一个协同的培训框架(CTNMT),该框架是将预训练的LMS集成到神经机器翻译(NMT)的关键。我们提出的CTNMT包括三种技术:a)渐近蒸馏,以确保NMT模型可以保留先前的预训练知识; b)动态的开关门,以避免灾难性忘记预训练的知识; c)根据计划的政策调整学习步伐的策略。我们在机器翻译中的实验表明,WMT14英语 - 德语对的CTNMT获得了最高3个BLEU得分,甚至超过了先前的最先进的预培训辅助NMT NMT的NMT。尽管对于大型WMT14英语法国任务,有400万句话,但我们的基本模型仍然可以显着改善最先进的变压器大型模型,超过1个BLEU得分。代码和模型可以从https://github.com/bytedance/neurst/tree/Master/Master/examples/ctnmt下载。
translated by 谷歌翻译