WSD (Word Sense Disambiguation) is the task of identifying which sense of a word is meant in a sentence or other segment of text. Researchers have worked on this task (e.g. Pustejovsky, 2002) for years but it's still a challenging one even for SOTA (state-of-the-art) LMs (language models). The new dataset, TempoWiC introduced by Loureiro et al. (2022b) focuses on the fact that words change over time. Their best baseline achieves 70.33% macro-F1. In this work, we use two different losses simultaneously to train RoBERTa-based classification models. We also improve our model by using another similar dataset to generalize better. Our best configuration beats their best baseline by 4.23% and reaches 74.56% macroF1.
translated by 谷歌翻译
This paper mainly describes the dma submission to the TempoWiC task, which achieves a macro-F1 score of 77.05% and attains the first place in this task. We first explore the impact of different pre-trained language models. Then we adopt data cleaning, data augmentation, and adversarial training strategies to enhance the model generalization and robustness. For further improvement, we integrate POS information and word semantic representation using a Mixture-of-Experts (MoE) approach. The experimental results show that MoE can overcome the feature overuse issue and combine the context, POS, and word semantic features well. Additionally, we use a model ensemble method for the final prediction, which has been proven effective by many research works.
translated by 谷歌翻译
语言随着时间的流逝而演变,单词含义会发生相应的变化。在社交媒体中尤其如此,因为它的动态性质会导致语义转移的速度更快,这使得NLP模型在处理新内容和趋势方面具有挑战性。但是,专门解决这些社交平台动态性质的数据集和模型的数量很少。为了弥合这一差距,我们提出了Tempowic,这是一种新的基准,尤其是旨在加快基于社交媒体的含义转变的研究。我们的结果表明,即使对于最近发行的专门从事社交媒体的语言模型,Tempowic是一个具有挑战性的基准。
translated by 谷歌翻译
对比的学习技术已广泛用于计算机视野中作为增强数据集的手段。在本文中,我们将这些对比学习嵌入的使用扩展到情绪分析任务,并证明了对这些嵌入的微调在基于BERT的嵌入物上的微调方面提供了改进,以在评估时实现更高的基准。在Dynasent DataSet上。我们还探讨了我们的微调模型在跨域基准数据集上执行的。此外,我们探索了ups采样技术,以实现更平衡的班级分发,以进一步改进我们的基准任务。
translated by 谷歌翻译
社交网络数据评估的自动化是自然语言处理的经典挑战之一。在共同199年的大流行期间,关于了解健康命令的态度,公共信息中的采矿人们的立场变得至关重要。在本文中,作者提出了基于变压器体系结构的预测模型,以对Twitter文本中的前提进行分类。这项工作是作为2022年社交媒体挖掘(SMM4H)研讨会的一部分完成的。我们探索了现代变压器的分类器,以便构建管道有效地捕获推文语义。我们在Twitter数据集上的实验表明,在前提预测任务的情况下,罗伯塔(Roberta)优于其他变压器模型。该模型在ROC AUC值0.807方面实现了竞争性能,而F1得分为0.7648。
translated by 谷歌翻译
在大量人员中,在线社交媒体(OSMS)消费的广泛上升构成了遏制这些平台上仇恨内容的传播的关键问题。随着多种语言的效果越来越多,检测和表征仇恨的任务变得更加复杂。代码混合文本的微妙变化以及切换脚本仅增加了复杂性。本文介绍了哈索克2021多语种推特仇恨语音检测挑战的解决方案,由Team Precog IIIT Hyderabad。我们采用基于多语言变压器的方法,并为所有6个子任务描述了我们的架构作为挑战的一部分。在参加所有子特设券的6支球队中,我们的提交总体排名第3。
translated by 谷歌翻译
通过捕获文本表示的组成性,大型语言模型在各种自然语言处理任务中取得了成功。尽管它们取得了巨大的成功,但这些向量表示未能捕获惯用多字表达式(MWES)的含义。在本文中,我们专注于使用二进制分类检测惯用表达式。我们使用一个数据集,该数据集包括英语和葡萄牙语中MWE的字面用法和惯用性。此后,我们在两个不同的设置中执行分类:零射门和一个镜头,以确定给定的句子是否包含成语。 n个任务的n射击分类是由训练和测试集之间的n个常见成语数定义的。在本文中,我们在设置中训练多个大型语言模型,并在零射击设置中获得0.73的F1分数(宏),一个射击设置为0.85的F1分数(宏)。可以在https://github.com/ashwinpathak20/idiomation_detection_using_using_few_shot_learning上找到我们工作的实现。
translated by 谷歌翻译
With an increasing amount of data in the art world, discovering artists and artworks suitable to collectors' tastes becomes a challenge. It is no longer enough to use visual information, as contextual information about the artist has become just as important in contemporary art. In this work, we present a generic Natural Language Processing framework (called ArtLM) to discover the connections among contemporary artists based on their biographies. In this approach, we first continue to pre-train the existing general English language models with a large amount of unlabelled art-related data. We then fine-tune this new pre-trained model with our biography pair dataset manually annotated by a team of professionals in the art industry. With extensive experiments, we demonstrate that our ArtLM achieves 85.6% accuracy and 84.0% F1 score and outperforms other baseline models. We also provide a visualisation and a qualitative analysis of the artist network built from ArtLM's outputs.
translated by 谷歌翻译
这项工作介绍了我们培训神经网络的方法,以检测印地语和孟加利的仇恨语篇文本。我们还探讨了如何将转移学习应用于学习这些语言,因为它们具有相同的原点,因此类似于某些延伸。尽管整个实验以低计算能力进行,但所获得的结果也与其他,更昂贵,模型的结果相当。此外,由于使用中的培训数据相对较小,而这两种语言几乎完全不为人知,这项工作可以是概括的,以努力恶化而使没有人能够理解的丢失或外星语语言。
translated by 谷歌翻译
对比度学习已逐渐应用于学习高质量的无监督句子嵌入。据我们所知,在以前的无监督方法中,最新的最新方法是无监督的SIMCSE(Unsup-Simcse)。 Unsup-Simcse在训练阶段使用Infonce1Loss功能,通过将语义上相似的句子拉在一起并分开不相似。从理论上讲,我们希望在Unsup-Simcse中使用较大的批次,以在样本中进行更充分的比较并避免过度拟合。但是,增加批量的大小并不总是会导致改进,而是在批处理大小超过阈值时会导致性能降解。通过统计观察,我们发现这可能是由于在批量生产大小后引入了低信心负对。为了减轻这个问题,我们在Infonce损失函数上引入了一种简单的平滑策略,称为Gaussian平滑infonce(GS-Infonce)。特别是,我们将随机的高斯噪声向量添加为负样品,它们的负面样品空间的平滑性。简单,提出的平滑策略为Unsup-Simcse带来了重大改进。我们评估GS-INFONCEON标准语义文本相似性(STS)任务。 GS-Infonce的平均长矛人相关性优于最先进的Unsup-Simcse,在Bert-Base,Bert-Large,Roberta-Base的基础上,长矛人的相关性为1.38%,0.72%,1.17%和0.28%和罗伯塔·洛尔格(Roberta-Large)。
translated by 谷歌翻译
讽刺是一种形式的形式,其中句子的预期含义与其字面意义不同。这对几种自然语言处理(NLP)应用(例如情感分析,意见挖掘和作者概况)提出了严重的挑战。在本文中,我们将参与系统介绍给英语和阿拉伯语的预期讽刺检测任务。我们的系统\ footNote {我们系统的源代码可在\ url {https://github.com/abdelkadermh/isarcasmeval}}}}}}}}}组成,该模型由三个基于深度学习的模型,利用两种现有的预培养的语言用于阿拉伯语和英语。我们参加了所有子任务。我们的官方意见在阿拉伯语的子任务A上取得了最佳性能,并在子任务B中排名第二。对于子任务C,我们的系统分别在阿拉伯语和英语数据集上排名第七和第11位。
translated by 谷歌翻译
BERT (Devlin et al., 2018) and RoBERTa has set a new state-of-the-art performance on sentence-pair regression tasks like semantic textual similarity (STS). However, it requires that both sentences are fed into the network, which causes a massive computational overhead: Finding the most similar pair in a collection of 10,000 sentences requires about 50 million inference computations (~65 hours) with BERT. The construction of BERT makes it unsuitable for semantic similarity search as well as for unsupervised tasks like clustering.In this publication, we present Sentence-BERT (SBERT), a modification of the pretrained BERT network that use siamese and triplet network structures to derive semantically meaningful sentence embeddings that can be compared using cosine-similarity. This reduces the effort for finding the most similar pair from 65 hours with BERT / RoBERTa to about 5 seconds with SBERT, while maintaining the accuracy from BERT.We evaluate SBERT and SRoBERTa on common STS tasks and transfer learning tasks, where it outperforms other state-of-the-art sentence embeddings methods. 1
translated by 谷歌翻译
Distance Metric Learning (DML) has attracted much attention in image processing in recent years. This paper analyzes its impact on supervised fine-tuning language models for Natural Language Processing (NLP) classification tasks under few-shot learning settings. We investigated several DML loss functions in training RoBERTa language models on known SentEval Transfer Tasks datasets. We also analyzed the possibility of using proxy-based DML losses during model inference. Our systematic experiments have shown that under few-shot learning settings, particularly proxy-based DML losses can positively affect the fine-tuning and inference of a supervised language model. Models tuned with a combination of CCE (categorical cross-entropy loss) and ProxyAnchor Loss have, on average, the best performance and outperform models with only CCE by about 3.27 percentage points -- up to 10.38 percentage points depending on the training dataset.
translated by 谷歌翻译
在本文中,我们介绍了TweetNLP,这是社交媒体中自然语言处理(NLP)的集成平台。TweetNLP支持一套多样化的NLP任务,包括诸如情感分析和命名实体识别的通用重点领域,以及社交媒体特定的任务,例如表情符号预测和进攻性语言识别。特定于任务的系统由专门用于社交媒体文本的合理大小的基于变压器的语言模型(尤其是Twitter)提供动力,无需专用硬件或云服务即可运行。TweetNLP的主要贡献是:(1)使用适合社会领域的各种特定于任务的模型,用于支持社交媒体分析的现代工具包的集成python库;(2)使用我们的模型进行无编码实验的交互式在线演示;(3)涵盖各种典型社交媒体应用的教程。
translated by 谷歌翻译
句子嵌入方法有许多成功的应用。但是,根据监督信号,在结果句子嵌入中捕获了哪些属性。在本文中,我们专注于具有相似体系结构和任务的两种类型的嵌入方法:一种关于自然语言推理任务的微型预训练的语言模型,以及其他微型训练的训练语言模型在单词预测任务上根据其定义句子,并研究其属性。具体而言,我们使用两个角度分区的STS数据集比较他们在语义文本相似性(STS)任务上的性能:1)句子源和2)句子对的表面相似性,并在下游和探测任务上比较其表现。此外,我们尝试结合两种方法,并证明将两种方法组合起来比无监督的STS任务和下游任务的各自方法的性能要好得多。
translated by 谷歌翻译
在本文中,我们描述了我们参与Case-2022的子任务1,即与休闲新闻语料库的事件因果关系识别。我们通过在少数带注释的示例(即几次配置)上利用一组简单但互补的技术来解决因果关系识别(CRI)任务。我们遵循一种基于迅速的预测方法,用于微调LMS,其中CRI任务被视为掩盖语言建模问题(MLM)。这种方法允许LMS在MLM问题上进行本地预先训练,可以直接生成对CRI特异性提示的文本响应。我们将此方法的性能与在整个数据集中训练的集合技术进行比较。我们表现​​最佳的提交仅接受了每班256个实例,整个数据集的一小部分培训,但能够获得第二好的精度(0.82),第三好的精度(0.82)和F1得分。 (0.85)非常接近获胜者团队(0.86)的报道。
translated by 谷歌翻译
Language models pretrained on text from a wide variety of sources form the foundation of today's NLP. In light of the success of these broad-coverage models, we investigate whether it is still helpful to tailor a pretrained model to the domain of a target task. We present a study across four domains (biomedical and computer science publications, news, and reviews) and eight classification tasks, showing that a second phase of pretraining indomain (domain-adaptive pretraining) leads to performance gains, under both high-and low-resource settings. Moreover, adapting to the task's unlabeled data (task-adaptive pretraining) improves performance even after domain-adaptive pretraining. Finally, we show that adapting to a task corpus augmented using simple data selection strategies is an effective alternative, especially when resources for domain-adaptive pretraining might be unavailable. Overall, we consistently find that multiphase adaptive pretraining offers large gains in task performance.
translated by 谷歌翻译
我们介绍了Twhin-Bert,这是一种多语言语言模型,该模型在流行的社交网络Twitter上训练了内域数据。Twhin-bert与先前的预训练的语言模型有所不同,因为它不仅接受了基于文本的自学训练,而且还具有基于Twitter异质信息网络(TWHIN)中丰富社交活动的社会目标。我们的模型接受了70亿条推文的培训,涵盖了100多种不同的语言,为简短,嘈杂,用户生成的文本提供了有价值的表示形式。我们对各种多语言社会建议和语义理解任务进行评估,并证明了对既定的预训练的语言模型的大幅改进。我们将自由开放源代码Twhin-Bert和我们为研究社区提供的精心策划标签预测和社会参与基准数据集。
translated by 谷歌翻译
仇恨言语分类一直是自然语言处理中的一个长期问题。但是,即使有许多仇恨言论检测方法,它们通常忽略了许多仇恨言论,因为它们在自然界中是隐含的。开发数据集以协助隐性仇恨言语分类的任务伴随着自己的挑战;困难是语言上的细微差别,改变了构成仇恨言论的定义以及劳动密集型的注释过程。这导致了可用于训练和测试此类系统的数据稀缺,当使用基于参数的变压器模型来解决该问题时,这会引起较高的差异问题。在本文中,我们探讨了各种优化和正则化技术,并开发了一种基于罗伯塔的新型模型,可实现最先进的性能。
translated by 谷歌翻译
本文提出了一种新的FNC-1假新闻分类任务的方法,其中涉及使用类似NLP任务的预训练编码器模型,即句子相似性和自然语言推断,并提出了使用这种方法的两个神经网络架构。探讨了数据增强方法作为解决数据集中的类不平衡的一种手段,采用常见的先前存在的方法,并提出了一种使用新句子否定算法的代表性不足类中样本生成的方法。与现有基线相当的总体性能是可比的,而对于FNC-1的代表性不足但仍然重要的类别的准确性显着提高了准确性。
translated by 谷歌翻译