在当代世界中,自动检测假新闻是一项非常重要的任务。这项研究报告了第二项共享任务,称为Urdufake@fire2021,以识别乌尔都语中的假新闻检测。共同任务的目的是激励社区提出解决这一至关重要问题的有效方法,尤其是对于乌尔都语。该任务被视为二进制分类问题,将给定的新闻文章标记为真实或假新闻文章。组织者提供了一个数据集,其中包括五个领域的新闻:(i)健康,(ii)体育,(iii)Showbiz,(iv)技术和(v)业务,分为培训和测试集。该培训集包含1300篇注释的新闻文章 - 750个真实新闻,550个假新闻,而测试集包含300篇新闻文章 - 200个真实,100个假新闻。来自7个不同国家(中国,埃及,以色列,印度,墨西哥,巴基斯坦和阿联酋)的34个团队注册参加了Urdufake@Fire2021共享任务。在这些情况下,有18个团队提交了实验结果,其中11个提交了技术报告,与2020年的Urdufake共享任务相比,这一报告要高得多,当时只有6个团队提交了技术报告。参与者提交的技术报告展示了不同的数据表示技术,从基于计数的弓形功能到单词矢量嵌入以及使用众多的机器学习算法,从传统的SVM到各种神经网络体系结构,包括伯特和罗伯塔等变形金刚。在今年的比赛中,表现最佳的系统获得了0.679的F1-MACRO得分,低于过去一年的0.907 F1-MaCro的最佳结果。诚然,尽管过去和当前几年的培训集在很大程度上重叠,但如果今年完全不同,则测试集。
translated by 谷歌翻译
本概述论文描述了乌尔都语语言中的假新闻检测的第一个共享任务。该任务是作为二进制分类任务的,目标是区分真实新闻和虚假新闻。我们提供了一个数据集,分为900个注释的新闻文章,用于培训,并进行了400篇新闻文章进行测试。该数据集包含五个领域的新闻:(i)健康,(ii)体育,(iii)Showbiz,(iv)技术和(v)业务。来自6个不同国家(印度,中国,埃及,德国,巴基斯坦和英国)的42个团队登记了这项任务。9个团队提交了他们的实验结果。参与者使用了各种机器学习方法,从基于功能的传统机器学习到神经网络技术。最佳性能系统的F得分值为0.90,表明基于BERT的方法优于其他机器学习技术
translated by 谷歌翻译
这项研究报告了第二个名为Urdufake@Fire2021的共享任务,以识别乌尔都语语言的假新闻检测。这是一个二进制分类问题,在其中,任务是将给定的新闻文章分为两类:(i)真实新闻,或(ii)假新闻。在这项共同的任务中,来自7个不同国家(中国,埃及,以色列,印度,墨西哥,巴基斯坦和阿联酋)的34个团队注册参加了共同的任务,18个团队提交了他们的实验结果,11个团队提交了他们的技术报告。所提出的系统基于各种基于计数的功能,并使用了不同的分类器以及神经网络体系结构。随机梯度下降(SGD)算法的表现优于其他分类器,并达到0.679 F-SCORE。
translated by 谷歌翻译
随着社交媒体平台影响的增长,滥用的影响变得越来越有影响力。自动检测威胁和滥用语言的重要性不能高估。但是,大多数现有的研究和最先进的方法都以英语为目标语言,对低资产品语言的工作有限。在本文中,我们介绍了乌尔都语的两项滥用和威胁性语言检测的任务,该任务在全球范围内拥有超过1.7亿扬声器。两者都被视为二进制分类任务,其中需要参与系统将乌尔都语中的推文分类为两个类别,即:(i)第一个任务的滥用和不滥用,以及(ii)第二次威胁和不威胁。我们提供两个手动注释的数据集,其中包含标有(i)滥用和非虐待的推文,以及(ii)威胁和无威胁。滥用数据集在火车零件中包含2400个注释的推文,测试部分中包含1100个注释的推文。威胁数据集在火车部分中包含6000个注释的推文,测试部分中包含3950个注释的推文。我们还为这两个任务提供了逻辑回归和基于BERT的基线分类器。在这项共同的任务中,来自六个国家的21个团队注册参加了参与(印度,巴基斯坦,中国,马来西亚,阿拉伯联合酋长国和台湾),有10个团队提交了子任务A的奔跑,这是虐待语言检测,9个团队提交了他们的奔跑对于正在威胁语言检测的子任务B,七个团队提交了技术报告。最佳性能系统达到子任务A的F1得分值为0.880,子任务为0.545。对于两个子任务,基于M-Bert的变压器模型都表现出最佳性能。
translated by 谷歌翻译
Covid-19影响了世界各地,尽管对爆发的错误信息的传播速度比病毒更快。错误的信息通过在线社交网络(OSN)传播,通常会误导人们遵循正确的医疗实践。特别是,OSN机器人一直是传播虚假信息和发起网络宣传的主要来源。现有工作忽略了机器人的存在,这些机器人在传播中充当催化剂,并专注于“帖子中共享的文章”而不是帖子(文本)内容中的假新闻检测。大多数关于错误信息检测的工作都使用手动标记的数据集,这些数据集很难扩展以构建其预测模型。在这项研究中,我们通过在Twitter数据集上使用经过验证的事实检查的陈述来标记数据来克服这一数据稀缺性挑战。此外,我们将文本功能与用户级功能(例如关注者计数和朋友计数)和推文级功能(例如Tweet中的提及,主题标签和URL)结合起来,以充当检测错误信息的其他指标。此外,我们分析了推文中机器人的存在,并表明机器人随着时间的流逝改变了其行为,并且在错误信息中最活跃。我们收集了1022万个Covid-19相关推文,并使用我们的注释模型来构建一个广泛的原始地面真实数据集以进行分类。我们利用各种机器学习模型来准确检测错误信息,我们的最佳分类模型达到了精度(82%),召回(96%)和假阳性率(3.58%)。此外,我们的机器人分析表明,机器人约为错误信息推文的10%。我们的方法可以实质性地暴露于虚假信息,从而改善了通过社交媒体平台传播的信息的可信度。
translated by 谷歌翻译
社交媒体的重要性在过去几十年中增加了流畅,因为它帮助人们甚至是世界上最偏远的角落保持联系。随着技术的出现,数字媒体比以往任何时候都变得更加相关和广泛使用,并且在此之后,假冒新闻和推文的流通中有一种复兴,需要立即关注。在本文中,我们描述了一种新的假新闻检测系统,可自动识别新闻项目是“真实的”或“假”,作为我们在英语挑战中的约束Covid-19假新闻检测中的工作的延伸。我们使用了一个由预先训练的模型组成的集合模型,然后是统计特征融合网络,以及通过在新闻项目或推文中的各种属性,如源,用户名处理,URL域和作者中的各种属性结合到统计特征中的各种属性。我们所提出的框架还规定了可靠的预测性不确定性以及分类任务的适当类别输出置信水平。我们在Covid-19假新闻数据集和Fakenewsnet数据集上评估了我们的结果,以显示所提出的算法在短期内容中检测假新闻以及新闻文章中的算法。我们在Covid-19数据集中获得了0.9892的最佳F1分,以及Fakenewsnet数据集的F1分数为0.9073。
translated by 谷歌翻译
自2020年初以来,Covid-19-19造成了全球重大影响。这给社会带来了很多困惑,尤其是由于错误信息通过社交媒体传播。尽管已经有几项与在社交媒体数据中发现错误信息有关的研究,但大多数研究都集中在英语数据集上。印度尼西亚的COVID-19错误信息检测的研究仍然很少。因此,通过这项研究,我们收集和注释印尼语的数据集,并通过考虑该推文的相关性来构建用于检测COVID-19错误信息的预测模型。数据集构造是由一组注释者进行的,他们标记了推文数据的相关性和错误信息。在这项研究中,我们使用印度培训预培训的语言模型提出了两阶段分类器模型,以进行推文错误信息检测任务。我们还尝试了其他几种基线模型进行文本分类。实验结果表明,对于相关性预测,BERT序列分类器的组合和用于错误信息检测的BI-LSTM的组合优于其他机器学习模型,精度为87.02%。总体而言,BERT利用率有助于大多数预测模型的更高性能。我们发布了高质量的Covid-19错误信息推文语料库,用高通道一致性表示。
translated by 谷歌翻译
The widespread of offensive content online, such as hate speech and cyber-bullying, is a global phenomenon. This has sparked interest in the artificial intelligence (AI) and natural language processing (NLP) communities, motivating the development of various systems trained to detect potentially harmful content automatically. These systems require annotated datasets to train the machine learning (ML) models. However, with a few notable exceptions, most datasets on this topic have dealt with English and a few other high-resource languages. As a result, the research in offensive language identification has been limited to these languages. This paper addresses this gap by tackling offensive language identification in Sinhala, a low-resource Indo-Aryan language spoken by over 17 million people in Sri Lanka. We introduce the Sinhala Offensive Language Dataset (SOLD) and present multiple experiments on this dataset. SOLD is a manually annotated dataset containing 10,000 posts from Twitter annotated as offensive and not offensive at both sentence-level and token-level, improving the explainability of the ML models. SOLD is the first large publicly available offensive language dataset compiled for Sinhala. We also introduce SemiSOLD, a larger dataset containing more than 145,000 Sinhala tweets, annotated following a semi-supervised approach.
translated by 谷歌翻译
社交媒体平台上的假新闻,误导和无法验证的事实宣传了不和谐,影响社会,特别是在处理像Covid-19这样的流行病时。假新闻检测的任务旨在通过将新闻项目分类为假或真实的新闻项目来解决这种错误信息的影响。在本文中,我们提出了一种新的方法,通过自动收集每个索赔的证据来改善目前的自动自动假新闻检测方法。我们的方法从Web艺术品中提取支持证据,然后选择待视为证据组的适当文本。我们在这些证据组上使用预先训练的摘要,然后使用提取的摘要作为支持证据来帮助分类任务。我们的实验,使用机器学习和基于深度学习的方法,有助于对我们的方法进行广泛的评估。结果表明,我们的方法优于假新闻检测中的最先进方法,以在为约束-2021共享任务提供的数据集中实现99.25的F1分数。我们还释放了任何进一步研究的增强数据集,我们的代码和模型。
translated by 谷歌翻译
仇恨言论等攻击性内容的广泛构成了越来越多的社会问题。 AI工具是支持在线平台的审核过程所必需的。为了评估这些识别工具,需要与不同语言的数据集进行连续实验。 HASOC轨道(仇恨语音和冒犯性内容识别)专用于为此目的开发基准数据。本文介绍了英语,印地语和马拉地赛的Hasoc Subtrack。数据集由Twitter组装。此子系统有两个子任务。任务A是为所有三种语言提供的二进制分类问题(仇恨而非冒犯)。任务B是三个课程(仇恨)仇恨言论,令人攻击和亵渎为英语和印地语提供的细粒度分类问题。总体而言,652名队伍提交了652次。任务A最佳分类算法的性能分别为Marathi,印地语和英语的0.91,0.78和0.83尺寸。此概述介绍了任务和数据开发以及详细结果。提交竞争的系统应用了各种技术。最好的表演算法主要是变压器架构的变种。
translated by 谷歌翻译
我们介绍了在Fire 2021举行的Dravidian-Codemix共享任务的结果,是代码混合文本中的Dravidian语言的情绪分析轨道。我们描述了任务,其组织和提交的系统。这种共享任务是去年的Dravidian-Codemix共享任务的延续,在火灾2020举行。今年的任务包括在令牌内部和令互相互补级别的代码混合。此外,除了泰米尔和马拉雅拉姆,还介绍。我们收到了22种Tamil-English,15个用于Malayalam-English系统的系统和15个用于Kannada-English。Tamil-English,Malayalam-English和Kannada-English的顶级系统分别获得加权平均F1分,分别为0.711,0.804和0.630分。总之,提交的质量和数量表明,在这种域中的代码混合设置和最先进状态下对Dravidian语言有很大的兴趣仍然需要更多的改进。
translated by 谷歌翻译
由于在线新闻变得越来越受欢迎和假新闻越来越普遍,审计在线新闻内容的真实性的能力变得比以往任何时候都变得更加重要。这样的任务代表了二进制分类挑战,该挑战是哪些变换器已经实现了最先进的结果。本研究使用公开可用的ISOT和组合的语料库数据集探讨了识别虚假新闻的变形金刚的能力,特别注意,调查具有不同风格,主题和级别分布的看不见的数据集的概念。此外,我们探讨了意见的新闻文章由于其主观性质和经常敏感的语言而无法归类为真实或假的,并提出了一种新颖的两步分类管道,以从模型训练和最终部署的模型训练中删除这些文章推理系统。与基线方法相比,转化概率,转换概率的F1分数增加到4.9%的F1分数增加到4.9%,进一步增加了我们的两步分类管道后进一步增加了10.1%。据我们所知,本研究是第一个调查变压器在这种背景下的概括。
translated by 谷歌翻译
假新闻的迅速增加,这对社会造成重大损害,触发了许多假新闻相关研究,包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集:(1)假新闻检测,(2)事实验证,(3)其他任务;例如,假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后,我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究,而无需重新发明轮子,从而提高了深度的假新闻研究。
translated by 谷歌翻译
社交媒体和数字技术的广泛使用促进了有关事件和活动的各种新闻和信息。尽管分享了积极的信息误导和虚假信息,但社交媒体也正在传播。在确定人类专家和自动工具手动的这种误导性信息方面,已经做出了努力。由于包含事实主张的大量信息正在网上出现,手动努力并不能很好地扩展。因此,自动确定值得支票的主张对于人类专家来说非常有用。在这项研究中,我们描述了我们参与子任务-1a:checkthat的推文(英语,荷兰语和西班牙语)的值得检查!在CLEF 2022的实验室。我们执行了标准的预处理步骤,并应用了不同的模型来确定给定文本是否值得事实检查。我们使用过度采样技术来平衡数据集和应用SVM和随机森林(RF)和TF-IDF表示。我们还将BERT多语言(BERT-M)和XLM-ROBERTA-BASE预培训模型用于实验。我们将BERT-M用于官方提交,我们的系统分别在西班牙语,荷兰语和英语中分别排名第三,第五和第十二。在进一步的实验中,我们的评估表明,变压器模型(Bert-M和XLM-Roberta-bas)在荷兰语和英语语言中优于SVM和RF,在荷兰语和英语中,对于西班牙来说,观察到不同的情况。
translated by 谷歌翻译
We present the Verifee Dataset: a novel dataset of news articles with fine-grained trustworthiness annotations. We develop a detailed methodology that assesses the texts based on their parameters encompassing editorial transparency, journalist conventions, and objective reporting while penalizing manipulative techniques. We bring aboard a diverse set of researchers from social, media, and computer sciences to overcome barriers and limited framing of this interdisciplinary problem. We collect over $10,000$ unique articles from almost $60$ Czech online news sources. These are categorized into one of the $4$ classes across the credibility spectrum we propose, raging from entirely trustworthy articles all the way to the manipulative ones. We produce detailed statistics and study trends emerging throughout the set. Lastly, we fine-tune multiple popular sequence-to-sequence language models using our dataset on the trustworthiness classification task and report the best testing F-1 score of $0.52$. We open-source the dataset, annotation methodology, and annotators' instructions in full length at https://verifee.ai/research to enable easy build-up work. We believe similar methods can help prevent disinformation and educate in the realm of media literacy.
translated by 谷歌翻译
社交媒体平台上的滥用内容的增长增加对在线用户的负面影响。对女同性恋,同性恋者,跨性别或双性恋者的恐惧,不喜欢,不适或不疑虑被定义为同性恋/转铁症。同性恋/翻译语音是一种令人反感的语言,可以总结为针对LGBT +人的仇恨语音,近年来越来越受到兴趣。在线同性恋恐惧症/ Transphobobia是一个严重的社会问题,可以使网上平台与LGBT +人有毒和不受欢迎,同时还试图消除平等,多样性和包容性。我们为在线同性恋和转鸟以及专家标记的数据集提供了新的分类分类,这将允许自动识别出具有同种异体/传递内容的数据集。我们受过教育的注释器并以综合的注释规则向他们提供,因为这是一个敏感的问题,我们以前发现未受训练的众包注释者因文化和其他偏见而诊断倡导性的群体。数据集包含15,141个注释的多语言评论。本文介绍了构建数据集,数据的定性分析和注册间协议的过程。此外,我们为数据集创建基线模型。据我们所知,我们的数据集是第一个已创建的数据集。警告:本文含有明确的同性恋,转基因症,刻板印象的明确陈述,这可能对某些读者令人痛苦。
translated by 谷歌翻译
随着移动计算和网络技术的快速增长,令人反感的语言在社交网络平台上变得更加普遍。由于本地语言的令人反感语言识别对于中等社交媒体内容至关重要,因此在本文中,我们使用三种Dravidian语言,即Malayalam,Tamil和Kannada,这些语言遭到资源。我们在EACL 2021的Fire 2020- Hasoc-DravidiancodeMix和Dravidianlangtech提供了一个评估任务,旨在提供一个比较不同方法对此问题的框架。本文介绍了数据创建,定义任务,列出参与系统,并讨论各种方法。
translated by 谷歌翻译
Hope is characterized as openness of spirit toward the future, a desire, expectation, and wish for something to happen or to be true that remarkably affects human's state of mind, emotions, behaviors, and decisions. Hope is usually associated with concepts of desired expectations and possibility/probability concerning the future. Despite its importance, hope has rarely been studied as a social media analysis task. This paper presents a hope speech dataset that classifies each tweet first into "Hope" and "Not Hope", then into three fine-grained hope categories: "Generalized Hope", "Realistic Hope", and "Unrealistic Hope" (along with "Not Hope"). English tweets in the first half of 2022 were collected to build this dataset. Furthermore, we describe our annotation process and guidelines in detail and discuss the challenges of classifying hope and the limitations of the existing hope speech detection corpora. In addition, we reported several baselines based on different learning approaches, such as traditional machine learning, deep learning, and transformers, to benchmark our dataset. We evaluated our baselines using weighted-averaged and macro-averaged F1-scores. Observations show that a strict process for annotator selection and detailed annotation guidelines enhanced the dataset's quality. This strict annotation process resulted in promising performance for simple machine learning classifiers with only bi-grams; however, binary and multiclass hope speech detection results reveal that contextual embedding models have higher performance in this dataset.
translated by 谷歌翻译
在线新闻和信息来源是方便且可访问的方法来了解当前问题。例如,超过3亿人在全球Twitter上参与帖子,这提供了传播误导信息的可能性。在许多情况下,由于虚假新闻,已经犯了暴力犯罪。这项研究介绍了Covidmis20数据集(Covid-19误导2020数据集),该数据集由2月至2020年7月收集的1,375,592条推文组成。Covidmis20可以自动更新以获取最新新闻,并在以下网址公开,网址为:HTTPPS://GITHUB.COM./github.com./github.com。/一切guy/covidmis20。这项研究是使用BI-LSTM深度学习和合奏CNN+BI-GRU进行假新闻检测进行的。结果表明,测试精度分别为92.23%和90.56%,集合CNN+BI-GRU模型始终提供了比BI-LSTM模型更高的精度。
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译