智能论文笔记

Anger Breeds Controversy: Analyzing Controversy and Emotions on Reddit

Kai Chen , Zihao He , Rong-Ching Chang , Jonathan May , Kristina Lerman

分类：自然语言处理

2022-12-01

Emotions play an important role in interpersonal interactions and social conflict, yet their function in the development of controversy and disagreement in online conversations has not been explored. To address this gap, we study controversy on Reddit, a popular network of online discussion forums. We collect discussions from a wide variety of topical forums and use emotion detection to recognize a range of emotions from text, including anger, fear, joy, admiration, etc. Our study has three main findings. First, controversial comments express more anger and less admiration, joy and optimism than non-controversial comments. Second, controversial comments affect emotions of downstream comments in a discussion, usually resulting in long-term increase in anger and a decrease in positive emotions, although the magnitude and direction of emotional change depends on the forum. Finally, we show that emotions help better predict which comments will become controversial. Understanding emotional dynamics of online discussions can help communities to better manage conversations.

translated by 谷歌翻译

Detecing Anti-Vaccine Users on Twitter

Matheus Schmitz , Goran Murić , Keith Burghardt

分类：自然语言处理

2021-10-21

最近受到在线叙述驱动的疫苗犹豫会大大降低了疫苗接种策略的功效，例如Covid-19。尽管医学界对可用疫苗的安全性和有效性达成了广泛的共识，但许多社交媒体使用者仍被有关疫苗的虚假信息淹没，并且柔和或不愿意接种疫苗。这项研究的目的是通过开发能够自动识别负责传播反疫苗叙事的用户的系统来更好地理解反疫苗情绪。我们引入了一个公开可用的Python软件包，能够分析Twitter配置文件，以评估该个人资料将来分享反疫苗情绪的可能性。该软件包是使用文本嵌入方法，神经网络和自动数据集生成的，并接受了数百万条推文培训。我们发现，该模型可以准确地检测出抗疫苗用户，直到他们推文抗Vaccine主题标签或关键字。我们还展示了文本分析如何通过检测Twitter和常规用户之间的抗疫苗传播器之间的道德和情感差异来帮助我们理解反疫苗讨论的示例。我们的结果将帮助研究人员和政策制定者了解用户如何成为反疫苗感以及他们在Twitter上讨论的内容。政策制定者可以利用此信息进行更好的针对性的运动，以揭露有害的反疫苗接种神话。

translated by 谷歌翻译

What are People Talking about in #BlackLivesMatter and #StopAsianHate? Exploring and Categorizing Twitter Topics Emerging in Online Social Movements through the Latent Dirichlet Allocation Model

Xin Tong , Yixuan Li , Jiayi Li , Rongqi Bei , Luyao Zhang

分类：自然语言处理 | 机器学习

2022-05-29

少数群体一直在使用社交媒体来组织社会运动，从而产生深远的社会影响。黑人生活问题（BLM）和停止亚洲仇恨（SAH）是两个成功的社会运动，在Twitter上蔓延开来，促进了抗议活动和活动，反对种族主义，并提高公众对少数群体面临的其他社会挑战的认识。但是，以前的研究主要对与用户的推文或访谈进行了定性分析，这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格，量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此，在这项研究中，我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了（1）潜在的DIRICHLET分配模型，以了解顶级高级单词和主题以及（2）开放编码分析，以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文，并比较了它们的主题。我们的发现表明，这些推文在深度上讨论了各种有影响力的话题，社会正义，社会运动和情感情感都是两种运动的共同主题，尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析，以及有关AI，伦理和社会相互作用的文献。

translated by 谷歌翻译

Multi-aspect Multilingual and Cross-lingual Parliamentary Speech Analysis

Kristian Miok , Encarnacion Hidalgo-Tenorio , Petya Osenova , Miguel-Angel Benitez-Castro , Marko Robnik-Sikonja

分类：自然语言处理

2022-07-03

对于政治和社会科学以及语言学和自然语言处理（NLP），它们都很有趣。退出研究涵盖了各个议会内的讨论。相比之下，我们将高级NLP方法应用于2017年至2020年之间的六个国家议会（保加利亚，捷克语，法语，斯洛文尼亚，西班牙语和英国）的联合和比较分析，其笔录是Parlamint数据集收集的一部分。使用统一的方法，我们分析了讨论，情感和情感的主题。我们评估说话者的年龄，性别和政治取向是否可以从演讲中检测到。结果表明，分析国家之间的一些共同点和许多令人惊讶的差异。

translated by 谷歌翻译

A Survey on Multimodal Disinformation Detection

Firoj Alam , Stefano Cresci , Tanmoy Chakraborty , Fabrizio Silvestri , Dimiter Dimitrov , Giovanni Da San Martino , Shaden Shaar , Hamed Firooz , Preslav Nakov

分类：人工智能 | 自然语言处理 | 机器学习

2021-03-13

近年来，在网上见证了令人反感的内容的泛滥，例如假新闻，宣传，错误信息和虚假信息。虽然最初这主要是关于文本内容，但随着时间的流逝，图像和视频越来越受欢迎，因为它们更容易消费，吸引更多的关注并比文本更广泛地传播。结果，研究人员开始利用不同的方式及其组合来解决在线多模式进攻内容。在这项研究中，我们提供了有关最新的多模式虚假信息检测的调查，该检测涵盖了各种模式组合：文本，图像，语音，视频，社交媒体网络结构和时间信息。此外，尽管有些研究集中于事实，但其他研究调查了内容的有害性。尽管虚假信息定义中的这两个组成部分（i）事实和（ii）有害性同样重要，但通常会孤立地研究它们。因此，我们主张在同一框架中考虑多种方式以及事实和有害性来解决虚假信息检测。最后，我们讨论当前的挑战和未来的研究方向

translated by 谷歌翻译

SMTCE: A Social Media Text Classification Evaluation Benchmark and BERTology Models for Vietnamese

Luan Thanh Nguyen , Kiet Van Nguyen , Ngan Luu-Thuy Nguyen

分类：自然语言处理

2022-09-21

文本分类是具有各种有趣应用程序的典型自然语言处理或计算语言学任务。随着社交媒体平台上的用户数量的增加，数据加速促进了有关社交媒体文本分类（SMTC）或社交媒体文本挖掘的新兴研究。与英语相比，越南人是低资源语言之一，仍然没有集中精力并彻底利用。受胶水成功的启发，我们介绍了社交媒体文本分类评估（SMTCE）基准，作为各种SMTC任务的数据集和模型的集合。借助拟议的基准，我们实施和分析了各种基于BERT的模型（Mbert，XLM-R和Distilmbert）和基于单语的BERT模型（Phobert，Vibert，Vibert，Velectra和Vibert4news）的有效性SMTCE基准。单语模型优于多语言模型，并实现所有文本分类任务的最新结果。它提供了基于基准的多语言和单语言模型的客观评估，该模型将使越南语言中有关贝尔特兰的未来研究有利。

translated by 谷歌翻译

Multimodal Dual Emotion with Fusion of Visual Sentiment for Rumor Detection

Ge Wang , Li Tan , Ziliang Shang , He Liu

分类：计算机视觉

2022-04-25

近年来，谣言对社会产生了毁灭性的影响，这使谣言发现成为重大挑战。但是，关于谣言检测的研究忽略了谣言内容中图像的强烈情绪。本文验证图像情绪是否提高了谣言检测效率。提出了由视觉和文字情绪组成的谣言检测中的多模式双重情感特征。据我们所知，这是第一个在谣言检测中使用视觉情感的研究。实际数据集上的实验验证了所提出的功能是否优于最先进的情感功能，并且可以在谣言探测器中扩展，同时提高其性能。

translated by 谷歌翻译

The Moral Foundations Reddit Corpus

Jackson Trager , Alireza S. Ziabari , Aida Mostafazadeh Davani , Preni Golazazian , Farzan Karimi-Malekabadi , Ali Omrani , Zhihe Li , Brendan Kennedy , Nils Karl Reimer , Melissa Reyes

分类：自然语言处理 | 机器学习

2022-08-10

道德框架和情感会影响各种在线和离线行为，包括捐赠，亲环境行动，政治参与，甚至参与暴力抗议活动。自然语言处理中的各种计算方法（NLP）已被用来从文本数据中检测道德情绪，但是为了在此类主观任务中取得更好的性能，需要大量的手工注销训练数据。事实证明，以前对道德情绪注释的语料库已被证明是有价值的，并且在NLP和整个社会科学中都产生了新的见解，但仅限于Twitter。为了促进我们对道德修辞的作用的理解，我们介绍了道德基础Reddit语料库，收集了16,123个reddit评论，这些评论已从12个不同的子雷迪维特策划，由至少三个训练有素的注释者手工注释，用于8种道德情绪（即护理，相称性，平等，纯洁，权威，忠诚，瘦道，隐含/明确的道德）基于更新的道德基础理论（MFT）框架。我们使用一系列方法来为这种新的语料库（例如跨域分类和知识转移）提供基线道德句子分类结果。

translated by 谷歌翻译

Incorporating Emotions into Health Mention Classification Task on Social Media

Olanrewaju Tahir Aduragba , Jialin Yu , Alexandra I. Cristea

分类：自然语言处理 | 机器学习

2022-12-09

The health mention classification (HMC) task is the process of identifying and classifying mentions of health-related concepts in text. This can be useful for identifying and tracking the spread of diseases through social media posts. However, this is a non-trivial task. Here we build on recent studies suggesting that using emotional information may improve upon this task. Our study results in a framework for health mention classification that incorporates affective features. We present two methods, an intermediate task fine-tuning approach (implicit) and a multi-feature fusion approach (explicit) to incorporate emotions into our target task of HMC. We evaluated our approach on 5 HMC-related datasets from different social media platforms including three from Twitter, one from Reddit and another from a combination of social media sources. Extensive experiments demonstrate that our approach results in statistically significant performance gains on HMC tasks. By using the multi-feature fusion approach, we achieve at least a 3% improvement in F1 score over BERT baselines across all datasets. We also show that considering only negative emotions does not significantly affect performance on the HMC task. Additionally, our results indicate that HMC models infused with emotional knowledge are an effective alternative, especially when other HMC datasets are unavailable for domain-specific fine-tuning. The source code for our models is freely available at https://github.com/tahirlanre/Emotion_PHM.

translated by 谷歌翻译

Multi-Task Learning with Sentiment, Emotion, and Target Detection to Recognize Hate Speech and Offensive Language

Flor Miriam Plaza-del-Arco , Sercan Halat , Sebastian Padó , Roman Klinger

分类：自然语言处理

2021-09-21

对仇恨言论和冒犯性语言（HOF）的认可通常是作为一项分类任务，以决定文本是否包含HOF。我们研究HOF检测是否可以通过考虑HOF和类似概念之间的关系来获利：（a）HOF与情感分析有关，因为仇恨言论通常是负面陈述并表达了负面意见；（b）这与情绪分析有关，因为表达的仇恨指向作者经历（或假装体验）愤怒的同时经历（或旨在体验）恐惧。（c）最后，HOF的一个构成要素是提及目标人或群体。在此基础上，我们假设HOF检测在与这些概念共同建模时，在多任务学习设置中进行了改进。我们将实验基于这些概念的现有数据集（情感，情感，HOF的目标），并在Hasoc Fire 2021英语子任务1A中评估我们的模型作为参与者（作为IMS-Sinai团队）。基于模型选择实验，我们考虑了多个可用的资源和共享任务的提交，我们发现人群情绪语料库，Semeval 2016年情感语料库和犯罪2019年目标检测数据的组合导致F1 =。 79在基于BERT的多任务多任务学习模型中，与Plain Bert的.7895相比。在HASOC 2019测试数据上，该结果更为巨大，而F1中的增加2pp和召回大幅增加。在两个数据集（2019，2021）中，HOF类的召回量尤其增加（2019年数据的6pp和2021数据的3pp），表明MTL具有情感，情感和目标识别是适合的方法可能部署在社交媒体平台中的预警系统。

translated by 谷歌翻译

"Dummy Grandpa, do you know anything?": Identifying and Characterizing Ad hominem Fallacy Usage in the Wild

Utkarsh Patel , Animesh Mukherjee , Mainack Mondal

分类：自然语言处理

2022-09-05

今天，参加在线论坛上的讨论非常普遍，这些讨论已经开始对在线用户的整体意见产生强大的影响。 Naturally, twisting the flow of the argument can have a strong impact on the minds of naive users, which in the long run might have socio-political ramifications, for example, winning an election or spreading targeted misinformation.因此，这些平台可能非常容易受到恶意玩家的影响，他们可能会单独采取行动，也可能是繁殖谬误的争论，并动机促进公众舆论。 AD HOMINEM论点是此类谬论中最有效的形式之一。尽管是一个简单的谬论，但它足够有效，可以在离线世界中进行公开辩论，并且可以用作阻止诽谤反对派声音的先驱。在这项工作中，我们迈出了第一步，以阐明野外Ad Hominem谬论的使用。首先，我们建立了一个具有很高准确性的强大AD HOMINEM探测器（F1超过83％，对先前的工作显示出显着改善），即使对于注释的实例构成很小一部分的数据集也是如此。然后，我们在从在线辩论论坛中收集的265k参数（创建者）中使用了我们的检测器。我们的众包调查验证了我们对创建ebate数据的野外预测（94％与手动注释相匹配）。我们的分析表明，令人惊讶的31.23％的创建ebate内容包含AD HOMINEM谬论，并且一群高度活跃的用户的同类发表了更大的AD AD本人，以抑制相反的观点。然后，我们的时间分析表明，自2016年美国总统大选以来，AD HOMINEM论点的使用量显着增加，不仅是政治等主题，而且对于科学和法律。最后，我们讨论了我们的工作的重要意义，以检测和防御AD HOMINEM谬论。

translated by 谷歌翻译

Characterizing Multi-Domain False News and Underlying User Effects on Chinese Weibo

Qiang Sheng , Juan Cao , H. Russell Bernard , Kai Shu , Jintao Li , Huan Liu

分类：自然语言处理

2022-05-06

在过去几年中，社交媒体上传播的错误消息激增，并导致了现实世界中的多种威胁。尽管有关于特定领域的虚假新闻（例如政治或医疗保健）的研究，但比较跨领域的虚假新闻几乎没有工作。在本文中，我们调查了2009年至2019年中国最大的Twitter式社交媒体平台的微博上的九个领域的虚假新闻。新收集的数据包含44,728个帖子，由40,215个用户发布，并重新发布了。 340万次。基于多域数据集的分布和传播，我们观察到，在诸如健康和医学之类的日常生活的领域中，虚假的消息比政治等其他领域的帖子更有效，但有效地传播的帖子较少，而政治虚假新闻具有最有效的扩散能力。关于微博上广泛散布的虚假新闻帖子与某些类型的用户（按性别，年龄等。此外，这些帖子都引起了重新播放的强烈情绪，并随着False-News启动器的积极参与而进一步扩散。我们的发现有可能在可疑新闻发现，真实性预测以及显示和解释中帮助设计错误的新闻检测系统。微博上的发现与现有作品的发现表明了细微的模式，这表明需要对来自不同平台，国家或语言的数据进行更多研究，以解决全球错误新闻。代码和新的匿名数据集可在https://github.com/ictmcg/characterizing-weibo-multi-domain-false-news上找到。

translated by 谷歌翻译

Enriching Abusive Language Detection with Community Context

Jana Kurrek , Haji Mohammad Saleem , Derek Ruths

分类：自然语言处理

2022-06-16

贬值表达的使用可以是良性或积极赋予能力的。当滥用检测模型将这些表达式错误分类为贬义时，它们无意中审查了边缘化群体进行的生产性对话。参与非主导观点的一种方法是添加围绕对话的上下文。先前的研究利用了用户和线程级别的功能，但它经常忽略了发生生产性对话的空间。我们的论文强调了社区环境如何改善滥用语言检测的分类结果。我们为此做出了两个主要贡献。首先，我们证明，在线社区以他们对虐待受害者的支持的性质聚集。其次，我们确定社区环境如何提高准确性并降低最先进的滥用语言分类器的假阳性率。这些发现暗示了在滥用语言研究中的上下文感知模型的有希望的方向。

translated by 谷歌翻译

Quantifying Gender Biases Towards Politicians on Reddit

Sara Marjanovic , Karolina Stańczak , Isabelle Augenstein

分类：自然语言处理

2021-12-22

尽管试图提高政治性别平等，但全球努力仍在努力确保女性的同等代表。这很可能与对权威妇女的性别偏见有关。在这项工作中，我们介绍了在线政治讨论中出现的性别偏见的全面研究。为此，我们在有关男性和女性政客的对话中收集了1000万条有关Reddit的评论，这使得对自动性别偏见检测进行了详尽的研究。我们不仅讨论了厌恶女性的语言，还解决了其他偏见的表现，例如以看似积极的情绪和主导地位归因于女性政客或描述符归因的差异的形式的仁慈性别歧视。最后，我们对调查语言和语言外暗示的政客进行了多方面的性别偏见研究。我们评估了5种不同类型的性别偏见，评估社交媒体语言和话语中存在的覆盖范围，组合，名义，感性和词汇偏见。总体而言，我们发现，与以前的研究相反，覆盖范围和情感偏见表明对女性政客的公共兴趣平等。名义和词汇分析的结果并没有明显的敌对或仁慈的性别歧视，这表明这种兴趣不像男性政客那样专业或尊重。女性政客通常以其名字命名，并与他们的身体，衣服或家庭有关。这是一种与男性相似的治疗方法。在现在被禁止的极右翼子列表中，这种差异最大，尽管性别偏见的差异仍然出现在右和左倾的子列表中。我们将策划的数据集释放给公众以进行未来研究。

translated by 谷歌翻译

A Survey on Sentiment and Emotion Analysis for Computational Literary Studies

Evgeny Kim , Roman Klinger

分类：自然语言处理

2018-08-09

情感是引人入胜的叙事的关键部分：文学向我们讲述了有目标，欲望，激情和意图的人。情绪分析是情感分析更广泛，更大的领域的一部分，并且在文学研究中受到越来越多的关注。过去，文学的情感维度主要在文学诠释学的背景下进行了研究。但是，随着被称为数字人文科学（DH）的研究领域的出现，在文学背景下对情绪的一些研究已经发生了计算转折。鉴于DH仍被形成为一个领域的事实，这一研究方向可以相对较新。在这项调查中，我们概述了现有的情感分析研究机构，以适用于文献。所评论的研究涉及各种主题，包括跟踪情节发展的巨大变化，对文学文本的网络分析以及了解文本的情感以及其他主题。

translated by 谷歌翻译

Contextual-Lexicon Approach for Abusive Language Detection

Francielle Vargas , Fabiana Rodrigues de Góes , Isabelle Carvalho , Fabrício Benevenuto , Thiago Alexandre Salgueiro Pardo

分类：自然语言处理

2021-04-25

Since a lexicon-based approach is more elegant scientifically, explaining the solution components and being easier to generalize to other applications, this paper provides a new approach for offensive language and hate speech detection on social media. Our approach embodies a lexicon of implicit and explicit offensive and swearing expressions annotated with contextual information. Due to the severity of the social media abusive comments in Brazil, and the lack of research in Portuguese, Brazilian Portuguese is the language used to validate the models. Nevertheless, our method may be applied to any other language. The conducted experiments show the effectiveness of the proposed approach, outperforming the current baseline methods for the Portuguese language.

translated by 谷歌翻译

Dataset of Fake News Detection and Fact Verification: A Survey

Taichi Murayama

分类：机器学习 | 自然语言处理

2021-11-05

假新闻的迅速增加，这对社会造成重大损害，触发了许多假新闻相关研究，包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集：（1）假新闻检测，（2）事实验证，（3）其他任务;例如，假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后，我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究，而无需重新发明轮子，从而提高了深度的假新闻研究。

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

Slapping Cats, Bopping Heads, and Oreo Shakes: Understanding Indicators of Virality in TikTok Short Videos

Chen Ling , Jeremy Blackburn , Emiliano De Cristofaro , Gianluca Stringhini

分类：计算机视觉

2021-11-03

短片已成为年轻一代使用的领先媒体之一，以便在线表达自己，从而塑造在线文化中的驱动力。在这方面，Tiktok已成为往往首先发布病毒视频的平台。在本文中，我们研究了在Tiktok上发布的短片内容有助于他们的病毒。我们应用一种混合方法方法来开发码本并识别重要的病毒功能。我们这样做是如此vis- \'a-vis三个研究假设;即：1）视频内容，2）Tiktok的推荐算法，以及3）视频创建者的普及有助于病毒性。我们收集并标记400个Tiktok视频和火车分类器的数据集，以帮助我们确定最多影响景象的功能。虽然追随者的数量是最强大的预测因子，但特写和中射尺度也起到重要作用。因此视频的寿命，文本的存在以及观点。我们的研究突出了与非病毒Tiktok视频区分病毒的特征，奠定了制定额外方法来创建更多聘用的在线内容，并主动地确定可能达到大量受众的风险内容。

translated by 谷歌翻译

Computational Sarcasm Analysis on Social Media: A Systematic Review

Faria Binte Kader , Nafisa Hossain Nujat , Tasmia Binte Sogir , Mohsinul Kabir , Hasan Mahmud , Kamrul Hasan

分类：自然语言处理

2022-09-13

讽刺可以被定义为说或写讽刺与一个人真正想表达的相反，通常是为了侮辱，刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂，因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年，但最近已经取得了一些重大进步，包括在多模式环境中采用了无监督的预训练的预训练的变压器，并整合了环境以识别讽刺。在这项研究中，我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集，方法，趋势，问题，挑战和任务，这些数据集，趋势，问题，挑战和任务是无法检测到的。我们的研究提供了讽刺数据集，讽刺特征及其提取方法以及各种方法的性能分析，这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。

translated by 谷歌翻译