预测Twitter等社交媒体用户的地理位置已经发现了几种在健康监测,紧急监测,内容个性化和社会研究中的应用。在这项工作中,我们通过设计和评估基于加权多层的文献的新方法对该领域的研究有助于与最先进的深度学习技术相结合。探索的方法从类似的底层结构(扩展提及和/或跟随网络)出发,而是使用不同的信息处理策略,例如,通过转换和归纳算法 - RGCNS和GraphSage的信息扩散,以及节点嵌入node2vec +。然后,这些图形与注意机制结合到将用户的文本视图结合到模型中。我们评估每个方法的性能,并将它们与基线模型进行比较,在公开的推特 - 美国数据集中;我们还根据拉丁美洲的大型Twitter捕获,提供新的数据集。最后,我们的工作讨论了在不同标签定义和指标的背景下的方法中的比较的局限性和有效性。
translated by 谷歌翻译
Twitter机器人检测已成为打击错误信息,促进社交媒体节制并保持在线话语的完整性的越来越重要的任务。最先进的机器人检测方法通常利用Twitter网络的图形结构,在面对传统方法无法检测到的新型Twitter机器人时,它们表现出令人鼓舞的性能。但是,现有的Twitter机器人检测数据集很少是基于图形的,即使这些基于图形的数据集也遭受有限的数据集量表,不完整的图形结构以及低注释质量。实际上,缺乏解决这些问题的大规模基于图的Twitter机器人检测基准,严重阻碍了基于图形的机器人检测方法的开发和评估。在本文中,我们提出了Twibot-22,这是一个综合基于图的Twitter机器人检测基准,它显示了迄今为止最大的数据集,在Twitter网络上提供了多元化的实体和关系,并且与现有数据集相比具有更好的注释质量。此外,我们重新实施35代表性的Twitter机器人检测基线,并在包括Twibot-22在内的9个数据集上进行评估,以促进对模型性能和对研究进度的整体了解的公平比较。为了促进进一步的研究,我们将所有实施的代码和数据集巩固到Twibot-22评估框架中,研究人员可以在其中始终如一地评估新的模型和数据集。 Twibot-22 Twitter机器人检测基准和评估框架可在https://twibot22.github.io/上公开获得。
translated by 谷歌翻译
假新闻是制作作为真实的信息,有意欺骗读者。最近,依靠社交媒体的人民币为新闻消费的人数显着增加。由于这种快速增加,错误信息的不利影响会影响更广泛的受众。由于人们对这种欺骗性的假新闻的脆弱性增加,在早期阶段检测错误信息的可靠技术是必要的。因此,作者提出了一种基于图形的基于图形的框架社会图,其具有多头关注和发布者信息和新闻统计网络(SOMPS-Net),包括两个组件 - 社交交互图(SIG)和发布者和新闻统计信息(PNS)。假设模型在HealthStory DataSet上进行了实验,并在包括癌症,阿尔茨海默,妇产科和营养等各种医疗主题上推广。 Somps-Net明显优于其他基于现实的图表的模型,在HealthStory上实验17.1%。此外,早期检测的实验表明,Somps-Net预测的假新闻文章在其广播仅需8小时内为79%确定。因此,这项工作的贡献奠定了在早期阶段捕获多种医疗主题的假健康新闻的基础。
translated by 谷歌翻译
随着共同群众在社交媒体中的参与不断上升,政策制定者/记者在社交媒体上进行在线民意调查以了解人们在特定地点的政治倾向是越来越普遍的。这里的警告是,只有有影响力的人才能进行这样的在线民意调查并大规模伸展。此外,在这种情况下,选民的分配是不可控制的,实际上可能是有偏见的。另一方面,如果我们可以通过社交媒体解释公开可用的数据来探究用户的政治倾向,我们将能够对调查人群有可控的见解,保持低调的成本,并在没有公开数据的情况下收集公开可用的数据涉及有关人员。因此,我们引入了一个自我牵键的半监督框架,以进一步进一步实现这一目标。我们模型的优点是它既不需要大量的培训数据,也不需要存储社交网络参数。然而,它在没有带注释的数据的情况下达到了93.7 \%的精度。此外,每个课程只有几个注释的示例可以实现竞争性能。我们发现,即使在资源约束的设置中,该模型也是高效的,并且从其预测中得出的见解与手动调查结果相匹配时,将其应用于不同的现实生活中。
translated by 谷歌翻译
谣言在社交媒体的时代猖獗。谈话结构提供有价值的线索,以区分真实和假声明。然而,现有的谣言检测方法限制为用户响应的严格关系或过度简化对话结构。在这项研究中,为了减轻不相关的帖子施加的负面影响,基本上加强了用户意见的相互作用,首先将谈话线作为无向相互作用图。然后,我们提出了一种用于谣言分类的主导分层图注意网络,其提高了考虑整个社会环境的响应帖子的表示学习,并参加可以在语义上推断目标索赔的帖子。三个Twitter数据集的广泛实验表明,我们的谣言检测方法比最先进的方法实现了更好的性能,并且展示了在早期阶段检测谣言的优异容量。
translated by 谷歌翻译
鉴于社交媒体消费的增加,估计社交媒体使用者的政治倾向是一个具有挑战性且越来越紧迫的问题。我们介绍了retweet-bert,这是一个简单且可扩展的模型,以估算Twitter用户的政治倾向。 retweet-bert利用转发网络结构和用户配置文件描述中使用的语言。我们的假设源于具有类似意识形态的人的网络和语言学的模式。 retweet-bert表现出对其他最先进的基线的竞争性能,在最近的两个Twitter数据集(COVID-19数据集和2020年美国总统选举数据集)中,达到96%-97%的宏观F1。我们还执行手动验证,以验证培训数据中不在培训数据中的用户的retweet-bert的性能。最后,在Covid-19的案例研究中,我们说明了Twitter上政治回声室的存在,并表明它主要存在于正确的倾斜用户中。我们的代码是开源的,我们的数据已公开可用。
translated by 谷歌翻译
The development of social media user stance detection and bot detection methods rely heavily on large-scale and high-quality benchmarks. However, in addition to low annotation quality, existing benchmarks generally have incomplete user relationships, suppressing graph-based account detection research. To address these issues, we propose a Multi-Relational Graph-Based Twitter Account Detection Benchmark (MGTAB), the first standardized graph-based benchmark for account detection. To our knowledge, MGTAB was built based on the largest original data in the field, with over 1.55 million users and 130 million tweets. MGTAB contains 10,199 expert-annotated users and 7 types of relationships, ensuring high-quality annotation and diversified relations. In MGTAB, we extracted the 20 user property features with the greatest information gain and user tweet features as the user features. In addition, we performed a thorough evaluation of MGTAB and other public datasets. Our experiments found that graph-based approaches are generally more effective than feature-based approaches and perform better when introducing multiple relations. By analyzing experiment results, we identify effective approaches for account detection and provide potential future research directions in this field. Our benchmark and standardized evaluation procedures are freely available at: https://github.com/GraphDetec/MGTAB.
translated by 谷歌翻译
Recently, online social media has become a primary source for new information and misinformation or rumours. In the absence of an automatic rumour detection system the propagation of rumours has increased manifold leading to serious societal damages. In this work, we propose a novel method for building automatic rumour detection system by focusing on oversampling to alleviating the fundamental challenges of class imbalance in rumour detection task. Our oversampling method relies on contextualised data augmentation to generate synthetic samples for underrepresented classes in the dataset. The key idea exploits selection of tweets in a thread for augmentation which can be achieved by introducing a non-random selection criteria to focus the augmentation process on relevant tweets. Furthermore, we propose two graph neural networks(GNN) to model non-linear conversations on a thread. To enhance the tweet representations in our method we employed a custom feature selection technique based on state-of-the-art BERTweet model. Experiments of three publicly available datasets confirm that 1) our GNN models outperform the the current state-of-the-art classifiers by more than 20%(F1-score); 2) our oversampling technique increases the model performance by more than 9%;(F1-score) 3) focusing on relevant tweets for data augmentation via non-random selection criteria can further improve the results; and 4) our method has superior capabilities to detect rumours at very early stage.
translated by 谷歌翻译
本文介绍了SocialVEC,这是一种从社交网络引出社会世界知识的一般框架,并将此框架应用于Twitter。 SocialVEC了解流行账户的低维嵌入,这代表了一般兴趣的实体,基于其账户内的共同发生模式,然后是个别用户,从而在社会人口统计术语中建模实体相似性。类似于Word Embeddings,这促进了涉及文本处理的任务,我们预计社会实体嵌入将使社会味道的任务受益。我们从推特网络的样本中学习了大约200,000个受欢迎的帐户的社交嵌入,其中包括超过130万用户和他们遵循的帐户,并在两个不同的任务中评估结果嵌入。第一个任务涉及从社交媒体简介中自动推动用户的个人特征。在另一个研究中,我们利用SocialVEC嵌入来衡量Twitter中新闻来源的政治偏见。在这两种情况下,与现有实体嵌入方案相比,我们证明SocialVEC嵌入是有利的。我们将公开为社会顾客实体嵌入而挪用,以支持在Twitter中反映的社会世界知识进一步探索。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
仇恨言论是一种在线骚扰的形式,涉及使用滥用语言,并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教,性别,种族等的特定群体特征上,如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务,但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展,我们在短文中适当地增强和微调以检测某些形式的仇恨语言,例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络(RNN)分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器(OVR)分类器的输出组合在一起,并用于训练第二阶段分类器,最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较,然后对另一个数据集进行了概括研究。报道的结果表明,与当前的最新技术相比,在仇恨言论检测任务中,所提出的方案的分类质量出色。
translated by 谷歌翻译
为了解决疫苗犹豫不决,这会损害COVID-19疫苗接种运动的努力,必须了解公共疫苗接种态度并及时掌握其变化。尽管具有可靠性和可信赖性,但基于调查的传统态度收集是耗时且昂贵的,无法遵循疫苗接种态度的快速发展。我们利用社交媒体上的文本帖子通过提出深入学习框架来实时提取和跟踪用户的疫苗接种立场。为了解决与疫苗相关话语中常用的讽刺和讽刺性的语言特征的影响,我们将用户社交网络邻居的最新帖子集成到框架中,以帮助检测用户的真实态度。根据我们从Twitter的注释数据集,与最新的仅文本模型相比,从我们框架实例化的模型可以提高态度提取的性能高达23%。使用此框架,我们成功地验证了使用社交媒体跟踪现实生活中疫苗接种态度的演变的可行性。我们进一步显示了对我们的框架的一种实际用途,它可以通过从社交媒体中感知到的信息来预测用户疫苗犹豫的变化的可能性。
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
人口级社会事件,如民事骚乱和犯罪,往往对我们的日常生活产生重大影响。预测此类事件对于决策和资源分配非常重要。由于缺乏关于事件发生的真实原因和潜在机制的知识,事件预测传统上具有挑战性。近年来,由于两个主要原因,研究事件预测研究取得了重大进展:(1)机器学习和深度学习算法的开发和(2)社交媒体,新闻来源,博客,经济等公共数据的可访问性指标和其他元数据源。软件/硬件技术中的数据的爆炸性增长导致了社会事件研究中的深度学习技巧的应用。本文致力于提供社会事件预测的深层学习技术的系统和全面概述。我们专注于两个社会事件的域名:\ Texit {Civil unrest}和\ texit {犯罪}。我们首先介绍事件预测问题如何作为机器学习预测任务制定。然后,我们总结了这些问题的数据资源,传统方法和最近的深度学习模型的发展。最后,我们讨论了社会事件预测中的挑战,并提出了一些有希望的未来研究方向。
translated by 谷歌翻译
Short text classification is a crucial and challenging aspect of Natural Language Processing. For this reason, there are numerous highly specialized short text classifiers. However, in recent short text research, State of the Art (SOTA) methods for traditional text classification, particularly the pure use of Transformers, have been unexploited. In this work, we examine the performance of a variety of short text classifiers as well as the top performing traditional text classifier. We further investigate the effects on two new real-world short text datasets in an effort to address the issue of becoming overly dependent on benchmark datasets with a limited number of characteristics. Our experiments unambiguously demonstrate that Transformers achieve SOTA accuracy on short text classification tasks, raising the question of whether specialized short text techniques are necessary.
translated by 谷歌翻译
检测假新闻对于确保信息的真实性和维持新闻生态系统的可靠性至关重要。最近,由于最近的社交媒体和伪造的内容生成技术(例如Deep Fake)的扩散,假新闻内容的增加了。假新闻检测的大多数现有方式都集中在基于内容的方法上。但是,这些技术中的大多数无法处理生成模型生产的超现实合成媒体。我们最近的研究发现,真实和虚假新闻的传播特征是可以区分的,无论其方式如何。在这方面,我们已经根据社会环境调查了辅助信息,以检测假新闻。本文通过基于混合图神经网络的方法分析了假新闻检测的社会背景。该混合模型基于将图形神经网络集成到新闻内容上的新闻和BI定向编码器表示的传播中,以了解文本功能。因此,这种提出的方​​法可以学习内容以及上下文特征,因此能够在Politifact上以F1分别为0.91和0.93的基线模型和八西八角数据集的基线模型,分别超过了基线模型,分别在八西八学数据集中胜过0.93
translated by 谷歌翻译
预期观众对某些文本的反应是社会的几个方面不可或缺的,包括政治,研究和商业行业。情感分析(SA)是一种有用的自然语言处理(NLP)技术,它利用词汇/统计和深度学习方法来确定不同尺寸的文本是否表现出正面,负面或中立的情绪。但是,目前缺乏工具来分析独立文本的组并从整体中提取主要情感。因此,当前的论文提出了一种新型算法,称为多层推文分析仪(MLTA),该算法使用多层网络(MLN)以图形方式对社交媒体文本进行了图形方式,以便更好地编码跨越独立的推文集的关系。与其他表示方法相比,图结构能够捕获复杂生态系统中有意义的关系。最先进的图形神经网络(GNN)用于从Tweet-MLN中提取信息,并根据提取的图形特征进行预测。结果表明,与标准的正面,负或中性相比,MLTA不仅可以从更大的可能情绪中预测,从而提供了更准确的情感,还允许对Twitter数据进行准确的组级预测。
translated by 谷歌翻译
推文是在线社交媒体中最简洁的交流形式,其中一条推文有可能制作或打破对话的话语。在线仇恨言论比以往任何时候都更容易访问,并且扼杀其传播对于社交媒体公司和用户进行友好沟通至关重要。除了最近的一条推文分类,无论导致这一点的推文线程/上下文如何,大多数研究都集中在对单个推文进行分类。遏制仇恨言论的经典方法之一是在仇恨言论邮寄后采用反应性策略。事实上的事实策略导致忽略了微妙的帖子,这些帖子并未显示出自己激发仇恨言论的潜力,但可能会在随后在帖子的答复中随后的讨论中进行预言。在本文中,我们提出了Dragnet ++,该论文旨在预测推文可以通过其未来的回复链引入的仇恨强度。它使用推文线程的语义和传播结构来最大化导致每个后续推文的仇恨强度的上下文信息。我们探索了三个公开可用的Twitter数据集 - 反种族主义包含有关社交媒体讨论在美国政治和COVID-19的背景期间关于种族主义言论的回答推文;反社会介绍了一个关于反社会行为的19000万推文的数据集;和反亚洲介绍了基于19日大流行期间的反亚洲行为的Twitter数据集。所有策划的数据集都包含Tweet线程的结构图信息。我们表明,Dragnet ++的表现大大优于所有最先进的基线。它比人相关系数的最佳基线降低了11 \%的利润率,而反种族主义数据集则在RMSE上降低了25 \%,而其他两个数据集则具有相似的性能。
translated by 谷歌翻译
通过仇恨语音检测,民意调查预测,参与预测和协调宣传检测,在社交媒体文本中检测和标记姿势强烈激励。今天的最佳神经姿势探测器需要大量的培训数据,这难以策划,鉴于社交媒体文本的快速变化和用户撰写的问题。社交网络的同性恋特性提供了强大的粗粒式用户级姿态信号。但是,发动机级姿势检测的半监督方法未能正确地利用同一性。鉴于此,我们呈现出新的半监督姿态探测器。沙子从很少有标记的推文开始。它构建了促进推文的多个深度特色视图。它还使用来自社交网络的远程监督信号,为组件学习者提供代理丢失信号。我们准备了两个新的推文数据集,其中包括来自两个人口统计数据(美国和印度)的政治上有关的236,000多次推文,以超过87,000名用户,他们的追随者 - 追随图,以及由语言学家注释的超过8,000名推文。 Sands在美国(印度)的数据集上实现了0.55(0.49)的宏观F1得分,表现出17个基线(包括沙子的变体),特别是对于少数群体立场标签和嘈杂的文本。砂岩的许多消融实验解开了文本和网络传播的姿态信号的动态。
translated by 谷歌翻译
现在,民间传说要了解在线社交网络(OSN)平台中用户的活动模式,需要查看他的朋友或他所跟随的朋友。普遍的看法是,这些朋友会对用户产生影响,从而影响他的决定是否重新分享内容。呈现这种直觉,开发了各种模型,以预测信息在OSN中的传播方式,类似于感染在人群中的传播方式。在本文中,我们重新审视了这个世界观点并得出新的结论。给定一组用户$ v $,我们研究了预测用户$ u \ in v $中是否会在以下时间窗口中通过v $中的某些$ v \在v $中重新分享内容的任务。 $ v $在上一个时间窗口中。我们为此任务设计了几种算法,从仅学习$ u $ u $的条件概率分布的简单贪婪算法,忽略了$ v $的其余部分,到卷积神经网络基于卷积的神经网络算法,该算法接收了所有$ $的活动的活动v $,但没有明确收到社交链接结构。我们在Twitter收集的四个数据集上测试了我们的算法,每个数据集围绕2020年的另一个流行主题进行了旋转。在四个数据集中,最佳性能,平均F1分数为0.86,是通过卷积神经网络实现的。简单,社交链接无知的算法的平均F1得分为0.78。
translated by 谷歌翻译