检测到推特上的上下文介质(例如“MISCALTIONED”图像)通常需要检测两种模式之间的不一致。本文介绍了我们对DARPA语义取证(SEMAFOR)程序的图像文本不一致检测挑战的方法。首先,我们收集Twitter-Comms,一个大型多模式数据集,具有884K推文,与气候变化,Covid-19和军用车辆的主题相关。我们根据最先进的剪辑模型培训我们的方法,利用自动生成随机和硬质否定。然后在隐藏的人生成的评估集上测试我们的方法。我们在节目排行榜上实现了最佳结果,在零射剪辑基线上具有11%的检测改进。
translated by 谷歌翻译
自2020年初以来,Covid-19-19造成了全球重大影响。这给社会带来了很多困惑,尤其是由于错误信息通过社交媒体传播。尽管已经有几项与在社交媒体数据中发现错误信息有关的研究,但大多数研究都集中在英语数据集上。印度尼西亚的COVID-19错误信息检测的研究仍然很少。因此,通过这项研究,我们收集和注释印尼语的数据集,并通过考虑该推文的相关性来构建用于检测COVID-19错误信息的预测模型。数据集构造是由一组注释者进行的,他们标记了推文数据的相关性和错误信息。在这项研究中,我们使用印度培训预培训的语言模型提出了两阶段分类器模型,以进行推文错误信息检测任务。我们还尝试了其他几种基线模型进行文本分类。实验结果表明,对于相关性预测,BERT序列分类器的组合和用于错误信息检测的BI-LSTM的组合优于其他机器学习模型,精度为87.02%。总体而言,BERT利用率有助于大多数预测模型的更高性能。我们发布了高质量的Covid-19错误信息推文语料库,用高通道一致性表示。
translated by 谷歌翻译
尽管政府的信息运动和谁努力,但Covid-19疫苗犹豫不决是广泛的。其背后的原因之一是疫苗虚假信息在社交媒体中广泛传播。特别是,最近的调查确定,疫苗的虚假信息正在影响COVID-19-19疫苗接种的负面信任。同时,由于大规模的社交媒体,事实检查者正在努力检测和跟踪疫苗虚假信息。为了帮助事实检查员在线监视疫苗叙事,本文研究了一项新的疫苗叙事分类任务,该任务将Covid-19疫苗主张的疫苗索赔分为七个类别之一。遵循数据增强方法,我们首先为这项新的分类任务构建了一个新颖的数据集,重点是少数群体。我们还利用事实检查器注释的数据。该论文还提出了神经疫苗叙事分类器,在交叉验证下达到84%的精度。分类器可公开用于研究人员和记者。
translated by 谷歌翻译
社交媒体平台主持了有关每天出现的各种主题的讨论。理解所有内容并将其组织成类别是一项艰巨的任务。处理此问题的一种常见方法是依靠主题建模,但是使用此技术发现的主题很难解释,并且从语料库到语料库可能会有所不同。在本文中,我们提出了基于推文主题分类的新任务,并发布两个相关的数据集。鉴于涵盖社交媒体中最重要的讨论点的广泛主题,我们提供了最近时间段的培训和测试数据,可用于评估推文分类模型。此外,我们在任务上对当前的通用和领域特定语言模型进行定量评估和分析,这为任务的挑战和性质提供了更多见解。
translated by 谷歌翻译
随着19日的流行,对亚洲人,尤其是中国人的仇恨正在加剧。迫切需要有效地检测并防止对亚洲人的仇恨言论。在这项工作中,我们首先创建了Covid Hate-2022,这是一个带注释的数据集,其中包括2022年2月上旬提取的2,025条带注释的推文,根据特定标准进行了标签,我们介绍了仇恨和非讨厌推文的全面收集数据集。其次,我们根据相关数据集微调BERT模型,并演示与推文“清洁”有关的几种策略。第三,我们以各种以模型为中心和以数据为中心的方法调查了高级微调策略的性能,并且我们表明,这两种策略通常都改善了性能,而以数据为中心的策略则胜过其他策略,并且证明了可行性和有效性相关任务中以数据为中心的方法。
translated by 谷歌翻译
在本文中,我们介绍了TweetNLP,这是社交媒体中自然语言处理(NLP)的集成平台。TweetNLP支持一套多样化的NLP任务,包括诸如情感分析和命名实体识别的通用重点领域,以及社交媒体特定的任务,例如表情符号预测和进攻性语言识别。特定于任务的系统由专门用于社交媒体文本的合理大小的基于变压器的语言模型(尤其是Twitter)提供动力,无需专用硬件或云服务即可运行。TweetNLP的主要贡献是:(1)使用适合社会领域的各种特定于任务的模型,用于支持社交媒体分析的现代工具包的集成python库;(2)使用我们的模型进行无编码实验的交互式在线演示;(3)涵盖各种典型社交媒体应用的教程。
translated by 谷歌翻译
随着社交媒体平台从基于文本的论坛发展为多模式环境,社交媒体中错误信息的性质也正在发生相应的变化。利用这样一个事实,即图像和视频等视觉方式对用户更有利和吸引力,并且有时会毫不粗糙地浏览文本内容,否则传播器最近针对模式之间的上下文相关性,例如文本和图像。因此,许多研究工作已经发展为自动技术,用于检测基于Web的媒体中可能的跨模式不一致。在这项工作中,我们旨在分析,分类和确定现有方法,除了面临的挑战和缺点外,还要在多模式错误信息检测领域中发掘新的机会。
translated by 谷歌翻译
Current research on users` perspectives of cyber security and privacy related to traditional and smart devices at home is very active, but the focus is often more on specific modern devices such as mobile and smart IoT devices in a home context. In addition, most were based on smaller-scale empirical studies such as online surveys and interviews. We endeavour to fill these research gaps by conducting a larger-scale study based on a real-world dataset of 413,985 tweets posted by non-expert users on Twitter in six months of three consecutive years (January and February in 2019, 2020 and 2021). Two machine learning-based classifiers were developed to identify the 413,985 tweets. We analysed this dataset to understand non-expert users` cyber security and privacy perspectives, including the yearly trend and the impact of the COVID-19 pandemic. We applied topic modelling, sentiment analysis and qualitative analysis of selected tweets in the dataset, leading to various interesting findings. For instance, we observed a 54% increase in non-expert users` tweets on cyber security and/or privacy related topics in 2021, compared to before the start of global COVID-19 lockdowns (January 2019 to February 2020). We also observed an increased level of help-seeking tweets during the COVID-19 pandemic. Our analysis revealed a diverse range of topics discussed by non-expert users across the three years, including VPNs, Wi-Fi, smartphones, laptops, smart home devices, financial security, and security and privacy issues involving different stakeholders. Overall negative sentiment was observed across almost all topics non-expert users discussed on Twitter in all the three years. Our results confirm the multi-faceted nature of non-expert users` perspectives on cyber security and privacy and call for more holistic, comprehensive and nuanced research on different facets of such perspectives.
translated by 谷歌翻译
Covid-19的传播引发了针对亚洲社区的社交媒体的种族主义和仇恨。然而,关于种族仇恨在大流行期间的差异和柜台垂直在减轻这种蔓延的角色时,很少见过。在这项工作中,我们研究了通过推特镜头的反亚洲仇恨演讲的演变和传播。我们创建了Covid-讨厌,这是一个跨越14个月的反亚洲仇恨和柜台的最大数据集,含有超过2.06亿推文,以及超过1.27亿节节点的社交网络。通过创建一个新的手工标记数据集,3,355推文,我们培训文本分类器以识别仇恨和柜台jeech推文,以实现0.832的平均宏F1得分。使用此数据集,我们对推文和用户进行纵向分析。社交网络的分析揭示了可恨和柜台的用户互相互动,彼此广泛地互动,而不是生活在孤立的极化社区中。我们发现在暴露于仇恨内容后,节点很可能变得仇恨。值得注意的是,柜台椎间目可能会阻止用户转向仇恨,可能暗示在Web和社交媒体平台上遏制讨厌的解决方案。数据和代码是在http://claws.cc.gatech.edu/covid。
translated by 谷歌翻译
随着社交媒体平台越来越多地采用了简短的视频,通过视频帖子减少错误信息的传播已成为社交媒体提供商的关键挑战。在本文中,我们开发了在社交媒体帖子中检测错误信息的方法,从而利用了视频和文本等方式。由于缺乏在多模式数据集中检测错误信息检测的大规模公共数据,因此我们从Twitter收集160,000个视频帖子,并利用自学学习的学习来学习联合视觉和文本数据的表达性表示。在这项工作中,我们提出了两种新方法,用于基于对比度学习和掩盖语言建模的短形式社交媒体视频帖子中的语义不一致。我们证明,我们的新方法在通过随机交汇正面样本和在野外的新手动标记测试集中,在野外生成的人工数据上的最新方法都超过了当前的最新方法,以进行语义错误信息。
translated by 谷歌翻译
本文描述了一个关于人们的话语的大型全球数据集以及在Twitter平台上对Covid-19的大流行的反应。从2020年1月28日至2022年6月1日,我们收集并处理了超过2900万个唯一用户的Twitter帖子,使用了四个关键字:“ Corona”,“ Wuhan”,“ NCOV”和“ COVID”。利用概率主题建模和预训练的基于机器学习的情感识别算法,我们将每个推文标记为具有十七个属性,包括a)十个二进制属性,指示了Tweet的相关性(1)或与前十名检测到的主题,B )五个定量情绪属性表示价或情感的强度程度(从0:极为消极到1:极为积极)以及恐惧,愤怒,悲伤和幸福情感的强度程度(从0:完全不是1到1 :极度强烈),c)两个分类属性表明情绪(非常负面,消极,中立或混合,积极,非常积极)以及主导的情感(恐惧,愤怒,悲伤,幸福,没有特定的情感),主要是推文表达。我们讨论技术有效性,并报告这些属性的描述性统计,其时间分布和地理表示。本文最后讨论了数据集在传播,心理学,公共卫生,经济学和流行病学中的用法。
translated by 谷歌翻译
The dissemination of hateful memes online has adverse effects on social media platforms and the real world. Detecting hateful memes is challenging, one of the reasons being the evolutionary nature of memes; new hateful memes can emerge by fusing hateful connotations with other cultural ideas or symbols. In this paper, we propose a framework that leverages multimodal contrastive learning models, in particular OpenAI's CLIP, to identify targets of hateful content and systematically investigate the evolution of hateful memes. We find that semantic regularities exist in CLIP-generated embeddings that describe semantic relationships within the same modality (images) or across modalities (images and text). Leveraging this property, we study how hateful memes are created by combining visual elements from multiple images or fusing textual information with a hateful image. We demonstrate the capabilities of our framework for analyzing the evolution of hateful memes by focusing on antisemitic memes, particularly the Happy Merchant meme. Using our framework on a dataset extracted from 4chan, we find 3.3K variants of the Happy Merchant meme, with some linked to specific countries, persons, or organizations. We envision that our framework can be used to aid human moderators by flagging new variants of hateful memes so that moderators can manually verify them and mitigate the problem of hateful content online.
translated by 谷歌翻译
最近受到在线叙述驱动的疫苗犹豫会大大降低了疫苗接种策略的功效,例如Covid-19。尽管医学界对可用疫苗的安全性和有效性达成了广泛的共识,但许多社交媒体使用者仍被有关疫苗的虚假信息淹没,并且柔和或不愿意接种疫苗。这项研究的目的是通过开发能够自动识别负责传播反疫苗叙事的用户的系统来更好地理解反疫苗情绪。我们引入了一个公开可用的Python软件包,能够分析Twitter配置文件,以评估该个人资料将来分享反疫苗情绪的可能性。该软件包是使用文本嵌入方法,神经网络和自动数据集生成的,并接受了数百万条推文培训。我们发现,该模型可以准确地检测出抗疫苗用户,直到他们推文抗Vaccine主题标签或关键字。我们还展示了文本分析如何通过检测Twitter和常规用户之间的抗疫苗传播器之间的道德和情感差异来帮助我们理解反疫苗讨论的示例。我们的结果将帮助研究人员和政策制定者了解用户如何成为反疫苗感以及他们在Twitter上讨论的内容。政策制定者可以利用此信息进行更好的针对性的运动,以揭露有害的反疫苗接种神话。
translated by 谷歌翻译
自Covid-19大流行病开始以来,疫苗一直是公共话语中的重要话题。疫苗周围的讨论被两极分化,因为有些人认为它们是结束大流行的重要措施,而另一些人则犹豫不决或发现它们有害。这项研究调查了与Twitter上的Covid-19疫苗有关的帖子,并着重于对疫苗有负姿态的帖子。收集了与COVID-19疫苗相关的16,713,238个英文推文的数据集,收集了涵盖从2020年3月1日至2021年7月31日的该期间。我们使用Scikit-Learn Python库来应用支持向量机(SVM)分类器针对Covid-19疫苗的推文具有负姿态。总共使用了5,163个推文来训练分类器,其中有2,484个推文由我们手动注释并公开提供。我们使用Berttopic模型来提取和调查负推文中讨论的主题以及它们如何随时间变化。我们表明,随着疫苗的推出,对COVID-19疫苗的负面影响随时间而下降。我们确定了37个讨论主题,并随着时间的推移介绍了各自的重要性。我们表明,流行的主题包括阴谋讨论,例如5G塔和微芯片,但还涉及涉及疫苗接种安全性和副作用以及对政策的担忧。我们的研究表明,即使是不受欢迎的观点或阴谋论,与广受欢迎的讨论主题(例如Covid-19疫苗)配对时,也会变得广泛。了解问题和讨论的主题以及它们如何随着时间的变化对于政策制定者和公共卫生当局提供更好和时间的信息和政策,以促进未来类似危机的人口接种。
translated by 谷歌翻译
As multimodal learning finds applications in a wide variety of high-stakes societal tasks, investigating their robustness becomes important. Existing work has focused on understanding the robustness of vision-and-language models to imperceptible variations on benchmark tasks. In this work, we investigate the robustness of multimodal classifiers to cross-modal dilutions - a plausible variation. We develop a model that, given a multimodal (image + text) input, generates additional dilution text that (a) maintains relevance and topical coherence with the image and existing text, and (b) when added to the original text, leads to misclassification of the multimodal input. Via experiments on Crisis Humanitarianism and Sentiment Detection tasks, we find that the performance of task-specific fusion-based multimodal classifiers drops by 23.3% and 22.5%, respectively, in the presence of dilutions generated by our model. Metric-based comparisons with several baselines and human evaluations indicate that our dilutions show higher relevance and topical coherence, while simultaneously being more effective at demonstrating the brittleness of the multimodal classifiers. Our work aims to highlight and encourage further research on the robustness of deep multimodal models to realistic variations, especially in human-facing societal applications. The code and other resources are available at https://claws-lab.github.io/multimodal-robustness/.
translated by 谷歌翻译
在这项工作中,我们介绍了患者生成的含量中第一个用于德国不良药物反应(ADR)检测的语料库。该数据包括来自德国患者论坛的4,169个二进制注释的文档,用户谈论健康问题并从医生那里获得建议。正如该领域的社交媒体数据中常见的那样,语料库的类标签非常不平衡。这一主题不平衡使其成为一个非常具有挑战性的数据集,因为通常相同的症状可能会有几种原因,并且并不总是与药物摄入有关。我们旨在鼓励在ADR检测领域进行进一步的多语性努力,并使用基于多语言模型的零和少数学习方法为二进制分类提供初步实验。当对XLM-Roberta进行微调首先在英语患者论坛数据上,然后在新的德国数据上进行微调时,我们的正面级别的F1得分为37.52。我们使数据集和模型公开可供社区使用。
translated by 谷歌翻译
在本文中,我们提出了一个手动注释的10,000名推文载有五个Covid-19事件的公开报告,包括积极和消极的测试,死亡,拒绝获得测试,索赔治愈和预防。我们为每种事件类型设计了插槽填充问题,并注释了总共31个细粒度的插槽,例如事件的位置,最近的旅行和密切联系人。我们表明我们的语料库可以支持微调基于伯特的分类器,以自动提取公共报告的事件,并帮助跟踪新疾病的传播。我们还证明,通过从数百万推文中提取的事件汇总,我们在回答复杂的查询时达到令人惊讶的高精度,例如“哪些组织在费城在费城测试的员工?”我们将释放我们的语料库(使用用户信息被删除),自动提取模型以及研究社区的相应知识库。
translated by 谷歌翻译
假新闻的迅速增加,这对社会造成重大损害,触发了许多假新闻相关研究,包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集:(1)假新闻检测,(2)事实验证,(3)其他任务;例如,假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后,我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究,而无需重新发明轮子,从而提高了深度的假新闻研究。
translated by 谷歌翻译
误导现在是由于其核心民主和社会价值观和订单的潜在高风险导致的主要问题。外观的错误信息是对病毒假故事进行的对手使用的最简单有效的方法之一。在这种威胁中,通过歪曲其上下文和/或元素来重新设计真实的图像以支持其他叙述。互联网被用作使用不同来源和模态的信息来验证信息。我们的目标是一种可防止的方法,通过使用Web证据来检查图像标题配对来自动实现这一耗时和推理的密集流程。要从两种方式集成证据和提示,我们介绍了“多模态周期 - 一致性检查”的概念;从图像/标题开始,我们收集文本/视觉证据,将分别与其他配对的字幕/图像进行比较。此外,我们提出了一种新颖的架构,一致性检查网络(CCN),其模拟了相同和不同的方式的分层人工理学:标题与文本证据,图像与视觉证据和图像与标题。我们的工作为开放式,基于内容,多模态事实检查提供的第一步和基准,并且显着优于未杠杆效率的基准。
translated by 谷歌翻译
疫苗的犹豫被认为是欧洲和美国在欧洲疫苗充足疫苗的疫苗停滞比率停滞的主要原因之一。快速准确地掌握公众对疫苗接种的态度对于解决疫苗犹豫至关重要,社交媒体平台已被证明是公众意见的有效来源。在本文中,我们描述了与Covid-19疫苗有关的推文数据集的收集和发布。该数据集由从西欧收集的2,198,090条推文组成,其中17,934条带有发起者的疫苗接种立场。我们的注释将有助于使用和开发数据驱动的模型来从社交媒体帖子中提取疫苗接种态度,从而进一步确认社交媒体在公共卫生监视中的力量。为了为未来的研究奠定基础,我们不仅对数据集进行了统计分析和可视化,而且还评估和比较了疫苗接种立场提取中已建立的基于文本的基准测试的性能。我们在实践中证明了我们的数据的一种潜在用途,以跟踪公共Covid-19-19疫苗接种态度的时间变化。
translated by 谷歌翻译