假新闻的检测往往需要复杂的推理技能,例如通过考虑单词级微妙的线索来逻辑地结合信息。在本文中,我们通过更好地反映人类思维的逻辑流程并实现微妙的线索建模,迈向假新闻检测的微粒推理。特别是,我们通过遵循人类信息处理模型提出了一种细粒度的推理框架,引入了一种基于互连的方法,以结合人类了解哪些证据更重要,并设计了一个先知的双通道内核图网络模拟证据之间的微妙差异。广泛的实验表明,我们的模型优于最先进的方法,并展示了我们的方法的解释性。
translated by 谷歌翻译
Users' involvement in creating and propagating news is a vital aspect of fake news detection in online social networks. Intuitively, credible users are more likely to share trustworthy news, while untrusted users have a higher probability of spreading untrustworthy news. In this paper, we construct a dual-layer graph (i.e., the news layer and the user layer) to extract multiple relations of news and users in social networks to derive rich information for detecting fake news. Based on the dual-layer graph, we propose a fake news detection model named Us-DeFake. It learns the propagation features of news in the news layer and the interaction features of users in the user layer. Through the inter-layer in the graph, Us-DeFake fuses the user signals that contain credibility information into the news features, to provide distinctive user-aware embeddings of news for fake news detection. The training process conducts on multiple dual-layer subgraphs obtained by a graph sampler to scale Us-DeFake in large scale social networks. Extensive experiments on real-world datasets illustrate the superiority of Us-DeFake which outperforms all baselines, and the users' credibility signals learned by interaction relation can notably improve the performance of our model.
translated by 谷歌翻译
谣言在社交媒体的时代猖獗。谈话结构提供有价值的线索,以区分真实和假声明。然而,现有的谣言检测方法限制为用户响应的严格关系或过度简化对话结构。在这项研究中,为了减轻不相关的帖子施加的负面影响,基本上加强了用户意见的相互作用,首先将谈话线作为无向相互作用图。然后,我们提出了一种用于谣言分类的主导分层图注意网络,其提高了考虑整个社会环境的响应帖子的表示学习,并参加可以在语义上推断目标索赔的帖子。三个Twitter数据集的广泛实验表明,我们的谣言检测方法比最先进的方法实现了更好的性能,并且展示了在早期阶段检测谣言的优异容量。
translated by 谷歌翻译
假新闻的迅速增加,这对社会造成重大损害,触发了许多假新闻相关研究,包括开发假新闻检测和事实验证技术。这些研究的资源主要是从Web数据中获取的公共数据集。我们通过三个观点调查了与假新闻研究相关的118个数据集:(1)假新闻检测,(2)事实验证,(3)其他任务;例如,假新闻和讽刺检测分析。我们还详细描述了他们的利用任务及其特征。最后,我们突出了假新闻数据集建设中的挑战以及解决这些挑战的一些研究机会。我们的调查通过帮助研究人员找到合适的数据集来促进假新闻研究,而无需重新发明轮子,从而提高了深度的假新闻研究。
translated by 谷歌翻译
了解文本中表达的态度,也称为姿态检测,在旨在在线检测虚假信息的系统中起重要作用,无论是错误信息(无意的假)或虚假信息(故意错误地蔓延,恶意意图)。姿态检测已经以不同的方式在文献中框架,包括(a)作为事实检查,谣言检测和检测先前的事实检查的权利要求,或(b)作为其自己的任务的组件;在这里,我们看看两者。虽然已经进行了与其他相关任务的突出姿态检测,但诸如论证挖掘和情绪分析之类的其他相关任务,但没有调查姿态检测和错误和缺陷检测之间的关系。在这里,我们的目标是弥合这个差距。特别是,我们在焦点中审查和分析了该领域的现有工作,焦点中的错误和不忠实,然后我们讨论了汲取的经验教训和未来的挑战。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
由于信息和错误信息都可以在现代媒体生态系统中传播的速度,事实检查变得越来越重要。因此,研究人员一直在探索如何自动检查,使用基于自然语言处理,机器学习,知识表示以及数据库来自动检查的技术,以自动预测所称的索赔的真实性。在本文中,我们从自然语言处理中调查了自动检查源,并讨论其与相关任务和学科的联系。在此过程中,我们概述了现有数据集和模型,旨在统一给出的各种定义和识别共同概念。最后,我们突出了未来研究的挑战。
translated by 谷歌翻译
现有的假新闻检测方法旨在将新闻分类为真或错误,并提供真实的解释,从而实现出色的表现。但是,他们经常根据有限的新闻报道和揭穿延误来定制手动事实检查报告的自动解决方案。如果尚未对一段新闻进行事实检查或揭穿事实,通常会在各种媒体上传播一定数量的相关原始报告,其中包含人群的智慧来验证新闻声明并解释其判决。在本文中,我们提出了一个新颖的粗到十五级别的级联证据依据(COFCED)神经网络,以根据此类原始报告来解释假新闻检测,从而减轻了对事实检查的依赖性。具体而言,我们首先使用层次结构编码器来用于Web文本表示,然后开发两个级联的选择器,以粗略至上的方式在所选的Top-K报告之上选择最可解释的句子。此外,我们构建了两个可解释的假新闻数据集,这些数据集可公开使用。实验结果表明,我们的模型显着优于最先进的基线,并从不同的评估角度产生高质量的解释。
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译
Nowadays, fake news easily propagates through online social networks and becomes a grand threat to individuals and society. Assessing the authenticity of news is challenging due to its elaborately fabricated contents, making it difficult to obtain large-scale annotations for fake news data. Due to such data scarcity issues, detecting fake news tends to fail and overfit in the supervised setting. Recently, graph neural networks (GNNs) have been adopted to leverage the richer relational information among both labeled and unlabeled instances. Despite their promising results, they are inherently focused on pairwise relations between news, which can limit the expressive power for capturing fake news that spreads in a group-level. For example, detecting fake news can be more effective when we better understand relations between news pieces shared among susceptible users. To address those issues, we propose to leverage a hypergraph to represent group-wise interaction among news, while focusing on important news relations with its dual-level attention mechanism. Experiments based on two benchmark datasets show that our approach yields remarkable performance and maintains the high performance even with a small subset of labeled news data.
translated by 谷歌翻译
假新闻是制作作为真实的信息,有意欺骗读者。最近,依靠社交媒体的人民币为新闻消费的人数显着增加。由于这种快速增加,错误信息的不利影响会影响更广泛的受众。由于人们对这种欺骗性的假新闻的脆弱性增加,在早期阶段检测错误信息的可靠技术是必要的。因此,作者提出了一种基于图形的基于图形的框架社会图,其具有多头关注和发布者信息和新闻统计网络(SOMPS-Net),包括两个组件 - 社交交互图(SIG)和发布者和新闻统计信息(PNS)。假设模型在HealthStory DataSet上进行了实验,并在包括癌症,阿尔茨海默,妇产科和营养等各种医疗主题上推广。 Somps-Net明显优于其他基于现实的图表的模型,在HealthStory上实验17.1%。此外,早期检测的实验表明,Somps-Net预测的假新闻文章在其广播仅需8小时内为79%确定。因此,这项工作的贡献奠定了在早期阶段捕获多种医疗主题的假健康新闻的基础。
translated by 谷歌翻译
Social media has been one of the main information consumption sources for the public, allowing people to seek and spread information more quickly and easily. However, the rise of various social media platforms also enables the proliferation of online misinformation. In particular, misinformation in the health domain has significant impacts on our society such as the COVID-19 infodemic. Therefore, health misinformation in social media has become an emerging research direction that attracts increasing attention from researchers of different disciplines. Compared to misinformation in other domains, the key differences of health misinformation include the potential of causing actual harm to humans' bodies and even lives, the hardness to identify for normal people, and the deep connection with medical science. In addition, health misinformation on social media has distinct characteristics from conventional channels such as television on multiple dimensions including the generation, dissemination, and consumption paradigms. Because of the uniqueness and importance of combating health misinformation in social media, we conduct this survey to further facilitate interdisciplinary research on this problem. In this survey, we present a comprehensive review of existing research about online health misinformation in different disciplines. Furthermore, we also systematically organize the related literature from three perspectives: characterization, detection, and intervention. Lastly, we conduct a deep discussion on the pressing open issues of combating health misinformation in social media and provide future directions for multidisciplinary researchers.
translated by 谷歌翻译
已经过了事实检查的虚假声明仍可在社交媒体上传播。为了缓解他们的持续传播,检测先前的事实检查的索赔是必不可少的。鉴于索赔,现有的工作侧重于提供由BM25检索的重新登录候选事实检查文章(FC-Temericles)进行检测的证据。然而,这些性能可能受到限制,因为它们忽略了FC-asticles的以下特征:(1)通常引用权利要求以描述所检查的事件,除了语义之外提供词法信息; (2)介绍或揭露索赔的句子模板在文章中是常见的,提供模式信息。忽略两个方面的模型仅利用语义相关性,并且可能被描述类似但无关事件的句子误导。在本文中,我们提出了一种新颖的Reranker,MTM(用于匹配的内存增强的变压器)来使用与事件(词汇和语义)和模式信息选择的关键句子进行排序FC-Tressiple。对于活动信息,我们提出了一个胭脂引导的变压器,胭脂了胭脂回归。对于模式信息,我们生成用于与句子匹配的模式向量。通过定影事件和模式信息,我们选择关键句子来表示文章,然后使用索赔,密钥句子和模式检查文章事实是否检查给定的索赔。两个真实数据集的实验表明MTM优于现有方法。人类评估证明,MTM可以捕获用于解释的关键句子。代码和数据集是https://github.com/ictmcg/mtm。
translated by 谷歌翻译
检测假新闻对于确保信息的真实性和维持新闻生态系统的可靠性至关重要。最近,由于最近的社交媒体和伪造的内容生成技术(例如Deep Fake)的扩散,假新闻内容的增加了。假新闻检测的大多数现有方式都集中在基于内容的方法上。但是,这些技术中的大多数无法处理生成模型生产的超现实合成媒体。我们最近的研究发现,真实和虚假新闻的传播特征是可以区分的,无论其方式如何。在这方面,我们已经根据社会环境调查了辅助信息,以检测假新闻。本文通过基于混合图神经网络的方法分析了假新闻检测的社会背景。该混合模型基于将图形神经网络集成到新闻内容上的新闻和BI定向编码器表示的传播中,以了解文本功能。因此,这种提出的方​​法可以学习内容以及上下文特征,因此能够在Politifact上以F1分别为0.91和0.93的基线模型和八西八角数据集的基线模型,分别超过了基线模型,分别在八西八学数据集中胜过0.93
translated by 谷歌翻译
近年来,在网上见证了令人反感的内容的泛滥,例如假新闻,宣传,错误信息和虚假信息。虽然最初这主要是关于文本内容,但随着时间的流逝,图像和视频越来越受欢迎,因为它们更容易消费,吸引更多的关注并比文本更广泛地传播。结果,研究人员开始利用不同的方式及其组合来解决在线多模式进攻内容。在这项研究中,我们提供了有关最新的多模式虚假信息检测的调查,该检测涵盖了各种模式组合:文本,图像,语音,视频,社交媒体网络结构和时间信息。此外,尽管有些研究集中于事实,但其他研究调查了内容的有害性。尽管虚假信息定义中的这两个组成部分(i)事实和(ii)有害性同样重要,但通常会孤立地研究它们。因此,我们主张在同一框架中考虑多种方式以及事实和有害性来解决虚假信息检测。最后,我们讨论当前的挑战和未来的研究方向
translated by 谷歌翻译
Fake news detection has become a research area that goes way beyond a purely academic interest as it has direct implications on our society as a whole. Recent advances have primarily focused on textbased approaches. However, it has become clear that to be effective one needs to incorporate additional, contextual information such as spreading behaviour of news articles and user interaction patterns on social media. We propose to construct heterogeneous social context graphs around news articles and reformulate the problem as a graph classification task. Exploring the incorporation of different types of information (to get an idea as to what level of social context is most effective) and using different graph neural network architectures indicates that this approach is highly effective with robust results on a common benchmark dataset.
translated by 谷歌翻译
假新闻,虚假或误导性信息作为新闻,对社会的许多方面产生了重大影响,例如在政治或医疗域名。由于假新闻的欺骗性,仅将自然语言处理(NLP)技术应用于新闻内容不足。多级社会上下文信息(新闻出版商和社交媒体的参与者)和用户参与的时间信息是假新闻检测中的重要信息。然而,正确使用此信息,介绍了三个慢性困难:1)多级社会上下文信息很难在没有信息丢失的情况下使用,2)难以使用时间信息以及多级社会上下文信息,3 )具有多级社会背景和时间信息的新闻表示难以以端到端的方式学习。为了克服所有三个困难,我们提出了一种新颖的假新闻检测框架,杂扫描。我们使用元路径在不损失的情况下提取有意义的多级社会上下文信息。 COMA-PATO,建议连接两个节点类型的复合关系,以捕获异构图中的语义。然后,我们提出了元路径实例编码和聚合方法,以捕获用户参与的时间信息,并生成新闻代表端到端。根据我们的实验,杂扫不断的性能改善了最先进的假新闻检测方法。
translated by 谷歌翻译
在社交媒体上的工作谣言验证利用了帖子,传播和所涉及的用户的信号。基于Wikipedia的信息或值得信赖的新闻文章而无需考虑社交媒体环境,其他工作目标是识别和核实事实检查的主张。但是,缺乏将社交媒体的信息与更广泛网络的外部证据相结合的工作。为了促进这个方向的研究,我们发布了一个新颖的数据集Phemeplus,Phemeplus是Pheme基准的扩展,该数据集包含社交媒体对话以及每个谣言的相关外部证据。我们证明了将这种证据纳入改进谣言验证模型的有效性。此外,作为证据收集的一部分,我们评估了各种查询公式的方法,以识别最有效的方法。
translated by 谷歌翻译
在过去几年中,社交媒体上传播的错误消息激增,并导致了现实世界中的多种威胁。尽管有关于特定领域的虚假新闻(例如政治或医疗保健)的研究,但比较跨领域的虚假新闻几乎没有工作。在本文中,我们调查了2009年至2019年中国最大的Twitter式社交媒体平台的微博上的九个领域的虚假新闻。新收集的数据包含44,728个帖子,由40,215个用户发布,并重新发布了。 340万次。基于多域数据集的分布和传播,我们观察到,在诸如健康和医学之类的日常生活的领域中,虚假的消息比政治等其他领域的帖子更有效,但有效地传播的帖子较少,而政治虚假新闻具有最有效的扩散能力。关于微博上广泛散布的虚假新闻帖子与某些类型的用户(按性别,年龄等。此外,这些帖子都引起了重新播放的强烈情绪,并随着False-News启动器的积极参与而进一步扩散。我们的发现有可能在可疑新闻发现,真实性预测以及显示和解释中帮助设计错误的新闻检测系统。微博上的发现与现有作品的发现表明了细微的模式,这表明需要对来自不同平台,国家或语言的数据进行更多研究,以解决全球错误新闻。代码和新的匿名数据集可在https://github.com/ictmcg/characterizing-weibo-multi-domain-false-news上找到。
translated by 谷歌翻译
排名模型是信息检索系统的主要组成部分。排名的几种方法是基于传统的机器学习算法,使用一组手工制作的功能。最近,研究人员在信息检索中利用了深度学习模型。这些模型的培训结束于结束,以提取来自RAW数据的特征来排序任务,因此它们克服了手工制作功能的局限性。已经提出了各种深度学习模型,每个模型都呈现了一组神经网络组件,以提取用于排名的特征。在本文中,我们在不同方面比较文献中提出的模型,以了解每个模型的主要贡献和限制。在我们对文献的讨论中,我们分析了有前途的神经元件,并提出了未来的研究方向。我们还显示文档检索和其他检索任务之间的类比,其中排名的项目是结构化文档,答案,图像和视频。
translated by 谷歌翻译