虚假信息是指故意传播的虚假信息以影响公众,而虚假信息对社会的负面影响可以在许多问题(例如政治议程和操纵金融市场)中观察到。在本文中,我们确定了从多个方面的自动虚假信息检测相关的普遍挑战和进步,并提出了一个称为迪斯科的全面和可解释的虚假发现检测框架。它利用了虚假信息的异质性,并解决了预测的不透明性。然后,我们以令人满意的检测准确性和解释为现实世界中的假新闻检测任务提供了迪斯科舞厅的演示。迪斯科的演示视频和源代码现已公开可用。我们希望我们的演示可以为解决整体的识别,理解和解释性的局限性铺平道路。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
假新闻,虚假或误导性信息作为新闻,对社会的许多方面产生了重大影响,例如在政治或医疗域名。由于假新闻的欺骗性,仅将自然语言处理(NLP)技术应用于新闻内容不足。多级社会上下文信息(新闻出版商和社交媒体的参与者)和用户参与的时间信息是假新闻检测中的重要信息。然而,正确使用此信息,介绍了三个慢性困难:1)多级社会上下文信息很难在没有信息丢失的情况下使用,2)难以使用时间信息以及多级社会上下文信息,3 )具有多级社会背景和时间信息的新闻表示难以以端到端的方式学习。为了克服所有三个困难,我们提出了一种新颖的假新闻检测框架,杂扫描。我们使用元路径在不损失的情况下提取有意义的多级社会上下文信息。 COMA-PATO,建议连接两个节点类型的复合关系,以捕获异构图中的语义。然后,我们提出了元路径实例编码和聚合方法,以捕获用户参与的时间信息,并生成新闻代表端到端。根据我们的实验,杂扫不断的性能改善了最先进的假新闻检测方法。
translated by 谷歌翻译
检测假新闻对于确保信息的真实性和维持新闻生态系统的可靠性至关重要。最近,由于最近的社交媒体和伪造的内容生成技术(例如Deep Fake)的扩散,假新闻内容的增加了。假新闻检测的大多数现有方式都集中在基于内容的方法上。但是,这些技术中的大多数无法处理生成模型生产的超现实合成媒体。我们最近的研究发现,真实和虚假新闻的传播特征是可以区分的,无论其方式如何。在这方面,我们已经根据社会环境调查了辅助信息,以检测假新闻。本文通过基于混合图神经网络的方法分析了假新闻检测的社会背景。该混合模型基于将图形神经网络集成到新闻内容上的新闻和BI定向编码器表示的传播中,以了解文本功能。因此,这种提出的方​​法可以学习内容以及上下文特征,因此能够在Politifact上以F1分别为0.91和0.93的基线模型和八西八角数据集的基线模型,分别超过了基线模型,分别在八西八学数据集中胜过0.93
translated by 谷歌翻译
Nowadays, fake news easily propagates through online social networks and becomes a grand threat to individuals and society. Assessing the authenticity of news is challenging due to its elaborately fabricated contents, making it difficult to obtain large-scale annotations for fake news data. Due to such data scarcity issues, detecting fake news tends to fail and overfit in the supervised setting. Recently, graph neural networks (GNNs) have been adopted to leverage the richer relational information among both labeled and unlabeled instances. Despite their promising results, they are inherently focused on pairwise relations between news, which can limit the expressive power for capturing fake news that spreads in a group-level. For example, detecting fake news can be more effective when we better understand relations between news pieces shared among susceptible users. To address those issues, we propose to leverage a hypergraph to represent group-wise interaction among news, while focusing on important news relations with its dual-level attention mechanism. Experiments based on two benchmark datasets show that our approach yields remarkable performance and maintains the high performance even with a small subset of labeled news data.
translated by 谷歌翻译
Users' involvement in creating and propagating news is a vital aspect of fake news detection in online social networks. Intuitively, credible users are more likely to share trustworthy news, while untrusted users have a higher probability of spreading untrustworthy news. In this paper, we construct a dual-layer graph (i.e., the news layer and the user layer) to extract multiple relations of news and users in social networks to derive rich information for detecting fake news. Based on the dual-layer graph, we propose a fake news detection model named Us-DeFake. It learns the propagation features of news in the news layer and the interaction features of users in the user layer. Through the inter-layer in the graph, Us-DeFake fuses the user signals that contain credibility information into the news features, to provide distinctive user-aware embeddings of news for fake news detection. The training process conducts on multiple dual-layer subgraphs obtained by a graph sampler to scale Us-DeFake in large scale social networks. Extensive experiments on real-world datasets illustrate the superiority of Us-DeFake which outperforms all baselines, and the users' credibility signals learned by interaction relation can notably improve the performance of our model.
translated by 谷歌翻译
随着社交网络的发展,用于各种商业和政治目的的虚假新闻已经大量出现,并在在线世界中广泛存在。有了欺骗性的话,人们可以很容易地被假新闻感染,并会在没有任何事实检查的情况下分享它们。例如,在2016年美国总统选举期间,有关候选人的各种虚假新闻在官方新闻媒体和在线社交网络中都广泛传播。这些假新闻通常会发布以涂抹对手或支持候选人的身边。假新闻中的错误信息通常是为了激励选民的非理性情感和热情。这样的虚假新闻有时会带来毁灭性的影响,改善在线社交网络的信誉的一个重要目标是及时确定假新闻。在本文中,我们建议研究假新闻检测问题。自动假新闻标识非常困难,因为新闻的基于纯模型的事实检查仍然是一个开放问题,并且很少使用现有模型来解决该问题。通过对虚假新闻数据进行彻底的调查,从假新闻中使用的文本单词和图像都可以确定许多有用的明确功能。除了明确的功能外,假新闻中使用的单词和图像中还存在一些隐藏的模式,可以用我们模型中的多个卷积层提取的一组潜在特征来捕获。本文提出了一种称为Ti-CNN的模型(基于文本和图像信息的综合神经网络)。通过将显式和潜在功能投射到统一的特征空间中,Ti-CNN可以同时培训文本和图像信息。在现实世界中的假新闻数据集进行的广泛实验证明了Ti-CNN的有效性。
translated by 谷歌翻译
假新闻的检测往往需要复杂的推理技能,例如通过考虑单词级微妙的线索来逻辑地结合信息。在本文中,我们通过更好地反映人类思维的逻辑流程并实现微妙的线索建模,迈向假新闻检测的微粒推理。特别是,我们通过遵循人类信息处理模型提出了一种细粒度的推理框架,引入了一种基于互连的方法,以结合人类了解哪些证据更重要,并设计了一个先知的双通道内核图网络模拟证据之间的微妙差异。广泛的实验表明,我们的模型优于最先进的方法,并展示了我们的方法的解释性。
translated by 谷歌翻译
名人认可是品牌交流中最重要的策略之一。如今,越来越多的公司试图为自己建立生动的特征。因此,他们的品牌身份交流应符合人类和法规的某些特征。但是,以前的作品主要是通过假设停止的,而不是提出一种特定的品牌和名人之间匹配的方式。在本文中,我们建议基于自然语言处理(NLP)技术的品牌名人匹配模型(BCM)。鉴于品牌和名人,我们首先从互联网上获得了一些描述性文档,然后总结了这些文档,最后计算品牌和名人之间的匹配程度,以确定它们是否匹配。根据实验结果,我们提出的模型以0.362 F1得分和精度的6.3%优于最佳基线,这表明我们模型在现实世界中的有效性和应用值。更重要的是,据我们所知,拟议的BCM模型是使用NLP解决认可问题的第一项工作,因此它可以为以下工作提供一些新颖的研究思想和方法。
translated by 谷歌翻译
社交媒体的重要性在过去几十年中增加了流畅,因为它帮助人们甚至是世界上最偏远的角落保持联系。随着技术的出现,数字媒体比以往任何时候都变得更加相关和广泛使用,并且在此之后,假冒新闻和推文的流通中有一种复兴,需要立即关注。在本文中,我们描述了一种新的假新闻检测系统,可自动识别新闻项目是“真实的”或“假”,作为我们在英语挑战中的约束Covid-19假新闻检测中的工作的延伸。我们使用了一个由预先训练的模型组成的集合模型,然后是统计特征融合网络,以及通过在新闻项目或推文中的各种属性,如源,用户名处理,URL域和作者中的各种属性结合到统计特征中的各种属性。我们所提出的框架还规定了可靠的预测性不确定性以及分类任务的适当类别输出置信水平。我们在Covid-19假新闻数据集和Fakenewsnet数据集上评估了我们的结果,以显示所提出的算法在短期内容中检测假新闻以及新闻文章中的算法。我们在Covid-19数据集中获得了0.9892的最佳F1分,以及Fakenewsnet数据集的F1分数为0.9073。
translated by 谷歌翻译
假新闻是制作作为真实的信息,有意欺骗读者。最近,依靠社交媒体的人民币为新闻消费的人数显着增加。由于这种快速增加,错误信息的不利影响会影响更广泛的受众。由于人们对这种欺骗性的假新闻的脆弱性增加,在早期阶段检测错误信息的可靠技术是必要的。因此,作者提出了一种基于图形的基于图形的框架社会图,其具有多头关注和发布者信息和新闻统计网络(SOMPS-Net),包括两个组件 - 社交交互图(SIG)和发布者和新闻统计信息(PNS)。假设模型在HealthStory DataSet上进行了实验,并在包括癌症,阿尔茨海默,妇产科和营养等各种医疗主题上推广。 Somps-Net明显优于其他基于现实的图表的模型,在HealthStory上实验17.1%。此外,早期检测的实验表明,Somps-Net预测的假新闻文章在其广播仅需8小时内为79%确定。因此,这项工作的贡献奠定了在早期阶段捕获多种医疗主题的假健康新闻的基础。
translated by 谷歌翻译
预期观众对某些文本的反应是社会的几个方面不可或缺的,包括政治,研究和商业行业。情感分析(SA)是一种有用的自然语言处理(NLP)技术,它利用词汇/统计和深度学习方法来确定不同尺寸的文本是否表现出正面,负面或中立的情绪。但是,目前缺乏工具来分析独立文本的组并从整体中提取主要情感。因此,当前的论文提出了一种新型算法,称为多层推文分析仪(MLTA),该算法使用多层网络(MLN)以图形方式对社交媒体文本进行了图形方式,以便更好地编码跨越独立的推文集的关系。与其他表示方法相比,图结构能够捕获复杂生态系统中有意义的关系。最先进的图形神经网络(GNN)用于从Tweet-MLN中提取信息,并根据提取的图形特征进行预测。结果表明,与标准的正面,负或中性相比,MLTA不仅可以从更大的可能情绪中预测,从而提供了更准确的情感,还允许对Twitter数据进行准确的组级预测。
translated by 谷歌翻译
本概述论文描述了乌尔都语语言中的假新闻检测的第一个共享任务。该任务是作为二进制分类任务的,目标是区分真实新闻和虚假新闻。我们提供了一个数据集,分为900个注释的新闻文章,用于培训,并进行了400篇新闻文章进行测试。该数据集包含五个领域的新闻:(i)健康,(ii)体育,(iii)Showbiz,(iv)技术和(v)业务。来自6个不同国家(印度,中国,埃及,德国,巴基斯坦和英国)的42个团队登记了这项任务。9个团队提交了他们的实验结果。参与者使用了各种机器学习方法,从基于功能的传统机器学习到神经网络技术。最佳性能系统的F得分值为0.90,表明基于BERT的方法优于其他机器学习技术
translated by 谷歌翻译
图形神经网络(GNN)在解决图形结构数据(即网络)方面的各种分析任务方面已广受欢迎。典型的gnns及其变体遵循一种消息的方式,该方式通过网络拓扑沿网络拓扑的特征传播过程获得网络表示,然而,它们忽略了许多现实世界网络中存在的丰富文本语义(例如,局部单词序列)。现有的文本丰富网络方法通过主要利用内部信息(例如主题或短语/单词)来整合文本语义,这些信息通常无法全面地挖掘文本语义,从而限制了网络结构和文本语义之间的相互指导。为了解决这些问题,我们提出了一个具有外部知识(TEKO)的新型文本富裕的图形神经网络,以充分利用文本丰富的网络中的结构和文本信息。具体而言,我们首先提出一个灵活的异质语义网络,该网络结合了文档和实体之间的高质量实体和互动。然后,我们介绍两种类型的外部知识,即结构化的三胞胎和非结构化实体描述,以更深入地了解文本语义。我们进一步为构建的异质语义网络设计了互惠卷积机制,使网络结构和文本语义能够相互协作并学习高级网络表示。在四个公共文本丰富的网络以及一个大规模的电子商务搜索数据集上进行了广泛的实验结果,这说明了Teko优于最先进的基线。
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译
指定的实体识别任务是信息提取的核心任务之一。单词歧义和单词缩写是命名实体低识别率的重要原因。在本文中,我们提出了一种名为“实体识别模型WCL-BBCD”(与Bert-Bilstm-Crf-Dbpedia的单词对比学习),结合了对比度学习的概念。该模型首先在文本中训练句子对,计算句子对通过余弦的相似性中的单词对之间的相似性,以及通过相似性通过相似性来命名实体识别任务的BERT模型,以减轻单词歧义。然后,将微调的BERT模型与Bilstm-CRF模型相结合,以执行指定的实体识别任务。最后,将识别结果与先验知识(例如知识图)结合使用,以减轻单词缩写引起的低速问题的识别。实验结果表明,我们的模型在Conll-2003英语数据集和Ontonotes V5英语数据集上优于其他类似的模型方法。
translated by 谷歌翻译
建模法检索和检索作为预测问题最近被出现为法律智能的主要方法。专注于法律文章检索任务,我们展示了一个名为Lamberta的深度学习框架,该框架被设计用于民法代码,并在意大利民法典上专门培训。为了我们的知识,这是第一项研究提出了基于伯特(来自变压器的双向编码器表示)学习框架的意大利法律制度对意大利法律制度的高级法律文章预测的研究,最近引起了深度学习方法的增加,呈现出色的有效性在几种自然语言处理和学习任务中。我们通过微调意大利文章或其部分的意大利预先训练的意大利预先训练的伯爵来定义Lamberta模型,因为法律文章作为分类任务检索。我们Lamberta框架的一个关键方面是我们构思它以解决极端的分类方案,其特征在于课程数量大,少量学习问题,以及意大利法律预测任务的缺乏测试查询基准。为了解决这些问题,我们为法律文章的无监督标签定义了不同的方法,原则上可以应用于任何法律制度。我们提供了深入了解我们Lamberta模型的解释性和可解释性,并且我们对单一标签以及多标签评估任务进行了广泛的查询模板实验分析。经验证据表明了Lamberta的有效性,以及对广泛使用的深度学习文本分类器和一些构思的几次学习者来说,其优越性是对属性感知预测任务的优势。
translated by 谷歌翻译
Deep learning has revolutionized many machine learning tasks in recent years, ranging from image classification and video processing to speech recognition and natural language understanding. The data in these tasks are typically represented in the Euclidean space. However, there is an increasing number of applications where data are generated from non-Euclidean domains and are represented as graphs with complex relationships and interdependency between objects. The complexity of graph data has imposed significant challenges on existing machine learning algorithms. Recently, many studies on extending deep learning approaches for graph data have emerged. In this survey, we provide a comprehensive overview of graph neural networks (GNNs) in data mining and machine learning fields. We propose a new taxonomy to divide the state-of-the-art graph neural networks into four categories, namely recurrent graph neural networks, convolutional graph neural networks, graph autoencoders, and spatial-temporal graph neural networks. We further discuss the applications of graph neural networks across various domains and summarize the open source codes, benchmark data sets, and model evaluation of graph neural networks. Finally, we propose potential research directions in this rapidly growing field.
translated by 谷歌翻译
来自文本的采矿因果关系是一种复杂的和至关重要的自然语言理解任务,对应于人类认知。其解决方案的现有研究可以分为两种主要类别:基于特征工程和基于神经模型的方法。在本文中,我们发现前者具有不完整的覆盖范围和固有的错误,但提供了先验知识;虽然后者利用上下文信息,但其因果推断不足。为了处理限制,我们提出了一个名为MCDN的新型因果关系检测模型,明确地模拟因果关系,而且,利用两种方法的优势。具体而言,我们采用多头自我关注在Word级别获得语义特征,并在段级别推断出来的SCRN。据我们所知,关于因果关系任务,这是第一次应用关系网络。实验结果表明:1)该方法对因果区检测进行了突出的性能; 2)进一步分析表现出MCDN的有效性和稳健性。
translated by 谷歌翻译
社交机器人被称为社交网络上的自动帐户,这些帐户试图像人类一样行事。尽管图形神经网络(GNNS)已大量应用于社会机器人检测领域,但大量的领域专业知识和先验知识大量参与了最先进的方法,以设计专门的神经网络体系结构,以设计特定的神经网络体系结构。分类任务。但是,在模型设计中涉及超大的节点和网络层,通常会导致过度平滑的问题和缺乏嵌入歧视。在本文中,我们提出了罗斯加斯(Rosgas),这是一种新颖的加强和自我监督的GNN Architecture搜索框架,以适应性地指出了最合适的多跳跃社区和GNN体系结构中的层数。更具体地说,我们将社交机器人检测问题视为以用户为中心的子图嵌入和分类任务。我们利用异构信息网络来通过利用帐户元数据,关系,行为特征和内容功能来展示用户连接。 Rosgas使用多代理的深钢筋学习(RL)机制来导航最佳邻域和网络层的搜索,以分别学习每个目标用户的子图嵌入。开发了一种用于加速RL训练过程的最接近的邻居机制,Rosgas可以借助自我监督的学习来学习更多的判别子图。 5个Twitter数据集的实验表明,Rosgas在准确性,训练效率和稳定性方面优于最先进的方法,并且在处理看不见的样本时具有更好的概括。
translated by 谷歌翻译