智能论文笔记

Spillover of Antisocial Behavior from Fringe Platforms: The Unintended Consequences of Community Banning

Giuseppe Russo , Luca Verginer , Manoel Horta Ribeiro , Giona Casiraghi

分类：自然语言处理

2022-09-20

在线平台面临着保持社区民用和尊重的压力。因此，从Reddit和Facebook等主流平台上有问题的在线社区的横幅通常会受到热情的公共反应。但是，该策略可以导致用户迁移到具有较低适度标准的替代边缘平台，以及在巨魔和骚扰等反社会行为被广泛接受的地方。由于这些社区的用户经常在主流和边缘平台上保留\ ca，反社会行为可能会溢出到主流平台上。我们通过分析来自迁移到边缘平台的三个被禁止社区的70,000美元的用户来研究这一可能的溢出：r/the \ _donald，r/r/gendericalitical和r/incels。使用差异差异设计，我们将\ CA用户与匹配的对应物进行了对比，以估算边缘平台参与用户对Reddit的反社会行为的因果效应。我们的结果表明，参与边缘社区会增加用户对Reddit的毒性（按照视角API的衡量），并参与了类似于被禁止社区的子雷数 - 这通常也违反了平台规范。效果随着时间的流逝和暴露于边缘平台而加剧。简而言之，我们发现通过共同参与从边缘平台到Reddit的反社会行为溢出的证据。

translated by 谷歌翻译

Understanding Online Migration Decisions Following the Banning of Radical Communities

Giuseppe Russo , Manoel Horta Ribeiro , Giona Casiraghi , Luca Verginer

分类：自然语言处理

2022-12-09

The proliferation of radical online communities and their violent offshoots has sparked great societal concern. However, the current practice of banning such communities from mainstream platforms has unintended consequences: (I) the further radicalization of their members in fringe platforms where they migrate; and (ii) the spillover of harmful content from fringe back onto mainstream platforms. Here, in a large observational study on two banned subreddits, r/The\_Donald and r/fatpeoplehate, we examine how factors associated with the RECRO radicalization framework relate to users' migration decisions. Specifically, we quantify how these factors affect users' decisions to post on fringe platforms and, for those who do, whether they continue posting on the mainstream platform. Our results show that individual-level factors, those relating to the behavior of users, are associated with the decision to post on the fringe platform. Whereas social-level factors, users' connection with the radical community, only affect the propensity to be coactive on both platforms. Overall, our findings pave the way for evidence-based moderation policies, as the decisions to migrate and remain coactive amplify unintended consequences of community bans.

translated by 谷歌翻译

Quantifying How Hateful Communities Radicalize Online Users

Matheus Schmitz , Keith Burghardt , Goran Muric

分类：自然语言处理 | 机器学习

2022-09-19

虽然在线社交媒体提供了一种忽略或窒息的声音的方式，但它还使用户可以平台传播可恨的言论。这种讲话通常起源于边缘社区，但它可以溢出到主流渠道中。在本文中，我们衡量加入边缘仇恨社区的影响，以仇恨言论传播到社交网络的其余部分。我们利用Reddit的数据来评估加入一种回声室的效果：一个志趣相投的用户，表现出仇恨行为的数字社区。我们在成为积极参与者之前和之后衡量成员在研究社区之外的仇恨言论的用法。使用中断的时间序列（ITS）分析作为因果推理方法，我们衡量了溢出效应，其中某个社区内的可恨语言可以通过使用社区外的仇恨单词用作代理，可以通过使用社区的层次来传播该社区之外的效果对于博学的仇恨。我们研究了涵盖仇恨言论的三个领域的四个不同的Reddit子社区（子红）：种族主义，厌女症和脂肪欺骗。在所有三种情况下，我们发现在原始社区之外的仇恨言论都在增加，这意味着加入此类社区会导致仇恨言论在整个平台中传播。此外，在最初加入社区后的几个月后，发现用户可以在几个月内接受这种新的仇恨演讲。我们表明，有害的言论不保留在社区中。我们的结果提供了回声室有害影响的新证据，以及调节它们以减少仇恨言论的潜在好处。

translated by 谷歌翻译

A Survey on Echo Chambers on Social Media: Description, Detection and Mitigation

Faisal Alatawi , Lu Cheng , Anique Tahir , Mansooreh Karami , Bohan Jiang , Tyler Black , Huan Liu

分类：机器学习

2021-12-09

社交媒体的回声室是一个重要的问题，可以引起许多负面后果，最近影响对Covid-19的响应。回声室促进病毒的阴谋理论，发现与疫苗犹豫不决，较少遵守面具授权，以及社会疏散的实践。此外，回声室的问题与政治极化等其他相关问题相连，以及误导的传播。回声室被定义为用户网络，用户只与支持其预先存在的信仰和意见的意见相互作用，并且他们排除和诋毁其他观点。本调查旨在从社会计算的角度检查社交媒体上的回声室现象，并为可能的解决方案提供蓝图。我们调查了相关文献，了解回声室的属性以及它们如何影响个人和社会。此外，我们展示了算法和心理的机制，这导致了回声室的形成。这些机制可以以两种形式表现出：（1）社交媒体推荐系统的偏见和（2）内部偏见，如确认偏见和精梳性。虽然减轻内部偏见是非常挑战的，但努力消除推荐系统的偏见。这些推荐系统利用我们自己的偏见来个性化内容建议，以使我们参与其中才能观看更多广告。因此，我们进一步研究了回声室检测和预防的不同计算方法，主要基于推荐系统。

translated by 谷歌翻译

We Are in This Together: Quantifying Community Subjective Wellbeing and Resilience

MeiXing Dong , Ruixuan Sun , Laura Biester , Rada Mihalcea

分类：自然语言处理

2022-08-23

19009年的大流行破坏了世界上每个人的生活。在这项工作中，我们表征了在疫苗可用性之前，在大流行期间，美国112个城市的主观福祉模式，如与城市相对应的亚列表所示。我们使用积极和负面影响量化主观健康。然后，我们通过将社区观察到的健康与预期的健康进行比较，衡量大流行的影响，如大流行前的时间序列模型所预测的那样。我们表明，语言反映的一般社区特征可以预测社区的能力。我们预测大流行将如何基于正常时间\ textit {之前的语言和互动特征{}大流行的语言和互动特征影响每个社区的福祉。我们发现，具有与更紧密联系的用户相对应的互动特征的社区，并且更高的参与度受到显着影响。值得注意的是，我们发现更多谈论通常经验丰富的社会关系的社区，例如朋友，家人和隶属关系，实际上更有可能受到影响。此外，我们还使用相同的功能来预测大流行初次发作后每个社区将恢复的速度。我们同样发现，更多地谈论家庭，隶属关系和确定为团体一部分的社区的康复较慢。

translated by 谷歌翻译

On the Evolution of (Hateful) Memes by Means of Multimodal Contrastive Learning

Yiting Qu , Xinlei He , Shannon Pierson , Michael Backes , Yang Zhang , Savvas Zannettou

分类：机器学习

2022-12-13

The dissemination of hateful memes online has adverse effects on social media platforms and the real world. Detecting hateful memes is challenging, one of the reasons being the evolutionary nature of memes; new hateful memes can emerge by fusing hateful connotations with other cultural ideas or symbols. In this paper, we propose a framework that leverages multimodal contrastive learning models, in particular OpenAI's CLIP, to identify targets of hateful content and systematically investigate the evolution of hateful memes. We find that semantic regularities exist in CLIP-generated embeddings that describe semantic relationships within the same modality (images) or across modalities (images and text). Leveraging this property, we study how hateful memes are created by combining visual elements from multiple images or fusing textual information with a hateful image. We demonstrate the capabilities of our framework for analyzing the evolution of hateful memes by focusing on antisemitic memes, particularly the Happy Merchant meme. Using our framework on a dataset extracted from 4chan, we find 3.3K variants of the Happy Merchant meme, with some linked to specific countries, persons, or organizations. We envision that our framework can be used to aid human moderators by flagging new variants of hateful memes so that moderators can manually verify them and mitigate the problem of hateful content online.

translated by 谷歌翻译

What are People Talking about in #BlackLivesMatter and #StopAsianHate? Exploring and Categorizing Twitter Topics Emerging in Online Social Movements through the Latent Dirichlet Allocation Model

Xin Tong , Yixuan Li , Jiayi Li , Rongqi Bei , Luyao Zhang

分类：自然语言处理 | 机器学习

2022-05-29

少数群体一直在使用社交媒体来组织社会运动，从而产生深远的社会影响。黑人生活问题（BLM）和停止亚洲仇恨（SAH）是两个成功的社会运动，在Twitter上蔓延开来，促进了抗议活动和活动，反对种族主义，并提高公众对少数群体面临的其他社会挑战的认识。但是，以前的研究主要对与用户的推文或访谈进行了定性分析，这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格，量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此，在这项研究中，我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了（1）潜在的DIRICHLET分配模型，以了解顶级高级单词和主题以及（2）开放编码分析，以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文，并比较了它们的主题。我们的发现表明，这些推文在深度上讨论了各种有影响力的话题，社会正义，社会运动和情感情感都是两种运动的共同主题，尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析，以及有关AI，伦理和社会相互作用的文献。

translated by 谷歌翻译

"Dummy Grandpa, do you know anything?": Identifying and Characterizing Ad hominem Fallacy Usage in the Wild

Utkarsh Patel , Animesh Mukherjee , Mainack Mondal

分类：自然语言处理

2022-09-05

今天，参加在线论坛上的讨论非常普遍，这些讨论已经开始对在线用户的整体意见产生强大的影响。 Naturally, twisting the flow of the argument can have a strong impact on the minds of naive users, which in the long run might have socio-political ramifications, for example, winning an election or spreading targeted misinformation.因此，这些平台可能非常容易受到恶意玩家的影响，他们可能会单独采取行动，也可能是繁殖谬误的争论，并动机促进公众舆论。 AD HOMINEM论点是此类谬论中最有效的形式之一。尽管是一个简单的谬论，但它足够有效，可以在离线世界中进行公开辩论，并且可以用作阻止诽谤反对派声音的先驱。在这项工作中，我们迈出了第一步，以阐明野外Ad Hominem谬论的使用。首先，我们建立了一个具有很高准确性的强大AD HOMINEM探测器（F1超过83％，对先前的工作显示出显着改善），即使对于注释的实例构成很小一部分的数据集也是如此。然后，我们在从在线辩论论坛中收集的265k参数（创建者）中使用了我们的检测器。我们的众包调查验证了我们对创建ebate数据的野外预测（94％与手动注释相匹配）。我们的分析表明，令人惊讶的31.23％的创建ebate内容包含AD HOMINEM谬论，并且一群高度活跃的用户的同类发表了更大的AD AD本人，以抑制相反的观点。然后，我们的时间分析表明，自2016年美国总统大选以来，AD HOMINEM论点的使用量显着增加，不仅是政治等主题，而且对于科学和法律。最后，我们讨论了我们的工作的重要意义，以检测和防御AD HOMINEM谬论。

translated by 谷歌翻译

What Are You Anxious About? Examining Subjects of Anxiety during the COVID-19 Pandemic

Lucia L. Chen , Steven R. Wilson , Sophie Lohmann , Daniela V. Negraia

分类：自然语言处理

2022-09-27

Covid-19在大流行的不同阶段对公众构成了不成比例的心理健康后果。我们使用一种计算方法来捕获引发在线社区对大流行的焦虑的特定方面，并研究这些方面如何随时间变化。首先，我们使用主题分析在R/covid19 \ _support的Reddit帖子样本（$ n $ = 86）中确定了九个焦虑（SOA）。然后，我们通过在手动注释的样本（$ n $ = 793）上训练Reddit用户的焦虑来自动将SOA标记在较大的年代样本中（$ n $ = 6,535）。 9个SOA与最近开发的大流行焦虑测量量表中的项目保持一致。我们观察到，在大流行的前八个月，Reddit用户对健康风险的担忧仍然很高。尽管案件激增稍后发生，但这些担忧却大大减少了。通常，随着大流行的进展，用户的语言披露了SOA的强烈强度。但是，在本研究涵盖的整个期间，人们对心理健康的担忧和未来稳步增长。人们还倾向于使用更强烈的语言来描述心理健康问题，而不是健康风险或死亡问题。我们的结果表明，尽管Covid-19逐渐削弱，但由于适当的对策而逐渐削弱了作为健康威胁，但该在线小组的心理健康状况并不一定会改善。我们的系统为人口健康和流行病学学者奠定了基础，以及时检查引起大流行焦虑的方面。

translated by 谷歌翻译

Estimating Topic Exposure for Under-Represented Users on Social Media

Mansooreh Karami , Ahmadreza Mosallanezhad , Paras Sheth , Huan Liu

分类：机器学习

2022-08-07

在线社交网络（OSN）有助于访问各种数据，使研究人员能够分析用户的行为并开发用户行为分析模型。这些模型在很大程度上依赖于观察到的数据，这些数据通常由于参与不平等而产生偏差。这种不平等由三组在线用户组成：潜伏者 - 仅消耗内容的用户，招聘者 - 对内容创建的用户和贡献者很少贡献 - 负责创建大多数在线内容的用户。在解释人口水平的利益或情感的同时，未能考虑所有群体的贡献，可能会产生偏见的结果。为了减少贡献者引起的偏见，在这项工作中，我们专注于强调参与者在观察到的数据中的贡献，因为与潜伏者相比，它们更有可能贡献，与贡献者相比，它们的人口更大。这些用户行为分析的第一步是找到他们接触但没有互动的主题。为此，我们提出了一个新颖的框架，有助于识别这些用户并估算其主题曝光。暴露估计机制是通过合并来自类似贡献者的行为模式以及用户的人口统计学和个人资料信息来建模的。

translated by 谷歌翻译

Then and Now: Quantifying the Longitudinal Validity of Self-Disclosed Depression Diagnoses

Keith Harrigian , Mark Dredze

分类：机器学习 | 自然语言处理

2022-06-22

自我披露的心理健康诊断是在没有临床措施的情况下用作心理健康状况的基础真理注释，这是过去十年来大多数心理健康语言计算研究背后的结论。但是，精神病是动态的。先前的抑郁诊断可能不再表明个人的心理健康，无论是由于治疗还是其他缓解因素。我们问：随着时间的推移，心理健康诊断的自我诊断的自我限制在多大程度上？我们分析了五年前在社交媒体上披露抑郁症诊断的个人的最新活动，反过来又对社交媒体上心理健康状况的表现有了新的了解。我们还提供了扩展的证据，证明使用自被诊断的数据集中存在与人格相关的偏差。我们的发现激发了三个实用建议，用于改善使用自lif诊诊断策划的心理健康数据集：1）注释诊断日期和精神病合并症； 2）使用倾向得分匹配的样本对照组； 3）识别和删除选择偏差引入的虚假相关性。

translated by 谷歌翻译

Thread With Caution: Proactively Helping Users Assess and Deescalate Tension in Their Online Discussions

Jonathan P. Chang , Charlotte Schluger , Cristian Danescu-Niculescu-Mizil

分类：人工智能 | 自然语言处理

2022-12-02

Incivility remains a major challenge for online discussion platforms, to such an extent that even conversations between well-intentioned users can often derail into uncivil behavior. Traditionally, platforms have relied on moderators to -- with or without algorithmic assistance -- take corrective actions such as removing comments or banning users. In this work we propose a complementary paradigm that directly empowers users by proactively enhancing their awareness about existing tension in the conversation they are engaging in and actively guides them as they are drafting their replies to avoid further escalation. As a proof of concept for this paradigm, we design an algorithmic tool that provides such proactive information directly to users, and conduct a user study in a popular discussion platform. Through a mixed methods approach combining surveys with a randomized controlled experiment, we uncover qualitative and quantitative insights regarding how the participants utilize and react to this information. Most participants report finding this proactive paradigm valuable, noting that it helps them to identify tension that they may have otherwise missed and prompts them to further reflect on their own replies and to revise them. These effects are corroborated by a comparison of how the participants draft their reply when our tool warns them that their conversation is at risk of derailing into uncivil behavior versus in a control condition where the tool is disabled. These preliminary findings highlight the potential of this user-centered paradigm and point to concrete directions for future implementations.

translated by 谷歌翻译

Enriching Abusive Language Detection with Community Context

Jana Kurrek , Haji Mohammad Saleem , Derek Ruths

分类：自然语言处理

2022-06-16

贬值表达的使用可以是良性或积极赋予能力的。当滥用检测模型将这些表达式错误分类为贬义时，它们无意中审查了边缘化群体进行的生产性对话。参与非主导观点的一种方法是添加围绕对话的上下文。先前的研究利用了用户和线程级别的功能，但它经常忽略了发生生产性对话的空间。我们的论文强调了社区环境如何改善滥用语言检测的分类结果。我们为此做出了两个主要贡献。首先，我们证明，在线社区以他们对虐待受害者的支持的性质聚集。其次，我们确定社区环境如何提高准确性并降低最先进的滥用语言分类器的假阳性率。这些发现暗示了在滥用语言研究中的上下文感知模型的有希望的方向。

translated by 谷歌翻译

The Problem of Semantic Shift in Longitudinal Monitoring of Social Media: A Case Study on Mental Health During the COVID-19 Pandemic

Keith Harrigian , Mark Dredze

分类：自然语言处理

2022-06-22

社交媒体使研究人员能够根据语言分析工具来跟踪社会和文化变化。这些工具中的许多工具都依靠统计算法，这些算法需要调整为特定类型的语言。最近的研究表明，没有适当的调整，特别是在语义转移的情况下，可能会阻碍潜在方法的鲁棒性。但是，对于这种敏感性可能对下游纵向分析的实际影响知之甚少。我们通过及时的案例研究在文献中探讨了这一差距：在19009年大流行期间，了解抑郁症的转变。我们发现，仅包含少数语义上的特征可以促进目标结局的纵向估计值的重大变化。同时，我们证明了最近引入的测量语义转移方法可用于主动识别基于语言的模型的失败点，从而改善预测性概括。

translated by 谷歌翻译

Social Media Engagement and Cryptocurrency Performance

Khizar Qureshi , Tauhid Zaman

分类：人工智能

2022-09-07

我们研究了使用社交媒体数据预测加密货币未来表现的问题。我们提出了一个新模型，以根据与社交媒体帖子的互动来衡量用户与社交媒体讨论的主题的参与。该模型克服了以前的卷和基于情感的方法的局限性。我们使用此模型来估计2019年至2021年之间使用来自加密货币存在的第一个月的数据在2019年至2021年之间创建的48个加密货币的参与系数。我们发现加密货币的未来回报取决于参与系数。参与系数太低或太高的加密货币的回报较低。低参与系数表明缺乏兴趣，而高参与系数信号是人工活动，这可能来自自动化的bot。我们测量了加密货币的机器人柱数量，并发现通常，具有更多机器人柱的加密货币的未来回报较低。尽管未来的回报取决于机器人活动和参与系数，但依赖性对于参与系数最强，尤其是对于短期收益。我们显示，以超过固定阈值的参与系数选择加密货币的简单投资策略在几个月的固定时间内表现良好。

translated by 谷歌翻译

Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media during the COVID-19 Crisis

Bing He , Caleb Ziems , Sandeep Soni , Naren Ramakrishnan , Diyi Yang , Srijan Kumar

分类：自然语言处理

2020-05-25

Covid-19的传播引发了针对亚洲社区的社交媒体的种族主义和仇恨。然而，关于种族仇恨在大流行期间的差异和柜台垂直在减轻这种蔓延的角色时，很少见过。在这项工作中，我们研究了通过推特镜头的反亚洲仇恨演讲的演变和传播。我们创建了Covid-讨厌，这是一个跨越14个月的反亚洲仇恨和柜台的最大数据集，含有超过2.06亿推文，以及超过1.27亿节节点的社交网络。通过创建一个新的手工标记数据集，3,355推文，我们培训文本分类器以识别仇恨和柜台jeech推文，以实现0.832的平均宏F1得分。使用此数据集，我们对推文和用户进行纵向分析。社交网络的分析揭示了可恨和柜台的用户互相互动，彼此广泛地互动，而不是生活在孤立的极化社区中。我们发现在暴露于仇恨内容后，节点很可能变得仇恨。值得注意的是，柜台椎间目可能会阻止用户转向仇恨，可能暗示在Web和社交媒体平台上遏制讨厌的解决方案。数据和代码是在http://claws.cc.gatech.edu/covid。

translated by 谷歌翻译

From words to connections: Word use similarity as an honest signal conducive to employees' digital communication

A. Fronzetti Colladon , J. Saint-Charles , P. Mongeau

分类：自然语言处理

2021-11-11

从三个研究趋势中汇集了考虑（合作的诚实信号，社会语义网络和同性恋理论），我们假设字词使用相似性并具有类似的社交网络位置与员工数字交互的水平相关联。为了验证我们的假设，我们分析了近1600名员工的沟通，在大公司的Intranet通信论坛上互动。我们研究了他们的社会动态和“诚实信号”，在过去的研究中证明有利于员工的参与和合作。我们发现这个词使用相似性是交互的主要驱动因素，远远超过网络位置的其他语言特征或相似性。我们的结果表明根据目标受众仔细选择语言，并对公司经理和在线社区管理员进行实际影响。例如，了解如何更好的使用语言可以支持开发知识共享实践或内部通信活动。

translated by 谷歌翻译

Characterizing Multi-Domain False News and Underlying User Effects on Chinese Weibo

Qiang Sheng , Juan Cao , H. Russell Bernard , Kai Shu , Jintao Li , Huan Liu

分类：自然语言处理

2022-05-06

在过去几年中，社交媒体上传播的错误消息激增，并导致了现实世界中的多种威胁。尽管有关于特定领域的虚假新闻（例如政治或医疗保健）的研究，但比较跨领域的虚假新闻几乎没有工作。在本文中，我们调查了2009年至2019年中国最大的Twitter式社交媒体平台的微博上的九个领域的虚假新闻。新收集的数据包含44,728个帖子，由40,215个用户发布，并重新发布了。 340万次。基于多域数据集的分布和传播，我们观察到，在诸如健康和医学之类的日常生活的领域中，虚假的消息比政治等其他领域的帖子更有效，但有效地传播的帖子较少，而政治虚假新闻具有最有效的扩散能力。关于微博上广泛散布的虚假新闻帖子与某些类型的用户（按性别，年龄等。此外，这些帖子都引起了重新播放的强烈情绪，并随着False-News启动器的积极参与而进一步扩散。我们的发现有可能在可疑新闻发现，真实性预测以及显示和解释中帮助设计错误的新闻检测系统。微博上的发现与现有作品的发现表明了细微的模式，这表明需要对来自不同平台，国家或语言的数据进行更多研究，以解决全球错误新闻。代码和新的匿名数据集可在https://github.com/ictmcg/characterizing-weibo-multi-domain-false-news上找到。

translated by 谷歌翻译

Relationship Between Online Harmful Behaviors and Social Network Message Writing Style

Talia Sanchez Viera , Richard Khoury

分类：自然语言处理

2022-12-14

In this paper, we explore the relationship between an individual's writing style and the risk that they will engage in online harmful behaviors (such as cyberbullying). In particular, we consider whether measurable differences in writing style relate to different personality types, as modeled by the Big-Five personality traits and the Dark Triad traits, and can differentiate between users who do or do not engage in harmful behaviors. We study messages from nearly 2,500 users from two online communities (Twitter and Reddit) and find that we can measure significant personality differences between regular and harmful users from the writing style of as few as 100 tweets or 40 Reddit posts, aggregate these values to distinguish between healthy and harmful communities, and also use style attributes to predict which users will engage in harmful behaviors.

translated by 谷歌翻译

An Information Retrieval Approach to Building Datasets for Hate Speech Detection

Md Mustafizur Rahman , Dinesh Balakrishnan , Dhiraj Murthy , Mucahid Kutlu , Matthew Lease

分类：自然语言处理

2021-06-17

构建用于仇恨语音检测的基准数据集具有各种挑战。首先，因为仇恨的言论相对少见，随机抽样对诠释的推文是非常效率的发现仇恨。为了解决此问题，先前的数据集通常仅包含匹配已知的“讨厌字”的推文。然而，将数据限制为预定义的词汇表可能排除我们寻求模型的现实世界现象的部分。第二个挑战是仇恨言论的定义往往是高度不同和主观的。具有多种讨论仇恨言论的注释者可能不仅可能不同意彼此不同意，而且还努力符合指定的标签指南。我们的重点识别是仇恨语音的罕见和主体性类似于信息检索（IR）中的相关性。此连接表明，可以有效地应用创建IR测试集合的良好方法，以创建更好的基准数据集以进行仇恨语音。为了智能和有效地选择要注释的推文，我们应用{\ em汇集}和{em主动学习}的标准IR技术。为了提高注释的一致性和价值，我们应用{\ EM任务分解}和{\ EM注释器理由}技术。我们在Twitter上共享一个用于仇恨语音检测的新基准数据集，其提供比以前的数据集更广泛的仇恨覆盖。在这些更广泛形式的仇恨中测试时，我们还表现出现有检测模型的准确性的戏剧性降低。注册器理由我们不仅可以证明标签决策证明，而且还可以在建模中实现未来的双重监督和/或解释生成的工作机会。我们的方法的进一步细节可以在补充材料中找到。

translated by 谷歌翻译