智能论文笔记

Insurgency as Complex Network: Image Co-Appearance and Hierarchy in the PKK

Ollie Ballinger

分类：人工智能 | 计算机视觉 | 机器学习

2022-07-14

尽管人们对叛乱团体结构对冲突结果的重要性越来越多，但那里的实证研究很少。尽管此问题源于激进群体结构的数据的无法获取性，但叛乱分子经常在Internet上发布大量图像数据。在本文中，我开发了一种新的方法，该方法通过自动化基于在照片中使用深度学习的照片中的共同出现的社交网络图来自动创建社交网络图，从而利用了这种丰富但未充分利用的数据来源。我使用库尔德人武装组织在土耳其的库尔德人激进组织在线发布的1915张ob告图像，我证明了个人在由此产生的共同出现网络中的中心地位与他们在叛乱组织中的排名密切相关。

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

The language and social behavior of innovators

A. Fronzetti Colladon , L. Toschi , E. Ughetto , F. Greco

分类：自然语言处理

2022-09-20

创新者是有创造力的人，他们可以唤起代表创新组织主要引擎的开创性思想。过去的研究已广泛调查了谁是创新者以及他们在与工作有关的活动中的行为。在本文中，我们建议有必要分析创新者在其他情况下的行为，例如在非正式沟通空间中，在没有正式结构，规则和工作义务的情况下共享知识。利用通信和网络理论，我们分析了大型跨国公司的Intranet论坛上可用的38,000个帖子。由此，我们解释了创新者在社交网络行为和语言特征方面与其他员工的不同。通过文本挖掘，我们发现创新者编写更多，使用更复杂的语言，介绍新的概念/想法，并使用积极但基于事实的语言。了解创新者的行为和沟通如何支持想要促进创新的经理的决策过程。

translated by 谷歌翻译

A Modular Framework for Centrality and Clustering in Complex Networks

Frederique Oggier , Silivanxay Phetsouvanh , Anwitaman Datta

分类：机器学习

2021-11-23

许多复杂网络的结构包括其拓扑顶部的边缘方向性和权重。可以无缝考虑这些属性组合的网络分析是可取的。在本文中，我们研究了两个重要的这样的网络分析技术，即中心和聚类。采用信息流基于集群的模型，该模型本身就是在计算中心的信息定理措施时构建。我们的主要捐款包括马尔可夫熵中心的广义模型，灵活地调整节点度，边缘权重和方向的重要性，具有闭合形式的渐近分析。它导致一种新颖的两级图形聚类算法。中心分析有助于推理我们对给定图形的方法的适用性，并确定探索当地社区结构的“查询”节点，从而导致群集聚类机制。熵中心计算由我们的聚类算法摊销，使其计算得高效：与使用马尔可夫熵中心为聚类的先前方法相比，我们的实验表明了多个速度的速度。我们的聚类算法自然地继承了适应边缘方向性的灵活性，以及边缘权重和节点度之间的不同解释和相互作用。总的来说，本文不仅具有显着的理论和概念贡献，还转化为实际相关性的文物，产生新的，有效和可扩展的中心计算和图形聚类算法，其有效通过广泛的基准测试进行了验证。

translated by 谷歌翻译

Between welcome culture and border fence. A dataset on the European refugee crisis in German newspaper reports

Nico Blokker , André Blessing , Erenay Dayanik , Jonas Kuhn , Sebastian Padó , Gabriella Lapesa

分类：自然语言处理

2021-11-19

报纸报告提供有关关于特定政策领域的公开辩论的丰富信息来源，该领域可以作为政治科学探究的依据。这种辩论通常由关键事件引发，这引起了公众的关注和煽动政治行动者的反应：危机引发了辩论。但是，由于可靠的注释和建模的挑战，很少有很多具有高质量注释的大规模数据集。本文介绍了Debatenet2.0，它在2015年期间追溯了德国优质报纸Taz欧洲难民危机的政治话语。我们的注释的核心单位是政治索赔（请求在政策领域内采取的具体行动）和制定它们的演员（政治家，派对等）。本文的贡献是双重的。首先，我们与其同伴R包，Mardyr，通过与报纸上的政策辩论的诠释的实际和概念问题引导读者，将DebateneT2.0与其伴侣R封装联系起来。其次，我们概述并将话语网络分析（DNA）应用于Debatenet2.0，比较了对“难民危机”的政策辩论的两个至关重要的时刻：4月/ 5月的地中海的移民通量和沿巴尔干路线的迁移渠道9月/ 10月。除了释放的资源和案例研究外，我们的贡献也是方法论：我们通过报纸文章向话语网络的步骤讨论读者，表明德国迁移辩论不仅仅是一个话语网络，而是多个话语，取决于兴趣主题（政治行动者，政策领域，时间跨度）。

translated by 谷歌翻译

Big data's disparate impact

分类：

Advocates of algorithmic techniques like data mining argue that these techniques eliminate human biases from the decision-making process. But an algorithm is only as good as the data it works with. Data is frequently imperfect in ways that allow these algorithms to inherit the prejudices of prior decision makers. In other cases, data may simply reflect the widespread biases that persist in society at large. In still others, data mining can discover surprisingly useful regularities that are really just preexisting patterns of exclusion and inequality. Unthinking reliance on data mining can deny historically disadvantaged and vulnerable groups full participation in society. Worse still, because the resulting discrimination is almost always an unintentional emergent property of the algorithm's use rather than a conscious choice by its programmers, it can be unusually hard to identify the source of the problem or to explain it to a court. This Essay examines these concerns through the lens of American antidiscrimination law-more particularly, through Title

translated by 谷歌翻译

Multi-modal Networks Reveal Patterns of Operational Similarity of Terrorist Organizations

Gian Maria Campedelli , Iain J. Cruickshank , Kathleen M. Carley

分类：机器学习

2021-12-15

捕获恐怖主义群体中运营相似性的动态至关重要，为反恐和智力监测提供可操作的见解。然而，尽管其理论和实用相关性，目前缺乏研究解决这个问题。我们解决这个问题，提出了一种用于检测分享类似行为的恐怖组群集群的新的计算框架，专注于集团的年曲目的部署策略，攻击目标和利用武器。特别考虑到从1997年到2018年签署至少50次攻击的那些组织，总共占全球42,000多个活动的105组，我们提供三套结果。首先，我们表明，多年来，全球恐怖主义的特点是越来越多的运营凝聚力。其次，我们强调，在2009年至2018年，群体之间共聚类的年度达到稳定性，表明过去十年中相似模式的时间一致性。第三，我们证明，两个组织之间的操作相似性由三个因素驱动：（a）其整体活动; （b）业务曲目的多样性差异; （c）多样性和活动的综合衡量标准的差异。团体的运营偏好，地理性交和思想亲和力在确定操作相似性方面没有一致的作用。

translated by 谷歌翻译

Fairness in Recommender Systems: Research Landscape and Future Directions

Yashar Deldjoo , Dietmar Jannach , Alejandro Bellogin , Alessandro Difonzo , Dario Zanzonelli

分类：人工智能

2022-05-23

Recommender systems can strongly influence which information we see online, e.g., on social media, and thus impact our beliefs, decisions, and actions. At the same time, these systems can create substantial business value for different stakeholders. Given the growing potential impact of such AI-based systems on individuals, organizations, and society, questions of fairness have gained increased attention in recent years. However, research on fairness in recommender systems is still a developing area. In this survey, we first review the fundamental concepts and notions of fairness that were put forward in the area in the recent past. Afterward, through a review of more than 150 scholarly publications, we present an overview of how research in this field is currently operationalized, e.g., in terms of general research methodology, fairness measures, and algorithmic approaches. Overall, our analysis of recent works points to specific research gaps. In particular, we find that in many research works in computer science, very abstract problem operationalizations are prevalent, and questions of the underlying normative claims and what represents a fair recommendation in the context of a given application are often not discussed in depth. These observations call for more interdisciplinary research to address fairness in recommendation in a more comprehensive and impactful manner.

translated by 谷歌翻译

Challenges of sampling and how phylogenetic comparative methods help: With a case study of the Pama-Nyungan laminal contrast

Jayden L. Macklin-Cordes , Erich R. Round

分类：自然语言处理

2022-01-01

系统发育比较方法在我们的领域是新的，并且对于大多数语言学家来说，至少有一点谜团。然而，导致他们在比较生物学中发现的道路与平衡抽样的方法论历史如此类似，这只是一个历史的事故，即他们没有被典型的专家发现。在这里，我们澄清了系统发育比较方法背后的基本逻辑及其对重点采样的深刻智力传统的基本相关性。然后我们介绍将在日常类型的研究中使用类型的概念，方法和工具，使类型学家能够在日常类型的研究中使用这些方法。系统发育比较方法和平衡采样的关键共性是他们试图因系谱而应对统计非独立性。虽然采样永远不会实现独立性，但需要大多数比较数据被丢弃，系统发育比较方法在保留和使用所有数据的同时实现独立性。我们讨论了系统发育信号的基本概念;关于树木的不确定性;典型的类型学平均值和比例对族谱敏感;跨语言家庭的比较;和体现的影响。广泛的补充材料说明了实际分析的计算工具，我们说明了与帕马尼云根腭膜对比的类型学案例研究讨论的方法。

translated by 谷歌翻译

Pitfalls of Climate Network Construction: A Statistical Perspective

Moritz Haas , Bedartha Goswami , Ulrike von Luxburg

分类：机器学习 | (统计)机器学习

2022-11-05

Network-based analyses of dynamical systems have become increasingly popular in climate science. Here we address network construction from a statistical perspective and highlight the often ignored fact that the calculated correlation values are only empirical estimates. To measure spurious behaviour as deviation from a ground truth network, we simulate time-dependent isotropic random fields on the sphere and apply common network construction techniques. We find several ways in which the uncertainty stemming from the estimation procedure has major impact on network characteristics. When the data has locally coherent correlation structure, spurious link bundle teleconnections and spurious high-degree clusters have to be expected. Anisotropic estimation variance can also induce severe biases into empirical networks. We validate our findings with ERA5 reanalysis data. Moreover we explain why commonly applied resampling procedures are inappropriate for significance evaluation and propose a statistically more meaningful ensemble construction framework. By communicating which difficulties arise in estimation from scarce data and by presenting which design decisions increase robustness, we hope to contribute to more reliable climate network construction in the future.

translated by 谷歌翻译

The Past as a Stochastic Process

David H. Wolpert , Michael H. Price , Stefani A. Crabtree , Timothy A. Kohler , Jurgen Jost , James Evans , Peter F. Stadler , Hajime Shimao , Manfred D. Laubichler

分类：机器学习

2021-12-11

历史流程表现出显着的多样性。尽管如此，学者们长期以来一直试图识别模式，并将历史行动者分类和对一些成功的影响。随机过程框架提供了一种结构化方法，用于分析大型历史数据集，允许检测有时令人惊讶的模式，鉴定内源性和外源对过程的相关因果作用者，以及不同历史案例的比较。随机过程的数据，分析工具和组织理论框架的组合使历史和考古中的传统叙事方法补充了传统的叙事方法。

translated by 谷歌翻译

Quantifying Gender Biases Towards Politicians on Reddit

Sara Marjanovic , Karolina Stańczak , Isabelle Augenstein

分类：自然语言处理

2021-12-22

尽管试图提高政治性别平等，但全球努力仍在努力确保女性的同等代表。这很可能与对权威妇女的性别偏见有关。在这项工作中，我们介绍了在线政治讨论中出现的性别偏见的全面研究。为此，我们在有关男性和女性政客的对话中收集了1000万条有关Reddit的评论，这使得对自动性别偏见检测进行了详尽的研究。我们不仅讨论了厌恶女性的语言，还解决了其他偏见的表现，例如以看似积极的情绪和主导地位归因于女性政客或描述符归因的差异的形式的仁慈性别歧视。最后，我们对调查语言和语言外暗示的政客进行了多方面的性别偏见研究。我们评估了5种不同类型的性别偏见，评估社交媒体语言和话语中存在的覆盖范围，组合，名义，感性和词汇偏见。总体而言，我们发现，与以前的研究相反，覆盖范围和情感偏见表明对女性政客的公共兴趣平等。名义和词汇分析的结果并没有明显的敌对或仁慈的性别歧视，这表明这种兴趣不像男性政客那样专业或尊重。女性政客通常以其名字命名，并与他们的身体，衣服或家庭有关。这是一种与男性相似的治疗方法。在现在被禁止的极右翼子列表中，这种差异最大，尽管性别偏见的差异仍然出现在右和左倾的子列表中。我们将策划的数据集释放给公众以进行未来研究。

translated by 谷歌翻译

Network Report: A Structured Description for Network Datasets

Xinyi Zheng , Ryan A. Rossi , Nesreen Ahmed , Dominik Moritz

分类：机器学习

2022-06-08

网络科学和技术的快速发展取决于可共享的数据集。当前，没有用于报告和共享网络数据集的标准实践。一些网络数据集提供商仅共享链接，而另一些网络数据集提供商提供了一些上下文或基本统计信息。结果，关键信息可能无意间删除，网络数据集消费者可能会误解或忽略关键方面。使用网络数据集不适当地导致严重的后果（例如，歧视），尤其是当将网络上的机器学习模型部署在高维护域中时。挑战出现，因为网络通常在不同的领域（例如网络科学，物理等）上使用并具有复杂的结构。为了促进网络数据集提供商和消费者之间的通信，我们提出了网络报告。网络报告是一个结构化的描述，总结和上下文化网络数据集。网络报告从先前的工作中扩展了数据集报告（例如，数据集的数据表）的想法，其中包含非i.i.d的网络特定说明。自然，人口统计信息，网络特征等。我们希望网络报告鼓励不同领域的网络研发透明度和问责制。

translated by 谷歌翻译

Clustering -- Basic concepts and methods

Jan-Oliver Felix Kapp-Joswig , Bettina G. Keller

分类：机器学习

2022-12-01

We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.

translated by 谷歌翻译

Personalized multi-faceted trust modeling to determine trust links in social media and its potential for misinformation management

Alexandre Parmentier , Robin Cohen , Xueguang Ma , Gaurav Sahu , Queenie Chen

分类：人工智能

2021-11-11

在本文中，我们提出了一种方法，用于预测社交媒体对等体之间的信任链接，其中一个是在多识别信任建模的人工智能面积。特别是，我们提出了一种数据驱动的多面信任信任建模，该信任建模包括许多不同的特征以进行全面分析。我们专注于展示类似用户的聚类如何实现关键新功能：支持更个性化的，从而为用户提供更准确的预测。在信任感知项目推荐任务中说明，我们在大yelp数据集的上下文中评估所提出的框架。然后，我们讨论如何提高社交媒体的可信关系的检测可以帮助在最近爆发的社交网络环境中支持在线用户的违法行为和谣言的传播。我们的结论是关于一个特别易受资助的用户基础，老年人的反思，以说明关于用户组的推理价值，期望通过通过数据分析获得的洞察力集成已知偏好的一些未来方向。

translated by 谷歌翻译

Dimensional Modeling of Emotions in Text with Appraisal Theories: Corpus Creation, Annotation Reliability, and Prediction

Enrica Troiano , Laura Oberländer , Roman Klinger

分类：自然语言处理

2022-06-10

情绪分析中最突出的任务是为文本分配情绪，并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是，即使没有明确提及情感名称，也可以通过单独参考事件来隐式传达情绪。在心理学中，被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量，通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的，如果该人认为自己负责，是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的，例如，新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性，目的是理解注释者是否可以可靠地重建评估概念，如果可以通过文本分类器预测，以及评估概念是否有助于识别情感类别。为了实现这一目标，我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后，我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估，并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明，两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明，评估概念改善了文本中情绪的分类。

translated by 谷歌翻译

PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

Jingqing Zhang , Yao Zhao , Mohammad Saleh , Peter J. Liu

分类：

2019-12-18

Recent work pre-training Transformers with self-supervised objectives on large text corpora has shown great success when fine-tuned on downstream NLP tasks including text summarization. However, pre-training objectives tailored for abstractive text summarization have not been explored. Furthermore there is a lack of systematic evaluation across diverse domains. In this work, we propose pre-training large Transformer-based encoder-decoder models on massive text corpora with a new selfsupervised objective. In PEGASUS, important sentences are removed/masked from an input document and are generated together as one output sequence from the remaining sentences, similar to an extractive summary. We evaluated our best PEGASUS model on 12 downstream summarization tasks spanning news, science, stories, instructions, emails, patents, and legislative bills. Experiments demonstrate it achieves state-of-the-art performance on all 12 downstream datasets measured by ROUGE scores. Our model also shows surprising performance on low-resource summarization, surpassing previous state-of-the-art results on 6 datasets with only 1000 examples. Finally we validated our results using human evaluation and show that our model summaries achieve human performance on multiple datasets.

translated by 谷歌翻译

Community Detection in Weighted Multilayer Networks with Ambient Noise

Mark He , Dylan Lu , Jason Xu , Rose Mary Xavier

分类： (统计)机器学习

2021-02-24

我们介绍了一个新型的多层加权网络模型，该模型除了本地信号外，还考虑了全局噪声。该模型类似于多层随机块模型（SBM），但关键区别在于，跨层之间的块之间的相互作用在整个系统中是常见的，我们称之为环境噪声。单个块还以这些固定的环境参数为特征，以表示不属于其他任何地方的成员。这种方法允许将块同时聚类和类型化到信号或噪声中，以便更好地理解其在整个系统中的作用，而现有块模型未考虑。我们采用了分层变异推断的新颖应用来共同检测和区分块类型。我们称此模型为多层加权网络称为随机块（具有）环境噪声模型（SBANM），并开发了相关的社区检测算法。我们将此方法应用于费城神经发育队列中的受试者，以发现与精神病有关的具有共同心理病理学的受试者社区。

translated by 谷歌翻译

Supporting peace negotiations in the Yemen war through machine learning

M. Arana-Catania , F. A. Van Lier , Rob Procter

分类：自然语言处理 | 机器学习

2022-07-23

当今的冲突变得越来越复杂，流畅和分散，通常涉及许多具有多重且经常发散利益的国家和国际参与者。随着调解员努力使冲突动态有理由，例如冲突政党的范围和政治立场的演变，相关与较少相关的参与者在和平建立和认同之间的区别或身份证明，这一发展构成了冲突调解的重大挑战。关键冲突问题及其相互依存。国际和平努力似乎不足以成功应对这些挑战。尽管技术已经在与冲突相关的领域进行了试验和使用，例如预测冲突或信息收集，但对技术如何促进冲突调解的关注较少。该案例研究有助于有关在冲突调解过程中使用最先进的机器学习技术和技术的新兴研究。本研究使用也门和平谈判中的对话成绩单，通过为他们提供知识管理，提取和冲突分析的工具来有效地支持中介团队。除了说明冲突调解中的机器学习工具的潜力外，本文还强调了跨学科和参与性的共同创造方法对开发上下文敏感和有针对性的工具的重要性，并确保有意义和负责任的实施。

translated by 谷歌翻译

From words to connections: Word use similarity as an honest signal conducive to employees' digital communication

A. Fronzetti Colladon , J. Saint-Charles , P. Mongeau

分类：自然语言处理

2021-11-11

从三个研究趋势中汇集了考虑（合作的诚实信号，社会语义网络和同性恋理论），我们假设字词使用相似性并具有类似的社交网络位置与员工数字交互的水平相关联。为了验证我们的假设，我们分析了近1600名员工的沟通，在大公司的Intranet通信论坛上互动。我们研究了他们的社会动态和“诚实信号”，在过去的研究中证明有利于员工的参与和合作。我们发现这个词使用相似性是交互的主要驱动因素，远远超过网络位置的其他语言特征或相似性。我们的结果表明根据目标受众仔细选择语言，并对公司经理和在线社区管理员进行实际影响。例如，了解如何更好的使用语言可以支持开发知识共享实践或内部通信活动。

translated by 谷歌翻译