尽管政府的信息运动和谁努力,但Covid-19疫苗犹豫不决是广泛的。其背后的原因之一是疫苗虚假信息在社交媒体中广泛传播。特别是,最近的调查确定,疫苗的虚假信息正在影响COVID-19-19疫苗接种的负面信任。同时,由于大规模的社交媒体,事实检查者正在努力检测和跟踪疫苗虚假信息。为了帮助事实检查员在线监视疫苗叙事,本文研究了一项新的疫苗叙事分类任务,该任务将Covid-19疫苗主张的疫苗索赔分为七个类别之一。遵循数据增强方法,我们首先为这项新的分类任务构建了一个新颖的数据集,重点是少数群体。我们还利用事实检查器注释的数据。该论文还提出了神经疫苗叙事分类器,在交叉验证下达到84%的精度。分类器可公开用于研究人员和记者。
translated by 谷歌翻译
在这项工作中,我们提出了一种从IDE中从用户那里收集完成使用日志的方法,并使用它们来训练基于机器学习的模型来排名完成​​候选。我们开发了一组描述候选人及其上下文的功能,并在基于Intellij的IDE的早期访问程序中部署了其匿名集合。我们使用日志从用户那里收集代码完成数据集,并使用它来训练排名catboost模型。然后,我们在两种设置中对其进行了评估:在收集到的完成的一组持有的集合中,并在IDE中的两个不同组的用户对单独的A/B测试中进行了评估。我们的评估表明,使用对过去用户行为日志训练的简单排名模型可显着改善代码完成体验。与默认的基于启发式的排名相比,我们的模型表明,在2.073中执行IDE完成所需的打字操作数量减少到1.832。该方法遵守隐私要求和法律约束,因为它不需要收集个人信息,在客户方面执行所有必要的匿名化。重要的是,它可以连续改进:实施新功能,收集新数据并评估新模型 - 这样,我们自2020年底以来就一直在生产中使用它。
translated by 谷歌翻译
会话分析系统使用嘈杂的人体标签培训,并且在多模态特征提取期间通常需要重型预处理。在单任务学习中使用嘈杂的标签会增加过度拟合的风险。辅助任务可以在同一培训期间提高主要任务学习的性能 - 这种方法坐在转移学习和多任务学习(MTL)的交叉点。在本文中,我们探讨了用于特征工程的预处理数据如何重新用作辅助任务,从而促进数据的生产使用。我们的主要贡献是:(1)鉴定六四有利的辅助任务,(2)研究主要和辅助任务之间的学习能力的方法,以及(3)研究主要和辅助任务之间的相对监督层次结构。对IEMocap和Semaine数据的广泛实验验证了对单任务方法的改进,并建议它可以跨多个主要任务概括。
translated by 谷歌翻译