建模是什么使广告有说服力的原因,即引起消费者的所需响应,对于宣传,社会心理学和营销的研究至关重要。尽管其重要性,但计算机视觉中说服力的计算建模仍处于起步阶段,这主要是由于缺乏可以提供与ADS相关的说服力标签的基准数据集。由社会心理学和市场营销中的说服文学的激励,我们引入了广泛的说服策略词汇,并建立了用说服策略注释的第一个AD图像语料库。然后,我们通过多模式学习制定说服策略预测的任务,在该任务中,我们设计了一个多任务注意融合模型,该模型可以利用其他广告理解的任务来预测说服策略。此外,我们对30家财富500家公司的1600个广告活动进行了真实的案例研究,我们使用模型的预测来分析哪些策略与不同的人口统计学(年龄和性别)一起使用。该数据集还提供图像分割掩码,该蒙版在测试拆分上标记了相应的AD图像中的说服力策略。我们公开发布代码和数据集https://midas-research.github.io/persuasion-avertisements/。
translated by 谷歌翻译
在目前的互联网时代,社交媒体平台容易抵达每个人,由于与演员,信条,性别,宗教甚至接受,人们往往必须应对威胁,身份攻击,仇恨和欺凌或拒绝概念。仇恨语音检测中的现有工作主要关注各个评论分类作为序列标签任务,并且经常无法考虑对话的上下文。在确定作者的意图和发布后的情绪时,谈话的上下文通常在促进推文背后的情绪时发挥着重要作用。本文介绍了哈索克 - IIITD团队 - IIITD的系统提出的系统,该系统是第一个共享任务,专注于检测来自推特上的HINDI英语代码混合对话的仇恨语音。我们使用神经网络接近此问题,利用变压器的交叉逻辑嵌入,并进一步向他们提供低资源仇恨语音分类,以便在音译后的印度文本中进行低资源仇恨语音分类。我们最好的表演系统,一项艰难的投票集合,XLM-Roberta和多语言伯特,实现了0.7253的宏F1得分,首先在整个排行榜榜上放置我们。
translated by 谷歌翻译
英语水平评估已成为过滤和选择学术界和工业的预期候选人的必要度量。随着这种评估需求的增加,越来越必要拥有自动化的人类可意识的结果,以防止不一致并确保对第二语言学习者有意义的反馈。基于特征的经典方法在理解得分模型学习的内容方面更具可解释。因此,在这项工作中,我们利用古典机器学习模型作为分类和回归问题的语音评分任务,其次是彻底的研究来解释和研究语言线索与扬声器的英语水平之间的关系。首先,我们提取五个类别(流利,发音,内容,语法和词汇和声学)的语言学家特征,并列车模型到级响应。相比之下,我们发现基于回归的模型相当于或更好地比分类方法更好。其次,我们进行消融研究以了解每个特征和特征类别对熟练分级性能的影响。此外,要了解个别特征贡献,我们展示了顶部特征对分级任务的最佳执行算法的重要性。第三,我们利用部分依赖性地块和福芙值来探索特征重要性,并得出结论,最好的培训模式了解用于分级本研究中使用的数据集的底层尺寸。
translated by 谷歌翻译
自动评分(AS),在教育测试环境中评分散文和演讲的自然语言处理任务,越来越受欢迎,并在政府考试到提供语言能力服务的公司的普及和部署。然而,现有系统完全放弃人类评估者,从而损害了测试的可靠性,或者人类和机器的每一个响应都增加了成本。我们瞄准可能的解决方案的频谱,利用人和机器提供更高质量的测试,同时保持成本合理,使民主化进入。在这项工作中,我们提出了现有范式的组合,智能地用人类评分的抽样回应。我们提出奖励采样,并在准确性(平均平均增长19.80%)和二次加权kappa(QWK)(平均平均25.60%)的大幅提升,使用我们提出的抽样,具有相对较小的人类预算(30%)。使用标准随机和重要采样基线观察的精度增加分别为8.6%和12.2%。此外,我们通过在目前部署的各种模型和伪模型中测量其在各种模型以及伪模型中,展示系统模型不可知性的性质。最后,我们提出了一种算法来估计具有统计保证的准确性/ QWK(我们的代码在https://git.io/j1ioy上提供)。
translated by 谷歌翻译
毒性言论,也被称为仇恨言论,被认为是今天批评在线社交媒体的重要问题之一。最近关于有毒语音检测的工作受到文本的模型,没有现有的毒性检测从口语中的出口检测。在本文中,我们提出了一种从口语中检测毒性的新口语处理任务。我们介绍了排毒,这是英语演讲的第一个公开的毒性注释数据集,来自各种公开可用的语音数据库,包括超过200万个话语。最后,我们还提供了对毒性注释的语音语料库的分析可以帮助促进E2E模型的发展,更好地捕获语音中的各种韵律线索,从而提高了口语的毒性分类。
translated by 谷歌翻译
在过去的三年里,自动评分发动机已被用于评分大约五百万个测试者。由于Covid-19和相关的教育和测试自动化,这个数字进一步增加。尽管使用了这么广泛,但基于AI的测试文献非常缺乏。提出新模型的大多数论文仅依赖于基于二次加权的Kappa(QWK)与人类评估者的协议,以显示模型效能。然而,这有效地忽略了论文评分的高度多重特征性质。论文评分取决于相干性,语法,相关性,充足和,词汇等特征。迄今为止,没有研究检测自动化论文评分:AES系统在全面上的所有这些功能。通过这种动机,我们为AES系统提出了一种模型不良反对派评估计划和相关指标,以测试其自然语言的理解能力和整体鲁棒性。我们使用所提出的方案评估当前的最先进的AES模型,并在最近的五个模型上报告结果。这些型号范围从基于特征为本的最新深度学习算法的方法。我们发现AES模型是高度不夸张的。即使是重型修改(高达25%)与问题无关的内容也不会降低模型产生的分数。另一方面,平均不相关的内容增加了分数,从而表明应该重新考虑模型评估策略和尺寸。我们还要求200名人类评估者在看到人类可以检测到两者之间的差异以及是否同意自动分数分配的分数的同意,以获得原始和对抗的反应。
translated by 谷歌翻译
在本文中,我们介绍了一个用于音频和语音的协作和现代注释工具:奥迪诺。该工具允许注释器在Audios中定义和描述时间分段。可以使用动态生成的形式轻松标记这些段和转录。管理员可以通过管理仪表板集中控制用户角色和项目分配。仪表板还可以描述标签及其值。可以轻松地以JSON格式导出注释以进行进一步分析。该工具允许通过基于键的API来上载和分配给用户的音频数据及其相应的注释。注释工具中可用的灵活性使注释进行演讲评分,语音活动检测(VAD),扬声器沿和扬声器识别,语音识别,情感识别任务等等。麻省理工学院开源许可证允许它用于学术和商业项目。
translated by 谷歌翻译
在这项研究中,我们提出了一种新的多模态端到端神经网络,用于使用注意融合自动评估非母语英语扬声器的自发言论。管道采用双向反复化卷积神经网络和双向长短期记忆神经网络,分别从谱图和转录中编码声学和词汇线索。对这些学习的预测特征进行注意融合,以在最终得分之前学习不同方式之间的复杂相互作用。我们将模型与强型基线进行比较,并发现对词汇和声学线索的综合关注显着提高了系统的整体性能。此外,我们对我们的模型提供了一种定性和定量分析。
translated by 谷歌翻译
我们使用实际用户设备上的联合学习训练了一个关键字发现模型,并在部署模型以推断电话时观察到了重大改进。为了补偿在设备培训缓存中缺少的数据域,我们采用了联合联邦中心化培训。为了在没有策划标签的设备上学习,我们根据用户反馈信号制定了置信度过滤策略,用于联合蒸馏。这些技术创建了模型,可在实时A/B实验中显着改善离线评估和用户体验指标的质量指标。
translated by 谷歌翻译
When robots learn reward functions using high capacity models that take raw state directly as input, they need to both learn a representation for what matters in the task -- the task ``features" -- as well as how to combine these features into a single objective. If they try to do both at once from input designed to teach the full reward function, it is easy to end up with a representation that contains spurious correlations in the data, which fails to generalize to new settings. Instead, our ultimate goal is to enable robots to identify and isolate the causal features that people actually care about and use when they represent states and behavior. Our idea is that we can tune into this representation by asking users what behaviors they consider similar: behaviors will be similar if the features that matter are similar, even if low-level behavior is different; conversely, behaviors will be different if even one of the features that matter differs. This, in turn, is what enables the robot to disambiguate between what needs to go into the representation versus what is spurious, as well as what aspects of behavior can be compressed together versus not. The notion of learning representations based on similarity has a nice parallel in contrastive learning, a self-supervised representation learning technique that maps visually similar data points to similar embeddings, where similarity is defined by a designer through data augmentation heuristics. By contrast, in order to learn the representations that people use, so we can learn their preferences and objectives, we use their definition of similarity. In simulation as well as in a user study, we show that learning through such similarity queries leads to representations that, while far from perfect, are indeed more generalizable than self-supervised and task-input alternatives.
translated by 谷歌翻译