作为人类,我们可以通过想象我们的思想中的替代对象或概念来修改对场景的假设。例如,我们可以轻松地预见到雨云(例如,街道会被弄湿),并为此做准备。在本文中,我们介绍了一个新任务/数据集,称为反事实场景(COSIM),旨在评估AI系统对场景变化想象的推论的能力。在此任务/数据集中,为图像提供了模型和一个初始的问题响应对。接下来,应用了反事实想象的场景更改(以文本形式),该模型必须根据此场景更改预测对初始问题的新回答。我们收集3.5k高质量和具有挑战性的数据实例,每个实例都包含图像,一个常识性问题,响应,对反事实变化的描述,对问题的新回答以及三个干扰器响应。我们的数据集包含各种复杂的场景更改类型(例如对象添加/删除/状态更改,事件描述,环境更改等),这些更改需要模型来想象许多不同的场景和原因。我们提出了基于视觉变压器(即LXMERT)和消融研究的基线模型。通过人类的评估,我们证明了较大的人类模型性能差距,这为有望在这项具有挑战性的反事实,场景想象任务上做出有希望的未来工作。我们的代码和数据集可公开可用:https://github.com/hyounghk/cosim
translated by 谷歌翻译
Automation in farming processes is a growing field of research in both academia and industries. A considerable amount of work has been put into this field to develop systems robust enough for farming. Terrace farming, in particular, provides a varying set of challenges, including robust stair climbing methods and stable navigation in unstructured terrains. We propose the design of a novel autonomous terrace farming robot, Aarohi, that can effectively climb steep terraces of considerable heights and execute several farming operations. The design optimisation strategy for the overall mechanical structure is elucidated. Further, the embedded and software architecture along with fail-safe strategies are presented for a working prototype. Algorithms for autonomous traversal over the terrace steps using the scissor lift mechanism and performing various farming operations have also been discussed. The adaptability of the design to specific operational requirements and modular farm tools allow Aarohi to be customised for a wide variety of use cases.
translated by 谷歌翻译
半监督域适应性(SSDA)中的主要挑战之一是标记源和目标样本数量之间的偏差比,导致该模型偏向源域。 SSDA中的最新作品表明,仅将标记的目标样品与源样本对齐可能导致目标域与源域的不完全域对齐。在我们的方法中,为了使两个域对齐,我们利用对比的损失,使用来自两个域的监督样本学习语义上有意义的域不可知特征空间。为了减轻偏斜标签比率引起的挑战,我们通过将其特征表示形式与来自源和目标域的标记样品的特征表示形式进行比较,为未标记的目标样本进行了伪造。此外,为了增加目标域的支持,在训练过程中,这些潜在的嘈杂的伪标签逐渐被逐渐注入标记的目标数据集中。具体而言,我们使用温度缩放的余弦相似性度量将软伪标签分配给未标记的目标样品。此外,我们计算每个未标记样品的软伪标签的指数移动平均值。这些伪标签逐渐注入或删除)(从)基于置信阈值(以补充源和目标分布的比对)(从)中(从)中。最后,我们在标记和伪标记的数据集上使用有监督的对比损失来对齐源和目标分布。使用我们提出的方法,我们在SSDA基准测试中展示了最先进的性能-Office-Home,Domainnet和Office-31。
translated by 谷歌翻译
这项工作介绍了Revsilo,这是双向多尺度特征融合的第一个可逆模块。像其他可逆方法一样,Revsilo消除了通过重新计算来存储隐藏激活的需求。但是,现有的可逆方法不适用于多尺度功能融合,因此不适用于大型网络。双向多尺度功能融合促进了本地和全球连贯性,并已成为针对空间敏感任务的网络的事实上的设计原理,例如hrnet和效率。当与高分辨率输入配对时,这些网络可以在各种计算机视觉任务中获得最新的结果,但是训练它们需要大量的加速器内存来节省大型的多分辨率激活。这些内存需求上限网络大小并限制进度。利用可逆的重新计算,Revsilo可以减轻记忆问题,同时仍在分辨率范围内运行。堆叠Revsilos,我们创建了RevBIFPN,这是一个完全可逆的双向功能金字塔网络。对于分类,RevBIFPN在使用高达19.8倍的训练记忆时与诸如EdgitionNet之类的网络具有竞争力。当对可可进行微调时,RevBIFPN使用更少的MAC和降低训练时间内存的MAC可提供高达2.5%的AP提升。
translated by 谷歌翻译
随着我们对社交媒体平台和Web服务的依赖日益增加,剥削者将这些平台视为操纵我们的思想广告行动的机会。这些平台已成为社交机器人账户的开放游乐场。社交机器人不仅学习人类谈话,方式和存在,还可以操纵舆论,充当诈骗者,操纵股票市场等。有证据表明,人们的意见和思想可能是对民主的巨大威胁。识别和预防释放或创建这些机器人的竞选活动已经变得至关重要。我们本文的目标是利用网络挖掘技术来帮助检测在诸如Twitter等社交媒体平台上的假机器人,从而减轻了不奉献的传播。
translated by 谷歌翻译
我们介绍了Daisee,这是第一个多标签视频分类数据集,该数据集由112个用户捕获的9068个视频片段,用于识别野外无聊,混乱,参与度和挫败感的用户情感状态。该数据集具有四个级别的标签 - 每个情感状态都非常低,低,高和很高,它们是人群注释并与使用专家心理学家团队创建的黄金标准注释相关的。我们还使用当今可用的最先进的视频分类方法在此数据集上建立了基准结果。我们认为,黛西(Daisee)将为研究社区提供特征提取,基于上下文的推理以及为相关任务开发合适的机器学习方法的挑战,从而为进一步的研究提供了跳板。该数据集可在https://people.iith.ac.in/vineethnb/resources/daisee/daisee/index.html下载。
translated by 谷歌翻译