基础培训数据的质量对于建立具有更广泛的Generalizabilty的表演机器学习模型非常重要。但是,当前机器学习(ML)工具缺乏简化的流程,用于提高数据质量。因此,获取数据质量见解并迭代地修剪以获取最大代表下游使用情况的数据集的错误仍然是Ad-hoc手动过程。我们的工作解决了这种数据工具差距,需要纯粹通过以数据为中心的技术构建改进的ML工作流程。更具体地说,我们介绍了(1)在数据集中找到嘈杂或错误标记的样本的系统框架,(2)识别最具信息丰富的样本,当包含在训练中时,该样本将提供最大的模型性能提升。我们展示了我们在公共场合的框架以及两家财富500强公司的私营企业数据集的效果,并确信这项工作将形成ML团队执行更智能的数据发现和修剪的基础。
translated by 谷歌翻译
我们呈现了名字,一个从英语维基百科和新闻文章中获得的暧昧名称的实体的数据集。它由4148个独特实体的58862提到和他们的名称:来自News的1000个提到,来自Wikipedia关于实体的文章28843,以及29019维基百科反向链接提到。名称应该有助于为命名实体链接的任务建立具有挑战性的基准(NEL)。
translated by 谷歌翻译
Arbitrary Style Transfer is a technique used to produce a new image from two images: a content image, and a style image. The newly produced image is unseen and is generated from the algorithm itself. Balancing the structure and style components has been the major challenge that other state-of-the-art algorithms have tried to solve. Despite all the efforts, it's still a major challenge to apply the artistic style that was originally created on top of the structure of the content image while maintaining consistency. In this work, we solved these problems by using a Deep Learning approach using Convolutional Neural Networks. Our implementation will first extract foreground from the background using the pre-trained Detectron 2 model from the content image, and then apply the Arbitrary Style Transfer technique that is used in SANet. Once we have the two styled images, we will stitch the two chunks of images after the process of style transfer for the complete end piece.
translated by 谷歌翻译
语法误差校正(GEC)系统执行序列到序列任务,其中GEC系统校正了包含语法错误的输入单词序列,以输出语法正确的单词序列。随着深度学习方法的出现,自动化的GEC系统变得越来越流行。例如,GEC系统通常用于英语学习者的语音转录作为评估和反馈形式 - 这些强大的GEC系统可用于自动测量候选人流利度的一个方面。 \ textit {edits}的计数从候选人的输入句子(或论文)到GEC系统的语法校正输出句子,这表明候选人的语言能力,其中更少的编辑表明更好的流利度。因此,编辑计数可以被视为\ textit {fluency评分},零表示完美的流利度。但是,尽管基于深度学习的GEC系统非常强大和准确,但它们容易受到对抗性攻击:对手可以在系统的输入下引入一个小的,特定的更改,该系统在输出时会导致大型,不需要的变化。在考虑将GEC系统应用于自动化语言评估时,对手的目的可能是通过对语法上不正确的输入句子进行小改动来作弊,该句子隐藏了GEC系统中的错误被不公正地获得了完美的流利程度。这项工作研究了一种简单的普遍替代攻击攻击,非母语的英语说话者实际上可以采用欺骗用于评估的GEC系统。
translated by 谷歌翻译
深度估计是在机器人手术和腹腔镜成像系统中进行图像引导干预的关键步骤。由于对于腹腔镜图像数据很难获得人均深度地面真相,因此很少将监督深度估计应用于手术应用。作为替代方案,已经引入了仅使用同步的立体图像对来训练深度估计器。但是,最近的工作集中在2D中的左右一致性上,而忽略了现实世界坐标中对象的宝贵固有3D信息,这意味着左右3D几何结构一致性尚未得到充分利用。为了克服这一限制,我们提出了M3Depth,这是一种自我监督的深度估计器,以利用3D几何结构信息隐藏在立体声对中,同时保持单眼推理。该方法还消除了在至少一个立体声图像中通过掩码看不见的边界区域的影响,以增强重叠区域中的左图和右图像之间的对应关系。密集实验表明,我们的方法在公共数据集和新获取的数据集上的以前的自我监督方法都大大优先,这表明在不同的样品和腹腔镜上都有良好的概括。
translated by 谷歌翻译
空间机器人应用程序(例如,拆除活动空间碎片)(ASDR)需要在启动之前进行代表性测试。在空间中模仿微重力环境的一种常用方法是基于空气的平台,例如欧洲航天局的轨道机器人技术和GNC Lab(ORGL)。这项工作为ORGL的浮动平台提供了控制架构,配备了八个基于螺线管 - 阀门的推进器和一个反应轮。控制体系结构由两个主要组成部分组成:一个轨迹规划师,该轨迹规划师找到了连接两个状态的最佳轨迹和一个遵循任何物理可行轨迹的轨迹追随者。首先在引入的仿真中评估控制器,在查找和跟随轨迹的轨迹中获得100%的成功率,以在蒙特卡罗测试中来源。单个轨迹也成功地是物理系统。在这项工作中,我们展示了控制器拒绝干扰并遵循数十厘米内的直线轨迹的能力。
translated by 谷歌翻译
公平的机器学习研究人员(ML)围绕几个公平标准结合,这些标准为ML模型公平提供了正式的定义。但是,这些标准有一些严重的局限性。我们确定了这些正式公平标准的四个主要缺点,并旨在通过扩展性能预测以包含分配强大的目标来帮助解决这些问题。
translated by 谷歌翻译
跨视野地理位置化的现有工作基于将地面全景与空中图像相匹配的图像。在这项工作中,我们专注于地面视频,而不是图像,这些视频提供了对此任务很重要的其他上下文提示。没有针对此问题的现有数据集,因此我们提出了GAMA数据集,这是一个带有地面视频和相应空中图像的大型数据集。我们还提出了一种解决这个问题的新方法。在剪辑级,简短的视频剪辑与相应的空中图像匹配,后来用于获得长视频的视频级地理定位。此外,我们提出了一种分层方法,以进一步改善剪辑级地理定位。这是一个具有挑战性的数据集,未对齐和有限的视野,我们提出的方法的前1个召回率为19.4%和45.1% @1.0英里。代码和数据集可在以下链接中获得:https://github.com/svyas23/gama。
translated by 谷歌翻译
与单模式学习相比,大型数据集上的联合视觉和语言建模最近在多模式任务中表现出了良好的进步。但是,这些方法对现实世界扰动的鲁棒性尚未被研究。在这项工作中,我们对此类模型进行了首次广泛的鲁棒性研究,以针对针对视频和语言的各种现实世界的扰动。我们专注于文本到视频检索,并提出了两个大型基准数据集,即MSRVTT-P和YouCook2-P,它们利用了90个不同的视觉和35个不同的文本扰动。该研究揭示了一些有趣的发现:1)当文本受到干扰而不是视频扰动时,研究的模型更加可靠。 3)与跨注意时,使用两个分支编码器通常更健壮。我们希望这项研究能够作为基准,并指导强大的多模式学习的未来研究。
translated by 谷歌翻译
近年来,我们在视频动作识别方面取得了巨大进展。有几种基于卷积神经网络(CNN)的模型,采用了一些基于变压器的方法,可在现有基准数据集上提供最先进的性能。但是,对于这些模型,尚未研究大规模的鲁棒性,这对于现实世界应用而言是关键方面。在这项工作中,我们对这些现有模型进行大规模鲁棒性分析,以供视频识别。我们主要关注因现实世界扰动而不是对抗性扰动引起的分配变化的鲁棒性。我们提出了四个不同的基准数据集,即HMDB-51P,UCF-101P,Kinetics-400P和SSV2P,并研究了六种针对90种不同扰动的六种不同最先进的动作识别模型的鲁棒性。该研究揭示了一些有趣的发现,1)基于变压器的模型与基于CNN的模型相比,对于大多数扰动,基于变压器的模型始终更健壮,2)预训练有助于基于变压器的模型比基于CNN的模型更适合不同的扰动,而3)所有研究的模型对动力学数据集的时间扰动都具有鲁棒性,但在SSV2上却不是。这表明时间信息对于SSV2数据集的动作标签预​​测比动力学数据集更为重要。我们希望这项研究能够作为在强大的视频行动识别中进行未来研究的基准。有关该项目的更多详细信息,请访问https://rose-ar.github.io/。
translated by 谷歌翻译