Recent success of vision transformers has inspired a series of vision backbones with novel feature transformation paradigms, which report steady performance gain. Although the novel feature transformation designs are often claimed as the source of gain, some backbones may benefit from advanced engineering techniques, which makes it hard to identify the real gain from the key feature transformation operators. In this paper, we aim to identify real gain of popular convolution and attention operators and make an in-depth study of them. We observe that the main difference among these feature transformation modules, e.g., attention or convolution, lies in the way of spatial feature aggregation, or the so-called "spatial token mixer" (STM). Hence, we first elaborate a unified architecture to eliminate the unfair impact of different engineering techniques, and then fit STMs into this architecture for comparison. Based on various experiments on upstream/downstream tasks and the analysis of inductive bias, we find that the engineering techniques boost the performance significantly, but the performance gap still exists among different STMs. The detailed analysis also reveals some interesting findings of different STMs, such as effective receptive fields and invariance tests. The code and trained models will be publicly available at https://github.com/OpenGVLab/STM-Evaluation
translated by 谷歌翻译
增加片上光子神经网络(PNN)的层数对于改善其模型性能至关重要。但是,网络隐藏层的连续级联导致更大的集成光子芯片区域。为了解决此问题,我们提出了光学神经常规微分方程(ON-ON-ON-OD-ON-OD-ON-OD-ON-OD-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ODINE),该架构用光ODE求解器参数化了隐藏层的连续动力学。 On-Ode包括PNN,然后是光子积分器和光反馈回路,可以配置为代表残留的神经网络(RESNET)和复发性神经网络,并有效地降低了芯片面积占用率。对于基于干扰的光电非线性隐藏层,数值实验表明,单个隐藏层ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ON-ONE表示与图像分类任务中的两层光学重新系统大致相同。此外,Onode提高了基于衍射的全光线性隐藏层的模型分类精度。 On-Eod的时间依赖性动力学属性进一步应用于高精度的轨迹预测。
translated by 谷歌翻译
本文介绍了一个框架,用于合成双皮亚机器人步行,该框架通过数据驱动的台阶(S2S)动力学模型适应未知环境和动态误差。我们首先合成一个S2S控制器,该S2S控制器使用脚部的S2S动力学从混合线性倒置摆(H-LIP)模型中稳定步行。接下来,通过经典的自适应控制方法在线学习了机器人S2S动力学的数据驱动表示。因此,通过适当的连续输出合成捕获数据驱动的S2S控制器和低级跟踪控制器,可以通过适当的连续输出合成来实现所需的离散脚放置。所提出的方法是在仿真的3D两足机器人,Cassie和改进的参考速度跟踪的模拟中实现的。所提出的方法还能够实现步行行为,以适应未知载荷,不准确的机器人模型,外部干扰力,偏置速度估计和未知斜率。
translated by 谷歌翻译
最近,培训预培训方法在以任务为导向的对话框(TOD)系统中表现出了很大的成功。但是,大多数现有的预培训模型用于TOD专注于对话的理解或对话生成,但并非两者兼而有之。在本文中,我们提出了Space-3,这是一种新型的统一的半监督预培训的预训练的对话模型,从大规模对话CORPORA中学习有限的注释,可以有效地对广泛的下游对话任务进行微调。具体而言,Space-3由单个变压器中的四个连续组件组成,以维护TOD系统中的任务流:(i)对话框编码模块编码对话框历史记录,(ii)对话框理解模块以从任一用户中提取语义向量查询或系统响应,(iii)一个对话框策略模块,以生成包含响应高级语义的策略向量,以及(iv)对话框生成模块以产生适当的响应。我们为每个组件设计一个专门的预训练目标。具体而言,我们预先培训对话框编码模块,使用跨度掩码语言建模,以学习上下文化对话框信息。为了捕获“结构化对话框”语义,我们通过额外的对话注释通过新颖的树诱导的半监视对比度学习目标来预先培训对话框理解模块。此外,我们通过将其输出策略向量与响应响应的语义向量之间的L2距离最小化以进行策略优化,从而预先培训对话策略模块。最后,对话框生成模型由语言建模预先训练。结果表明,Space-3在八个下游对话框基准中实现最新性能,包括意图预测,对话框状态跟踪和端到端对话框建模。我们还表明,在低资源设置下,Space-3比现有模型具有更强的射击能力。
translated by 谷歌翻译
具有对比性学习目标的预训练方法在对话了解任务中表现出了显着的成功。但是,当前的对比学习仅将自调查的对话样本视为正样本,并将所有其他对话样本视为负面样本,即使在语义上相关的对话框中,也会强制执行不同的表示。在本文中,我们提出了一个树木结构化的预培训对话模型Space-2,该模型从有限标记的对话框和大规模的无标记的对话框COLPORA通过半监督的对比度预培训来学习对话框表示。具体而言,我们首先定义一个通用的语义树结构(STS),以统一不同对话框数据集的注释模式,以便可以利用所有标记数据中存储的丰富结构信息。然后,我们提出了一个新颖的多视图分数功能,以增加共享类似STS的所有可能对话框的相关性,并且在监督的对比预训练期间仅推开其他完全不同的对话框。为了充分利用未标记的对话,还增加了基本的自我监督对比损失,以完善学习的表示。实验表明,我们的方法可以在DialogLue基准测试中实现新的最新结果,该基准由七个数据集和四个流行的对话框组成。为了获得可重复性,我们在https://github.com/alibabaresearch/damo-convai/tree/main/main/space-2上发布代码和数据。
translated by 谷歌翻译
大规模矢量映射对于运输,城市规划,调查和人口普查很重要。我们提出了GraphMapper,这是从卫星图像中提取端到端向量图的统一框架。我们的关键思想是一种新颖的统一表示,称为“原始图”的不同拓扑的形状,这是一组形状原语及其成对关系矩阵。然后,我们将向量形状的预测,正则化和拓扑重构转换为独特的原始图学习问题。具体而言,GraphMapper是一个基于多头注意的全局形状上下文建模的通用原始图形学习网络。开发了一种嵌入式空间排序方法,用于准确的原始关系建模。我们从经验上证明了GraphMapper对两个具有挑战性的映射任务的有效性,即建立足迹正则化和道路网络拓扑重建。我们的模型在公共基准上的两项任务中都优于最先进的方法。所有代码将公开可用。
translated by 谷歌翻译
FreeSpace检测是自动驾驶技术的重要组成部分,并且在轨迹计划中起着重要作用。在过去的十年中,已证明基于深度学习的自由空间检测方法可行。但是,这些努力集中在城市道路环境上,由于缺乏越野基准,很少有针对越野自由空间检测专门设计的深度学习方法。在本文中,我们介绍了ORFD数据集,据我们所知,该数据集是第一个越野自由空间检测数据集。数据集收集在不同的场景(林地,农田,草地和乡村),不同的天气条件(阳光,多雨,雾气和雪地)以及不同的光线条件(明亮的光线,日光,暮光,黑暗)中,完全包含12,198 LIDAR点云和RGB图像对与可穿越的区域,不可传输区域和无法达到的区域进行了详细注释。我们提出了一个名为Off-NET的新型网络,该网络将变压器体系结构统一以汇总本地和全球信息,以满足大型接收领域的自由空间检测任务的要求。我们还向动态融合激光雷达和RGB图像信息提出了交叉注意,以进行准确的越野自由空间检测。数据集和代码可公开可用athttps://github.com/chaytonmin/off-net。
translated by 谷歌翻译
基于面具的预训练在没有手动注释的监督的情况下,在图像,视频和语言中进行自我监督的学习取得了巨大的成功。但是,作为信息冗余数据,尚未在3D对象检测的字段中进行研究。由于3D对象检测中的点云是大规模的,因此无法重建输入点云。在本文中,我们提出了一个蒙版素分类网络,用于预训练大规模点云。我们的关键思想是将点云分为体素表示,并分类体素是否包含点云。这种简单的策略使网络是对物体形状的体素意识,从而改善了3D对象检测的性能。广泛的实验显示了我们在三个流行数据集(Kitti,Waymo和Nuscenes)上使用3D对象检测器(第二,Centerpoint和PV-RCNN)的预训练模型的效果。代码可在https://github.com/chaytonmin/voxel-mae上公开获得。
translated by 谷歌翻译
皮肤病变的准确和公正检查对于早期诊断和治疗皮肤疾病至关重要。皮肤病变的视觉特征明显差异,因为图像是通过使用不同的成像设备从具有不同病变颜色和形态的患者中收集的。最近的研究报告说,结合卷积神经网络(CNN)是实用的,可以对图像进行分类以早期诊断皮肤疾病。但是,这些连接的CNN的实际使用受到限制,因为这些网络是重量级的,并且不足以处理上下文信息。尽管开发了轻量级网络(例如MobileNetV3和ExcilityNet),以减少参数来实现移动设备上的深神经网络,但功能表示深度不足会限制性能。为了解决现有的局限性,我们开发了一个新的精简神经网络,即Hierattn。 Hierattn采用了一种新颖的深度监督策略,通过使用只有一种训练损失的多阶段和多分支注意力机制来学习本地和全球特征。通过使用皮肤镜图像数据集ISIC2019和智能手机照片数据集PAD-FIFES-20(PAD2020)评估Hierattn的功效。实验结果表明,Hierattn在最先进的轻量级网络中达到了曲线(AUC)下最佳的精度和面积。该代码可从https://github.com/anthonyweidai/hierattn获得。
translated by 谷歌翻译
预先训练的模型已经证明是强大的增强面向任务的对话系统。但是,目前的预训练方法主要关注增强对话的理解和生成任务,同时忽略对话策略的开发。在本文中,我们提出了一个小说预先训练的对话模型,明确地通过半监督学习明确地从有限标记的对话框和大规模未标记的对话框中学习对话策略。具体而言,我们在预训练期间介绍一个对话框预测任务,以便在预训练中进行策略优化,并使用一致性正则化术语在未标记的对话的帮助下优化学习的表示。我们还实施了一个浇注机制来称量合适的未标记对话框样本。经验结果表明,星系大大提高了面向任务为导向的对话系统的性能,并在基准数据集中实现了新的最先进结果:车载,多种多纤2.0和多纺,改善其端到端合并分数2.5,5.3和5.5分。我们还显示Galaxy比各种低资源设置下的现有模型更强大的少量射击能力。
translated by 谷歌翻译