Pretrained large-scale vision-language models like CLIP have exhibited strong generalization over unseen tasks. Yet imperceptible adversarial perturbations can significantly reduce CLIP's performance on new tasks. In this work, we identify and explore the problem of \emph{adapting large-scale models for zero-shot adversarial robustness}. We first identify two key factors during model adaption -- training losses and adaptation methods -- that affect the model's zero-shot adversarial robustness. We then propose a text-guided contrastive adversarial training loss, which aligns the text embeddings and the adversarial visual features with contrastive learning on a small set of training data. We apply this training loss to two adaption methods, model finetuning and visual prompt tuning. We find that visual prompt tuning is more effective in the absence of texts, while finetuning wins in the existence of text guidance. Overall, our approach significantly improves the zero-shot adversarial robustness over CLIP, seeing an average improvement of over 31 points over ImageNet and 15 zero-shot datasets. We hope this work can shed light on understanding the zero-shot adversarial robustness of large-scale models.
translated by 谷歌翻译
在交互环境中学习操纵3D对象一直是强化学习(RL)的挑战性问题。特别是,很难训练可以概括具有不同语义类别,多样形状几何形状和多功能功能的对象的策略。最近,视觉负担能力的技术在提供有效的可操作语义方面提供了以对象为中心的信息先验的前景。因此,可以通过知道如何在手柄上施加力来训练有效的政策来打开门。但是,要学习负担能力,它通常需要人为定义的动作基础,这限制了适用的任务范围。在这项研究中,我们通过使用RL训练过程中生成的联系信息来预测感兴趣的接触图,利用视觉负担。然后,这种联系预测过程会导致一个端到端的负担能力学习框架,该框架可以概括不同类型的操纵任务。令人惊讶的是,这种框架的有效性即使在多阶段和多代理场景下也具有。我们对八种类型的操纵任务进行了测试。结果表明,我们的方法优于基线算法,包括基于视觉的负担方法和RL方法,其成功率很大。演示可以在https://sites.google.com/view/rlafford/上找到。
translated by 谷歌翻译
在鸟眼中学习强大的表现(BEV),以进行感知任务,这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测,细分,跟踪等。随着传感器配置变得越来越复杂,从不同的传感器中集成了多源信息,并在统一视图中代表功能至关重要。 BEV感知继承了几个优势,因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象,对于随后的模块,如计划和/或控制是最可取的。 BEV感知的核心问题在于(a)如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息; (b)如何在BEV网格中获取地面真理注释; (c)如何制定管道以合并来自不同来源和视图的特征; (d)如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中,我们回顾了有关BEV感知的最新工作,并对不同解决方案进行了深入的分析。此外,还描述了该行业的BEV方法的几种系统设计。此外,我们推出了一套完整的实用指南,以提高BEV感知任务的性能,包括相机,激光雷达和融合输入。最后,我们指出了该领域的未来研究指示。我们希望该报告能阐明社区,并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作,并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。
translated by 谷歌翻译
最近,随着深度学习的持续发展,指定实体识别任务的表现得到了极大的改进。但是,在某些特定领域(例如生物医学和军事)中数据的隐私和机密性导致数据不足以支持深度神经网络的培训。在本文中,我们提出了一个加密学习框架,以解决数据泄漏的问题以及对某些域中敏感数据的不便披露。我们首次将多个加密算法介绍以在指定实体识别任务中加密培训数据。换句话说,我们使用加密数据训练深神网络。我们在六个中国数据集上进行实验,其中三个是由我们自己构建的。实验结果表明,加密方法可实现令人满意的结果。一些经过加密数据训练的模型的性能甚至超过了未加密方法的性能,该方法验证了引入的加密方法的有效性,并在一定程度上解决了数据泄漏问题。
translated by 谷歌翻译
文本到SQL解析是一项必不可少且具有挑战性的任务。文本到SQL解析的目的是根据关系数据库提供的证据将自然语言(NL)问题转换为其相应的结构性查询语言(SQL)。来自数据库社区的早期文本到SQL解析系统取得了显着的进展,重度人类工程和用户与系统的互动的成本。近年来,深层神经网络通过神经生成模型显着提出了这项任务,该模型会自动学习从输入NL问题到输出SQL查询的映射功能。随后,大型的预训练的语言模型将文本到SQL解析任务的最新作品带到了一个新级别。在这项调查中,我们对文本到SQL解析的深度学习方法进行了全面的评论。首先,我们介绍了文本到SQL解析语料库,可以归类为单转和多转。其次,我们提供了预先训练的语言模型和现有文本解析方法的系统概述。第三,我们向读者展示了文本到SQL解析所面临的挑战,并探索了该领域的一些潜在未来方向。
translated by 谷歌翻译
语义细分是一种关键技术,涉及高分辨率遥感(HRS)图像的自动解释,并引起了遥感社区的广泛关注。由于其层次表示能力,深度卷积神经网络(DCNN)已成功应用于HRS图像语义分割任务。但是,对大量培训数据的严重依赖性以及对数据分布变化的敏感性严重限制了DCNNS在HRS图像的语义分割中的潜在应用。这项研究提出了一种新型的无监督域适应性语义分割网络(MemoryAdaptnet),用于HRS图像的语义分割。 MemoryAdaptnet构建了一种输出空间对抗学习方案,以弥合源域和目标域之间的域分布差异,并缩小域移位的影响。具体而言,我们嵌入了一个不变的特征内存模块来存储不变的域级上下文信息,因为从对抗学习获得的功能仅代表当前有限输入的变体特征。该模块由类别注意力驱动的不变域级上下文集合模块集成到当前伪不变功能,以进一步增强像素表示。基于熵的伪标签滤波策略用于更新当前目标图像的高额伪不变功能的内存模块。在三个跨域任务下进行的广泛实验表明,我们提出的记忆ADAPTNET非常优于最新方法。
translated by 谷歌翻译
域的概括(DG)旨在学习一个对源域的模型,以很好地概括看不见的目标域。尽管它取得了巨大的成功,但大多数现有方法都需要用于源域中所有培训样本的标签信息,这在现实世界中既耗时又昂贵。在本文中,我们求助于解决半监督域的概括(SSDG)任务,其中每个源域中都有一些标签信息。为了解决任务,我们首先分析多域学习的理论,该理论强调了1)减轻域间隙的影响和2)利用所有样品训练模型可以有效地减少每个源域中的概括误差,因此提高伪标签的质量。根据分析,我们提出了Multimatch,即将FixMatch扩展到多任务学习框架,从而为SSDG生成高质量的伪标签。具体来说,我们将每个培训域视为一个任务(即本地任务),并将所有培训域(即全球任务)组合在一起,以训练看不见的测试域的额外任务。在多任务框架中,我们为每个任务使用独立的BN和分类器,这可以有效地减轻伪标记期间不同领域的干扰。同样,共享框架中的大多数参数,可以通过所有培训样本进行培训。此外,为了进一步提高伪标签的准确性和模型的概括,我们分别在培训和测试过程中分别融合了全球任务和本地任务的预测。一系列实验验证了所提出的方法的有效性,并且在几个基准DG数据集上优于现有的半监督方法和SSDG方法。
translated by 谷歌翻译
关于语言引导的图像操纵的最新作品在提供丰富的语义方面表现出了极大的语言力量,尤其是对于面部图像。但是,语言中的其他自然信息,动作的探索较少。在本文中,我们利用运动信息并研究一项新颖的任务,语言引导的面部动画,旨在在语言的帮助下对静态面部图像进行动画。为了更好地利用语言的语义和动作,我们提出了一个简单而有效的框架。具体而言,我们提出了一个经常性运动生成器,以从语言中提取一系列语义和运动信息,并将其与视觉信息一起提供给预训练的样式,以生成高质量的帧。为了优化所提出的框架,提出了三个精心设计的损失功能,包括保持面部身份的正规化损失,路径长度正规化损失以确保运动平滑度和对比度损失,以在一个模型中使用各种语言指导启用视频综合。对不同领域的定性和定量评估进行了广泛的实验(\ textit {ef。语。代码将在https://github.com/tiankaihang/language-guided-animation.git上找到。
translated by 谷歌翻译
深度学习推荐模型(DLRMS)已广泛应用于互联网公司。DLRM的嵌入表太大,无法完全适合GPU内存。我们通过利用目标数据集的ID频率统计信息来动态管理CPU和GPU内存空间中的嵌入式表的基于GPU的软件缓存方法。我们提出的软件缓存以同步更新方式有效地在GPU上培训整个DLRM。它还与广泛使用的混合平行训练方法相结合,将其缩放到多个GPU。评估我们的原型系统表明,我们只能保留GPU中嵌入参数的1.5%,以获得体面的端到端训练速度。
translated by 谷歌翻译
对地形信息有良好的了解对于改善复杂地形上各种下游任务的执行至关重要,尤其是对于腿部机器人的运动和导航。我们为神经城市地形重建提供了一个新颖的框架,并进行了不确定性估计。它通过稀疏的激光雷达观察结果在线生成密集的以机器人为中心的高程图。我们设计了一种新颖的预处理和点特征表示方法,可确保在整合多点云帧时确保高鲁棒性和计算效率。然后,贝叶斯gan模型恢复了详细的地形结构,同时提供了像素重建不确定性。我们通过广泛的模拟和现实世界实验评估了提议的管道。它在移动平台上展示了​​具有高质量和实时性能的有效地形重建,这进一步使腿部机器人的下游任务受益。 (有关更多详细信息,请参见https://kin-zhang.github.io/ndem/。)
translated by 谷歌翻译