Learning 3D human pose prior is essential to human-centered AI. Here, we present GFPose, a versatile framework to model plausible 3D human poses for various applications. At the core of GFPose is a time-dependent score network, which estimates the gradient on each body joint and progressively denoises the perturbed 3D human pose to match a given task specification. During the denoising process, GFPose implicitly incorporates pose priors in gradients and unifies various discriminative and generative tasks in an elegant framework. Despite the simplicity, GFPose demonstrates great potential in several downstream tasks. Our experiments empirically show that 1) as a multi-hypothesis pose estimator, GFPose outperforms existing SOTAs by 20% on Human3.6M dataset. 2) as a single-hypothesis pose estimator, GFPose achieves comparable results to deterministic SOTAs, even with a vanilla backbone. 3) GFPose is able to produce diverse and realistic samples in pose denoising, completion and generation tasks. Project page https://sites.google.com/view/gfpose/
translated by 谷歌翻译
Artificial Intelligence (AI) is having a tremendous impact across most areas of science. Applications of AI in healthcare have the potential to improve our ability to detect, diagnose, prognose, and intervene on human disease. For AI models to be used clinically, they need to be made safe, reproducible and robust, and the underlying software framework must be aware of the particularities (e.g. geometry, physiology, physics) of medical data being processed. This work introduces MONAI, a freely available, community-supported, and consortium-led PyTorch-based framework for deep learning in healthcare. MONAI extends PyTorch to support medical data, with a particular focus on imaging, and provide purpose-specific AI model architectures, transformations and utilities that streamline the development and deployment of medical AI models. MONAI follows best practices for software-development, providing an easy-to-use, robust, well-documented, and well-tested software framework. MONAI preserves the simple, additive, and compositional approach of its underlying PyTorch libraries. MONAI is being used by and receiving contributions from research, clinical and industrial teams from around the world, who are pursuing applications spanning nearly every aspect of healthcare.
translated by 谷歌翻译
人类可以不断学习新知识。但是,在学习新任务后,机器学习模型在以前的任务上的性能急剧下降。认知科学指出,类似知识的竞争是遗忘的重要原因。在本文中,我们根据大脑的元学习和关联机制设计了一个用于终身学习的范式。它从两个方面解决了问题:提取知识和记忆知识。首先,我们通过背景攻击破坏样本的背景分布,从而增强了模型以提取每个任务的关键特征。其次,根据增量知识和基础知识之间的相似性,我们设计了增量知识的自适应融合,这有助于模型将能力分配到不同困难的知识。理论上分析了所提出的学习范式可以使不同任务的模型收敛到相同的最优值。提出的方法已在MNIST,CIFAR100,CUB200和ImagEnet100数据集上进行了验证。
translated by 谷歌翻译
开放式视频异常检测(OpenVAD)旨在从视频数据中识别出异常事件,在测试中都存在已知的异常和新颖的事件。无监督的模型仅从普通视频中学到的模型适用于任何测试异常,但遭受高误报率的损失。相比之下,弱监督的方法可有效检测已知的异常情况,但在开放世界中可能会失败。我们通过将证据深度学习(EDL)和将流量(NFS)归一化为多个实例学习(MIL)框架来开发出一种新颖的OpenVAD问题的弱监督方法。具体而言,我们建议使用图形神经网络和三重态损失来学习训练EDL分类器的区分特征,在该特征中,EDL能够通过量化不确定性来识别未知异常。此外,我们制定了一种不确定性感知的选择策略,以获取清洁异常实例和NFS模块以生成伪异常。我们的方法通过继承无监督的NF和弱监督的MIL框架的优势来优于现有方法。多个现实世界视频数据集的实验结果显示了我们方法的有效性。
translated by 谷歌翻译
大规模数据集在面部生成/编辑的最新成功中扮演着必不可少的角色,并显着促进了新兴研究领域的进步。但是,学术界仍然缺乏具有不同面部属性注释的视频数据集,这对于与面部相关视频的研究至关重要。在这项工作中,我们提出了一个带有丰富面部属性注释的大规模,高质量和多样化的视频数据集,名为高质量的名人视频数据集(CelebV-HQ)。 Celebv-HQ至少包含35,666个视频剪辑,分辨率为512x512,涉及15,653个身份。所有剪辑均以83个面部属性手动标记,涵盖外观,动作和情感。我们对年龄,种族,亮度稳定性,运动平滑度,头部姿势多样性和数据质量进行全面分析,以证明CelebV-HQ的多样性和时间连贯性。此外,其多功能性和潜力在两个代表性任务(即无条件的视频生成和视频面部属性编辑)上得到了验证。此外,我们设想了Celebv-HQ的未来潜力,以及它将带来相关研究方向的新机会和挑战。数据,代码和模型公开可用。项目页面:https://celebv-hq.github.io。
translated by 谷歌翻译
尽管基于体素的方法已经获得了来自多摄像头的多人3D姿势估计的有希望的结果,但它们具有沉重的计算负担,尤其是对于大型场景。我们提出了更快的素素,以通过将特征体积重新投影到三个二维坐标平面并分别估算x,y,z坐标来解决挑战。为此,我们首先通过分别基于投影到XY平面和Z轴的体积功能来估算2D框及其高度,首先通过一个3D边界框来定位每个人。然后,对于每个人,我们分别估算三个坐标平面的部分关节坐标,然后将其融合以获得最终的3D姿势。该方法不含昂贵的3D-CNN,并将其素的速度提高了十倍,同时作为最先进的方法的竞争精度,证明了其在实时应用中的潜力。
translated by 谷歌翻译
监督的多视图立体声(MVS)方法在重建质量方面取得了显着进步,但遭受了收集大规模基础真相深度的挑战。在本文中,我们提出了一种基于知识蒸馏的MVS的新型自我监督培训管道,称为\ textit {kd-Mvs},主要由自我监督的教师培训和基于蒸馏的学生培训组成。具体而言,使用光度和特征一致性同时以自学的方式对教师模型进行了训练。然后,我们通过概率知识转移将教师模型的知识提炼为学生模型。在对经过验证的知识的监督下,学生模型能够以很大的优势优于其老师。在多个数据集上进行的广泛实验表明,我们的方法甚至可以胜过监督方法。
translated by 谷歌翻译
最近,通过神经网络参数化的隐式神经表示(INR)已成为一种强大而有前途的工具,可以代表不同种类的信号,因为其连续的,可区分的属性,表现出与经典离散表示的优越性。但是,对INR的神经网络的培训仅利用输入输出对,而目标输出相对于输入的衍生物通常忽略了输入。在本文中,我们为目标输出为图像像素的INR提出了一个训练范式,以编码图像衍生物除了神经网络中的图像值外。具体而言,我们使用有限的差异来近似图像导数。我们展示了如何利用训练范式来解决典型的INRS问题,即图像回归和逆渲染,并证明这种训练范式可以提高INR的数据效率和概括能力。我们方法的代码可在\ url {https://github.com/megvii-research/sobolev_inrs}中获得。
translated by 谷歌翻译
通过回顾他们之前看到的类似未腐败的图像,人类的注意力可以直观地适应图像的损坏区域。这种观察结果激发了我们通过考虑清洁的对应物来提高对抗性图像的注意。为了实现这一目标,我们将联想的对抗性学习(aal)介绍进入对抗的学习,以指导选择性攻击。我们为引人注目和攻击(扰动)之间的内在关系作为提高其互动的耦合优化问题。这导致注意反向触发算法,可以有效提高注意力的对抗鲁棒性。我们的方法是通用的,可用于通过简单选择不同的核来解决各种任务,以便为特定攻击选择其他区域的关联注意。实验结果表明,选择性攻击提高了模型的性能。我们表明,与基线相比,我们的方法提高了8.32%对想象成的识别准确性。它还将Pascalvoc的物体检测图提高了2.02%,并在MiniimAgenet上的几次学习识别准确性为1.63%。
translated by 谷歌翻译
我们提出了一种新颖的框架,将3D运动重定定义任务从受控环境带到野外的场景。特别地,我们的方法能够从2D单眼视频中的字符重新靶出到3D字符,而不使用任何运动捕获系统或3D重构过程。它旨在利用巨大的在线视频,用于无监督培训,不用的3D注释或运动身体配对信息。所提出的方法是基于两种新颖的规范化操作,结构规范化和观察规范化。我们的方法训练了Canonicalization操作和派生规范化,我们的方法学会将骨架序列分解为三个独立的语义子空间,即运动,结构和视角。解散的表示使从2D到3D的运动重新定位,具有高精度。我们的方法在运动转移基准上实现了卓越的性能,具有大的身体变化和具有挑战性的动作。值得注意的是,规范化的骨架序列可以用作人类运动的解除戒备和可解释的表示,这些人的运动会受益于行动分析和运动检索。
translated by 谷歌翻译