使用人工智能(AI)以意图创建舞蹈编舞仍在早期。有条件生成舞蹈序列的方法在遵循编舞特定的创意意图的能力上仍然有限,通常依靠外部提示或监督学习。同样,完全注释的舞蹈数据集罕见且劳动密集型。为了填补这一空白,并帮助深入学习作为编舞者的有意义的工具,我们提出了“ Pirounet”,这是一种半监督的条件性复发性自动编码器以及舞蹈标签网络应用程序。 Pirounet允许舞蹈专业人士使用自己的主观创意标签注释数据,并根据其美学标准生成新的编舞。得益于提议的半监督方法,PirOnet仅需要标记数据集的一小部分,通常以1%的订单为单位。我们展示了Pirounet的功能,因为它基于“ Laban Time努力”生成原始的编排,这是一个既定的舞蹈概念,描述了动作时间动态的意图。我们通过一系列定性和定量指标广泛评估了Pirounet的舞蹈创作,从而证实了其作为编舞工具的适用性。
translated by 谷歌翻译
我们总结了Pirounet的模型和结果,PirOnet是一种半监督的复发性自动编码器。鉴于少量用定性编舞注释标记的舞蹈序列,Pirounet有条件地以编舞家的风格生成舞蹈序列。
translated by 谷歌翻译
We present a principled approach to incorporating labels in VAEs that captures the rich characteristic information associated with those labels. While prior work has typically conflated these by learning latent variables that directly correspond to label values, we argue this is contrary to the intended effect of supervision in VAEs-capturing rich label characteristics with the latents. For example, we may want to capture the characteristics of a face that make it look young, rather than just the age of the person. To this end, we develop the CCVAE, a novel VAE model and concomitant variational objective which captures label characteristics explicitly in the latent space, eschewing direct correspondences between label values and latents. Through judicious structuring of mappings between such characteristic latents and labels, we show that the CCVAE can effectively learn meaningful representations of the characteristics of interest across a variety of supervision schemes. In particular, we show that the CCVAE allows for more effective and more general interventions to be performed, such as smooth traversals within the characteristics for a given label, diverse conditional generation, and transferring characteristics across datapoints.
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译
我们提出了一个新颖的框架,按需运动产生(ODMO),用于生成现实和多样化的长期3D人体运动序列,该序列仅以具有额外的自定义能力的动作类型为条件。 ODMO在三个公共数据集(HumanAct12,UESTC和MOCAP)上进行评估时,对所有传统运动评估指标的SOTA方法显示了改进。此外,我们提供定性评估和定量指标,这些指标证明了我们框架提供的几种首要的自定义功能,包括模式发现,插值和轨迹自定义。这些功能大大扩大了此类运动产生模型的潜在应用的范围。编码器和解码器体系结构中的创新启用了新颖的按需生成能力:(i)编码器:在低维的潜在空间中利用对比度学习来创建运动序列的层次结构嵌入,不仅是不同动作的代码,类型形成不同的组,但在动作类型中,类似的固有模式(运动样式)聚集在一起的代码,使它们容易发现; (ii)解码器:使用层次解码策略,该策略首先重建运动轨迹,然后用于重建整个运动序列。这样的架构可以有效地控制轨迹控制。我们的代码发布在GitHub页面:https://github.com/roychowdhuryresearch/odmo
translated by 谷歌翻译
The combination of machine learning models with physical models is a recent research path to learn robust data representations. In this paper, we introduce p$^3$VAE, a generative model that integrates a perfect physical model which partially explains the true underlying factors of variation in the data. To fully leverage our hybrid design, we propose a semi-supervised optimization procedure and an inference scheme that comes along meaningful uncertainty estimates. We apply p$^3$VAE to the semantic segmentation of high-resolution hyperspectral remote sensing images. Our experiments on a simulated data set demonstrated the benefits of our hybrid model against conventional machine learning models in terms of extrapolation capabilities and interpretability. In particular, we show that p$^3$VAE naturally has high disentanglement capabilities. Our code and data have been made publicly available at https://github.com/Romain3Ch216/p3VAE.
translated by 谷歌翻译
我们提出了一个隐式神经表示,以学习运动运动运动的时空空间。与以前代表运动为离散顺序样本的工作不同,我们建议将广泛的运动空间随着时间的流逝表达为连续函数,因此名称为神经运动场(NEMF)。具体来说,我们使用神经网络来学习此功能,以用于杂项运动集,该动作旨在以时间坐标为$ t $的生成模型和用于控制样式的随机矢量$ z $。然后,将模型作为变异自动编码器(VAE)进行训练,并带有运动编码器来采样潜在空间。我们使用多样化的人类运动数据集和四倍的数据集训练模型,以证明其多功能性,并最终将其部署为通用运动,然后再解决任务 - 静态问题,并在不同的运动生成和编辑应用中显示出优势,例如运动插值,例如运动插值,例如 - 上映和重新散布。可以在我们的项目页面上找到更多详细信息:https://cs.yale.edu/homes/che/projects/nemf/
translated by 谷歌翻译
配备具有推断人类意图的能力的机器人是有效合作的重要前提。对于这种目标的大多数计算方法采用了概率的推理,以回收机器人感知状态的“意图”的分布。然而,这些方法通常假设人类意图的特定任务概念(例如标记目标)是先验的。为了克服这一限制,我们提出了解离序列聚类变分性Autiachoder(Discvae),该群集框架可以用于以无监督的方式学习意图的这种分布。 DiscVae利用最近在无监督的学习方面的进步导出了顺序数据的解除不诚格潜在表示,从时间不变的全局方面分离时变化的本地特征。虽然与前面的解剖学框架不同,但是所提出的变体也涉及分立变量,以形成潜在混合模型,并使全局序列概念进行聚类,例如,观察到人类行为的意图。为了评估Discvae,首先使用弹跳数字和2D动画的视频数据集来验证其从未标记序列发现类的容量。然后,我们从机器人轮椅上进行的现实世界机器人交互实验报告结果。我们的调查结果引入了推断离散变量如何与人类意图一致,从而用于改善协作设置的帮助,例如共享控制。
translated by 谷歌翻译
当前独立于域的经典计划者需要问题域和实例作为输入的符号模型,从而导致知识采集瓶颈。同时,尽管深度学习在许多领域都取得了重大成功,但知识是在与符号系统(例如计划者)不兼容的亚符号表示中编码的。我们提出了Latplan,这是一种无监督的建筑,结合了深度学习和经典计划。只有一组未标记的图像对,显示了环境中允许的过渡子集(训练输入),Latplan学习了环境的完整命题PDDL动作模型。稍后,当给出代表初始状态和目标状态(计划输入)的一对图像时,Latplan在符号潜在空间中找到了目标状态的计划,并返回可视化的计划执行。我们使用6个计划域的基于图像的版本来评估LATPLAN:8个插头,15个式嘴,Blockworld,Sokoban和两个LightsOut的变体。
translated by 谷歌翻译
最近在随机运动预测中的进展,即预测单一过去的姿势序列的多个可能的未来人类动作,导致产生真正不同的未来动作,甚至可以控制一些身体部位的运动。然而,为了实现这一点,最先进的方法需要学习用于多样性的多个映射和用于可控运动预测的专用模型。在本文中,我们向统一的深度生成网络介绍了多种和可控的运动预测。为此,我们利用了现实人类动作的直觉由有效姿势的平滑序列组成,并且给定的有限数据,学习姿势比动作更具易行。因此,我们设计了一种发电机,其顺序地预测不同车身部件的运动,并引入基于流动的基于流动的姿势,以及接合角度损失,以实现运动现实主义。在两个标准基准数据集,人类3.6m和人文集上进行实验。我展示了我们的方法在样本多样性和准确性方面优于最先进的基线。该代码可在https://github.com/wei-mao-2019/gsps获得
translated by 谷歌翻译
用冷冻电子显微镜(Cryo-EM)溶液中生物分子高分辨率成像的近期突破已经解锁了用于重建分子体积的新门,从而有望在其他人之间进一步进一步进展。尽管有很大的入脚,但Cryo-EM数据分析中的巨大挑战仍然是军团和错综复杂的自然间学科,需要物理学家,结构生物学家,计算机科学家,统计学家和应用数学家的见解。同时,最近的下一代卷重建算法与端到端无监督的深度学习技术相结合的生成建模已经显示了对模拟数据的有希望的结果,但在应用于实验Cryo-EM图像时仍然面临相当大的障碍。鉴于此类方法的增殖并鉴于任务的跨学科性质,我们提出了对高分辨率低分辨率建模领域的最近进步的批判性审查。目前的审查旨在(i)比较和对比这些新方法,而(ii)将它们从透视和使用科学家熟悉的术语呈现出来,在任何五个上述领域中没有Cryo-Em中没有具体的背景。审查始于引言介绍低温 - EM批量重建的深度生成模型的数学和计算挑战,同时概述了这类算法中共享的基线方法。通过这些不同的模型建立了常见的线程编织,我们提供了这些最先进的算法的实际比较,突出了它们的相对优势和劣势以及它们依赖的假设。这使我们能够识别当前方法和途径的瓶颈,以便将来的研究。
translated by 谷歌翻译
人类运动的模型通常集中在轨迹预测或动作分类上,但很少都很重要。人类运动的标记的异质性和复杂的组成性,使每个任务易受数据劣化和分布转变对现实世界的情景共同的影响。理论上可以在理论上可以在适用于两个任务的统一框架内实现数据调节和分布恢复的足够富有表现力的作用模型。在这里,我们提出了一种基于分层变分的自动化器和深图卷积神经网络的新颖体系结构,用于在多个时间尺度上产生整体动作模型。我们显示该层级图形 - 卷积变分别自动码器(HG-VAE)能够能够产生相干动作,检测分发数据,并通过模型的后临到梯度上升抵消缺失数据。培训和评估H3.6M和最大的开源人类运动数据集合,Amass,我们显示HG-VAE可以促进下游歧视性学习比基线模型更好。
translated by 谷歌翻译
以无监督的方式从高维领域提取生成参数的能力是计算物理学中的非常理想尚未实现的目标。这项工作探讨了用于非线性尺寸降低的变形Autiachoders(VAES),其特定目的是{\ EM解散}的特定目标,以识别生成数据的独立物理参数。解除戒开的分解是可解释的,并且可以转移到包括生成建模,设计优化和概率减少阶级型建模的各种任务。这项工作的重大重点是使用VAE来表征解剖学,同时最小地修改经典的VAE损失功能(即证据下限)以保持高重建精度。损耗景观的特点是过度正常的局部最小值,其环绕所需的解决方案。我们通过在模型多孔流量问题中并列在模拟潜在分布和真正的生成因子中,说明了分解和纠缠符号之间的比较。展示了等级前瞻,促进了解除不诚实的表现的学习。在用旋转不变的前沿训练时,正则化损失不受潜在的旋转影响,从而学习非旋转不变的前锋有助于捕获生成因子的性质,改善解剖学。最后,表明通过标记少量样本($ O(1 \%)$)来实现半监督学习 - 导致可以一致地学习的准确脱屑潜在的潜在表示。
translated by 谷歌翻译
我们提出了一种使用变异隐式神经表示(INR)的动作条件人类运动产生方法。变分形式主义可以使INR的动作条件分布,从中可以轻松地采样表示形式以产生新的人类运动序列。我们的方法通过构造提供可变的长度序列生成,因为INR的一部分已针对随时间嵌入的整个任意长度进行了优化。相反,以前的作品报告了建模可变长度序列的困难。我们证实,使用变压器解码器的方法优于人类Act12,NTU-RGBD和UESTC数据集的所有相关方法,从现实主义和生成动作的多样性方面。令人惊讶的是,即使我们使用MLP解码器的方法也始终优于最先进的基于变压器的自动编码器。特别是,我们表明,在现实主义和多样性方面,我们方法生成的可变长度运动比最先进方法产生的固定长度运动更好。 https://github.com/pacerv/implicitmotion上的代码。
translated by 谷歌翻译
我们提出了一个基于神经网络的系统,用于长期,多动能人类运动合成。该系统被称为神经木偶,可以从简单的用户输入中平稳过渡,包括带有预期动作持续时间的动作标签,以及如果用户指定的话,则可以产生高质量和有意义的动作。我们系统的核心是一种基于变压器的新型运动生成模型,即Marionet,它可以在给定的动作标签给定不同的动作。与现有运动生成模型不同,Marionet利用了过去的运动剪辑和未来动作标签的上下文信息,专门用于生成可以平稳融合历史和未来动作的动作。具体而言,Marionet首先将目标动作标签和上下文信息编码为动作级潜在代码。该代码通过时间展开模块将代码展开为帧级控制信号,然后可以将其与其他帧级控制信号(如目标轨迹)结合使用。然后以自动回归方式生成运动帧。通过依次应用木偶,系统神经木偶可以借助两个简单的方案(即“影子开始”和“动作修订”)来稳健地产生长期的多动作运动。与新型系统一起,我们还提供了一个专门针对多动运动综合任务的新数据集,其中包含动作标签及其上下文信息。进行了广泛的实验,以研究我们系统产生的动作的动作准确性,自然主义和过渡平滑度。
translated by 谷歌翻译
基于生成模型的运动预测技术最近已经实现了预测受控人类运动的,例如预测具有相似下体运动的多个上层运动。但是,为了实现这一目标,最新的方法要求随后学习映射功能以寻求类似的动作或重复训练模型以控制身体的所需部分。在本文中,我们提出了一个新颖的框架,以学习可控人体运动预测的脱节表示。我们的网络涉及有条件的变分自动编码器(CVAE)结构,以模拟全身人体运动,以及仅学习相应的部分体体(例如,下体)运动的额外CVAE路径。具体而言,额外CVAE路径施加的电感偏置鼓励两个路径中的两个潜在变量分别控制每个部分运动运动的单独表示。通过一次训练,我们的模型能够为生成的人类动作提供两种类型的控制:(i)严格控制人体的一部分,(ii)通过从一对潜在空间中取样来自适应控制另一部分。此外,我们将抽样策略扩展到了我们训练的模型,以多样化可控的预测。我们的框架还可以通过灵活地自定义额外CVAE路径的输入来允许新的控制形式。广泛的实验结果和消融研究表明,我们的方法能够在质量和定量上预测最新的可控人体运动。
translated by 谷歌翻译
我们提出了Zeroeggs,这是一个神经网络框架,用于语音驱动的手势生成,以零拍出样式控制。这意味着即使在训练过程中看不见的运动样式,也只能通过一个简短的运动剪辑来控制样式。我们的模型使用一个变性框架来学习样式嵌入,从而可以通过潜在的空间操纵或样式嵌入方式的混合和缩放来修改样式。我们框架的概率性质进一步使给定输入相同的各种输出的产生,以解决手势运动的随机性质。在一系列实验中,我们首先证明了模型对新的扬声器和样式的灵活性和概括性。然后,在一项用户研究中,我们表明我们的模型在运动,语音适当性和风格刻画方面的自然性,适当性和刻画的表现优于先前的最先进技术。最后,我们释放了包括手指在内的全身手势运动的高质量数据集,语音跨越了19种不同的样式。
translated by 谷歌翻译
概率生成模型对科学建模具有吸引力,因为它们的推论参数可用于生成假设和设计实验。这要求学习的模型提供了对输入数据的准确表示,并产生一个潜在空间,该空间有效地预测了与科学问题相关的结果。监督的变异自动编码器(SVAE)以前已用于此目的,在此目的中,精心设计的解码器可以用作可解释的生成模型,而监督目标可确保预测性潜在表示。不幸的是,监督的目标迫使编码器学习与生成后验分布有偏见的近似,这在科学模型中使用时使生成参数不可靠。由于通常用于评估模型性能的重建损失,因此该问题仍未被发现。我们通过开发一个二阶监督框架(SOS-VAE)来解决这个以前未报告的问题,该框架影响解码器诱导预测潜在的代表。这样可以确保关联的编码器保持可靠的生成解释。我们扩展了此技术,以使用户能够在生成参数中折叠以提高预测性能,并充当SVAE和我们的新SOS-VAE之间的中间选择。我们还使用这种方法来解决在组合来自多个科学实验的录音时经常出现的缺失数据问题。我们使用合成数据和电生理记录来证明这些发展的有效性,重点是如何使用我们学到的表示形式来设计科学实验。
translated by 谷歌翻译
大量的数据和创新算法使数据驱动的建模成为现代行业的流行技术。在各种数据驱动方法中,潜在变量模型(LVM)及其对应物占主要份额,并在许多工业建模领域中起着至关重要的作用。 LVM通常可以分为基于统计学习的经典LVM和基于神经网络的深层LVM(DLVM)。我们首先讨论经典LVM的定义,理论和应用,该定义和应用既是综合教程,又是对经典LVM的简短申请调查。然后,我们对当前主流DLVM进行了彻底的介绍,重点是其理论和模型体系结构,此后不久就提供了有关DLVM的工业应用的详细调查。上述两种类型的LVM具有明显的优势和缺点。具体而言,经典的LVM具有简洁的原理和良好的解释性,但是它们的模型能力无法解决复杂的任务。基于神经网络的DLVM具有足够的模型能力,可以在复杂的场景中实现令人满意的性能,但它以模型的解释性和效率为例。旨在结合美德并减轻这两种类型的LVM的缺点,并探索非神经网络的举止以建立深层模型,我们提出了一个新颖的概念,称为“轻量级Deep LVM(LDLVM)”。在提出了这个新想法之后,该文章首先阐述了LDLVM的动机和内涵,然后提供了两个新颖的LDLVM,并详尽地描述了其原理,建筑和优点。最后,讨论了前景和机会,包括重要的开放问题和可能的研究方向。
translated by 谷歌翻译
我们解决了从文本描述中产生不同3D人类动作的问题。这项具有挑战性的任务需要两种方式的联合建模:从文本中理解和提取有用的人类以人为中心的信息,然后产生人类姿势的合理和现实序列。与大多数以前的工作相反,该作品着重于从文本描述中产生单一的,确定性的动作,我们设计了一种可以产生多种人类动作的变异方法。我们提出了Temos,这是一种具有人体运动数据的变异自动编码器(VAE)训练的文本生成模型,并结合了与VAE潜在空间兼容的文本编码器结合使用的文本编码器。我们显示Temos框架可以像先前的工作一样产生基于骨架的动画,以及更具表现力的SMPL身体运动。我们在套件运动语言基准上评估了我们的方法,尽管相对简单,但对艺术的状态表现出显着改善。代码和模型可在我们的网页上找到。
translated by 谷歌翻译