我们提出了Zeroeggs,这是一个神经网络框架,用于语音驱动的手势生成,以零拍出样式控制。这意味着即使在训练过程中看不见的运动样式,也只能通过一个简短的运动剪辑来控制样式。我们的模型使用一个变性框架来学习样式嵌入,从而可以通过潜在的空间操纵或样式嵌入方式的混合和缩放来修改样式。我们框架的概率性质进一步使给定输入相同的各种输出的产生,以解决手势运动的随机性质。在一系列实验中,我们首先证明了模型对新的扬声器和样式的灵活性和概括性。然后,在一项用户研究中,我们表明我们的模型在运动,语音适当性和风格刻画方面的自然性,适当性和刻画的表现优于先前的最先进技术。最后,我们释放了包括手指在内的全身手势运动的高质量数据集,语音跨越了19种不同的样式。
translated by 谷歌翻译
用行为方式对虚拟试剂进行建模是个性化人类代理相互作用的一个因素。我们提出了一种有效但有效的机器学习方法,以综合由韵律特征和文本以不同扬声器风格驱动的手势,包括在培训期间看不见的手势。我们的模型执行零镜头多模式样式转移,该样式由包含各种扬声器视频的PATS数据库的多模式数据驱动。我们认为风格在说话时是普遍的,它使交流行为表现出色,而语音内容则由多模式信号和文本携带。这种内容和样式的解开方案使我们能够直接推断出数据的样式嵌入,即使数据不属于培训阶段,而无需进行任何进一步的培训或微调。我们模型的第一个目标是根据两个音频和文本模式的内容生成源扬声器的手势。第二个目标是调节源扬声器预测目标扬声器的多模式行为样式的手势。第三个目标是允许在训练期间看不见的扬声器的零射击样式转移,而不会重新培训模型。我们的系统包括:(1)扬声器样式编码器网络,该网络学会从目标扬声器多模式数据中生成固定的尺寸扬声器嵌入样式,以及(2)序列综合网络的序列,该序列基于输入方式的内容合成手势源扬声器,并以扬声器风格的嵌入为条件。我们评估我们的模型可以综合源说话者的手势,并将目标扬声器样式变异性的知识转移到零拍摄设置中的手势生成任务中。我们将2D手势转换为3D姿势并产生3D动画。我们进行客观和主观评估以验证我们的方法并将其与基线进行比较。
translated by 谷歌翻译
用全球性结构(例如编织)合成人体运动是一个具有挑战性的任务。现有方法倾向于集中在局部光滑的姿势过渡并忽视全球背景或运动的主题。在这项工作中,我们提出了一种音乐驱动的运动综合框架,其产生与输入节拍同步的人类运动的长期序列,并共同形成尊重特定舞蹈类型的全局结构。此外,我们的框架可以实现由音乐内容控制的不同运动,而不仅仅是由节拍。我们的音乐驱动舞蹈综合框架是一个分层系统,包括三个层次:姿势,图案和编排。姿势水平由LSTM组件组成,该组件产生时间相干的姿势。图案级别引导一组连续姿势,形成一个使用新颖运动感知损失所属的特定分布的运动。并且舞蹈级别选择所执行的运动的顺序,并驱动系统遵循舞蹈类型的全球结构。我们的结果展示了我们的音乐驱动框架的有效性,以在各种舞蹈类型上产生自然和一致的运动,控制合成运动的内容,并尊重舞蹈的整体结构。
translated by 谷歌翻译
我们提出了一个隐式神经表示,以学习运动运动运动的时空空间。与以前代表运动为离散顺序样本的工作不同,我们建议将广泛的运动空间随着时间的流逝表达为连续函数,因此名称为神经运动场(NEMF)。具体来说,我们使用神经网络来学习此功能,以用于杂项运动集,该动作旨在以时间坐标为$ t $的生成模型和用于控制样式的随机矢量$ z $。然后,将模型作为变异自动编码器(VAE)进行训练,并带有运动编码器来采样潜在空间。我们使用多样化的人类运动数据集和四倍的数据集训练模型,以证明其多功能性,并最终将其部署为通用运动,然后再解决任务 - 静态问题,并在不同的运动生成和编辑应用中显示出优势,例如运动插值,例如运动插值,例如 - 上映和重新散布。可以在我们的项目页面上找到更多详细信息:https://cs.yale.edu/homes/che/projects/nemf/
translated by 谷歌翻译
舞蹈需要熟练的复杂动作,遵循音乐的节奏,音调和音色特征。正式地,在一段音乐上产生的舞蹈可以表达为建模高维连续运动信号的问题,该信号以音频信号为条件。在这项工作中,我们为解决这个问题做出了两项贡献。首先,我们提出了一种新颖的概率自回归体系结构,该体系结构使用多模式变压器编码器以先前的姿势和音乐背景为条件,以正常的流程为标准化姿势。其次,我们介绍了目前最大的3D舞蹈动机数据集,该数据集通过各种运动捕捉技术获得,包括专业和休闲舞者。使用此数据集,我们通过客观指标和一个用户研究将新模型与两个基准进行比较,并表明建模概率分布的能力以及能够通过大型运动和音乐背景进行的能力是必要的产生与音乐相匹配的有趣,多样和现实的舞蹈。
translated by 谷歌翻译
在这项工作中,我们解决了为野外任何演讲者发出静音唇部视频演讲的问题。与以前的作品形成鲜明对比的是,我们的方法(i)不仅限于固定数量的扬声器,(ii)并未明确对域或词汇构成约束,并且(iii)涉及在野外记录的视频,反对实验室环境。该任务提出了许多挑战,关键是,所需的目标语音的许多功能(例如语音,音调和语言内容)不能完全从无声的面部视频中推断出来。为了处理这些随机变化,我们提出了一种新的VAE-GAN结构,该结构学会了将唇部和语音序列关联到变化中。在指导培训过程的多个强大的歧视者的帮助下,我们的发电机学会了以任何人的唇部运动中的任何声音综合语音序列。多个数据集上的广泛实验表明,我们的优于所有基线的差距很大。此外,我们的网络可以在特定身份的视频上进行微调,以实现与单扬声器模型相当的性能,该模型接受了$ 4 \ times $ $数据的培训。我们进行了大量的消融研究,以分析我们体系结构不同模块的效果。我们还提供了一个演示视频,该视频与我们的网站上的代码和经过训练的模型一起展示了几个定性结果: -合成}}
translated by 谷歌翻译
本文提出了运动拼图,这是一个新型的运动风格转移网络,在几个重要方面都可以提高最先进的方式。运动难题是第一个可以控制各个身体部位运动样式的动作,从而可以进行本地样式编辑并大大增加风格化运动的范围。我们的框架旨在保持人的运动学结构,从多种样式运动中提取了风格的特征,用于不同的身体部位,并将其本地转移到目标身体部位。另一个主要优点是,它可以通过整合自适应实例正常化和注意力模块,同时保持骨骼拓扑结构,从而传递全球和本地运动风格的特征。因此,它可以捕获动态运动所表现出的样式,例如拍打和惊人,比以前的工作要好得多。此外,我们的框架允许使用样式标签或运动配对的数据集进行任意运动样式传输,从而使许多公开的运动数据集可用于培训。我们的框架可以轻松地与运动生成框架集成,以创建许多应用程序,例如实时运动传输。我们通过许多示例和以前的工作比较来证明我们的框架的优势。
translated by 谷歌翻译
具有可控的生成序列模型具有提取和复制特定示例样式的能力,可以实现许多应用程序,包括在不同声音中叙述有声读物,自动完成和自动校正书面手写,以及为下游识别任务生成缺少的培训示例。但是,在无监督式的设置下,可控序列生成模型的典型训练算法遭受了训练 - 推导不匹配的影响,在训练过程中,相同的样品在训练过程中用作内容和样式输入,但在推断期间给出了未配对的样本。在本文中,我们解决了在无监督的可控生成序列模型中遇到的训练推断不匹配。所提出的方法很简单却有效,我们使用样式转换模块将目标样式信息传输到无关的样式输入中。此方法可以使用未配对的内容和样式样本进行培训,从而减轻训练推荐不匹配。我们将样式均衡应用于三个数据集上的文本对语音和文本写作合成。我们进行彻底的评估,包括定量和定性用户研究。我们的结果表明,通过减轻培训 - 推导与拟议的样式均衡的不匹配,我们在用户研究中实现了与真实数据相当的样式复制分数。
translated by 谷歌翻译
控制角色在实时动画系统中移动的方式是具有有用应用程序的具有挑战性的任务。现有的样式传输系统需要访问参考内容运动剪辑,但是,在实时系统中,未来的运动内容未知且易于使用用户输入进行改变。在这项工作中,我们呈现了一种使用动画综合网络的风格建模系统,基于本地运动阶段模拟运动内容。额外的样式调制网络使用功能明智的变换实时调制样式。为了评估我们的方法,我们创建并释放一个新的风格建模数据集100,其中包含超过400万帧的程式化的机器人数据,以100种不同的样式,为现有系统提供了许多挑战。为了模拟这些样式,我们将局部相位计算扩展到无联接的配方。与其他实时建模方法相比,我们展示了我们的系统在其风格表示中更加强大,有效,同时提高运动质量。
translated by 谷歌翻译
This work addresses the problem of generating 3D holistic body motions from human speech. Given a speech recording, we synthesize sequences of 3D body poses, hand gestures, and facial expressions that are realistic and diverse. To achieve this, we first build a high-quality dataset of 3D holistic body meshes with synchronous speech. We then define a novel speech-to-motion generation framework in which the face, body, and hands are modeled separately. The separated modeling stems from the fact that face articulation strongly correlates with human speech, while body poses and hand gestures are less correlated. Specifically, we employ an autoencoder for face motions, and a compositional vector-quantized variational autoencoder (VQ-VAE) for the body and hand motions. The compositional VQ-VAE is key to generating diverse results. Additionally, we propose a cross-conditional autoregressive model that generates body poses and hand gestures, leading to coherent and realistic motions. Extensive experiments and user studies demonstrate that our proposed approach achieves state-of-the-art performance both qualitatively and quantitatively. Our novel dataset and code will be released for research purposes at https://talkshow.is.tue.mpg.de.
translated by 谷歌翻译
This paper describes Tacotron 2, a neural network architecture for speech synthesis directly from text. The system is composed of a recurrent sequence-to-sequence feature prediction network that maps character embeddings to mel-scale spectrograms, followed by a modified WaveNet model acting as a vocoder to synthesize time-domain waveforms from those spectrograms. Our model achieves a mean opinion score (MOS) of 4.53 comparable to a MOS of 4.58 for professionally recorded speech. To validate our design choices, we present ablation studies of key components of our system and evaluate the impact of using mel spectrograms as the conditioning input to WaveNet instead of linguistic, duration, and F0 features. We further show that using this compact acoustic intermediate representation allows for a significant reduction in the size of the WaveNet architecture.
translated by 谷歌翻译
Animating portraits using speech has received growing attention in recent years, with various creative and practical use cases. An ideal generated video should have good lip sync with the audio, natural facial expressions and head motions, and high frame quality. In this work, we present SPACE, which uses speech and a single image to generate high-resolution, and expressive videos with realistic head pose, without requiring a driving video. It uses a multi-stage approach, combining the controllability of facial landmarks with the high-quality synthesis power of a pretrained face generator. SPACE also allows for the control of emotions and their intensities. Our method outperforms prior methods in objective metrics for image quality and facial motions and is strongly preferred by users in pair-wise comparisons. The project website is available at https://deepimagination.cc/SPACE/
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译
我们解决了从文本描述中产生不同3D人类动作的问题。这项具有挑战性的任务需要两种方式的联合建模:从文本中理解和提取有用的人类以人为中心的信息,然后产生人类姿势的合理和现实序列。与大多数以前的工作相反,该作品着重于从文本描述中产生单一的,确定性的动作,我们设计了一种可以产生多种人类动作的变异方法。我们提出了Temos,这是一种具有人体运动数据的变异自动编码器(VAE)训练的文本生成模型,并结合了与VAE潜在空间兼容的文本编码器结合使用的文本编码器。我们显示Temos框架可以像先前的工作一样产生基于骨架的动画,以及更具表现力的SMPL身体运动。我们在套件运动语言基准上评估了我们的方法,尽管相对简单,但对艺术的状态表现出显着改善。代码和模型可在我们的网页上找到。
translated by 谷歌翻译
在感官替代领域的长期目标是通过可视化音频内容来实现对聋人的声音感知。与语音和文本或文本和图像之间的现有模型不同,我们针对即时和低级音频到视频翻译,适用于通用环境声音以及人类语音。由于这种替代是人为的,没有监督学习的标签,我们的核心贡献是通过高级约束来建立从音频到视频的映射。对于言语,我们通过将它们映射到共同的解除不诚格的潜在空间来释放型号(性别和方言)的内容(电话)。包括用户学习的定性和定量结果表明,我们的未配对翻译方法在生成的视频中保持了重要的音频功能,并且面孔和数字的视频非常适合可视化可以通过人类解析的高维音频特征和区分声音,单词和扬声器。
translated by 谷歌翻译
在本文中,我们呈现VDTTS,一个视觉驱动的文本到语音模型。通过配音而激励,VDTTS利用视频帧作为伴随文本的附加输入,并生成与视频信号匹配的语音。我们展示了这允许VDTTS,与普通的TTS模型不同,产生不仅具有自然暂停和间距等韵律变化的语音,而且还与输入视频同步。实验,我们显示我们的模型产生良好的同步输出,接近地面真理的视频语音同步质量,在几个具有挑战性的基准中,包括来自VoxceleB2的“野外”内容。我们鼓励读者查看演示视频,演示视频语音同步,对扬声器ID交换和韵律的鲁棒性。
translated by 谷歌翻译
我们提出了循环式的舞蹈风格转移系统,该系统将以一种舞蹈方式将现有的运动剪辑转换为另一种舞蹈风格的运动剪辑,同时试图保留舞蹈的运动背景。我们的方法扩展了现有的自行车结构,用于建模音频序列,并集成多模式变压器编码器以说明音乐上下文。我们采用基于序列长度的课程学习来稳定培训。我们的方法捕获了运动框架之间丰富而长期的内部关系,这是运动转移和合成工作中的普遍挑战。我们进一步介绍了在舞蹈运动的背景下衡量转移力量和内容保存的新指标。我们进行了一项广泛的消融研究以及一项人类研究,其中包括30名具有5年或更长时间的舞蹈经验的参与者。结果表明,循环量会以目标样式产生逼真的运动,从而在自然性,传递强度和内容保存上明显优于基线周期。
translated by 谷歌翻译
近年来,表现力的文本到语音表现出改善的性能。但是,综合语音的样式控制通常仅限于离散的情绪类别,并且需要目标扬声器记录的培训数据。在许多实际情况下,用户可能没有在目标情感中记录的参考语音,但仅通过键入所需情感风格的文本描述来控制语音样式。在本文中,我们提出了一个基于文本的界面,用于情感风格控制和多演讲者TTS中的跨言式风格转移。我们提出了双模式样式编码器,该编码器模拟了文本描述嵌入与语言模型嵌入语音样式之间的语义关系。为了进一步改善横向扬声器风格的转移,在多种风格的数据集上,我们提出了新型样式损失。实验结果表明,即使以看不见的风格,我们的模型也可以产生高质量的表达语音。
translated by 谷歌翻译
我们提出了一个新颖的框架,按需运动产生(ODMO),用于生成现实和多样化的长期3D人体运动序列,该序列仅以具有额外的自定义能力的动作类型为条件。 ODMO在三个公共数据集(HumanAct12,UESTC和MOCAP)上进行评估时,对所有传统运动评估指标的SOTA方法显示了改进。此外,我们提供定性评估和定量指标,这些指标证明了我们框架提供的几种首要的自定义功能,包括模式发现,插值和轨迹自定义。这些功能大大扩大了此类运动产生模型的潜在应用的范围。编码器和解码器体系结构中的创新启用了新颖的按需生成能力:(i)编码器:在低维的潜在空间中利用对比度学习来创建运动序列的层次结构嵌入,不仅是不同动作的代码,类型形成不同的组,但在动作类型中,类似的固有模式(运动样式)聚集在一起的代码,使它们容易发现; (ii)解码器:使用层次解码策略,该策略首先重建运动轨迹,然后用于重建整个运动序列。这样的架构可以有效地控制轨迹控制。我们的代码发布在GitHub页面:https://github.com/roychowdhuryresearch/odmo
translated by 谷歌翻译
由于缺乏可用的数据集,模型和标准评估指标,因此以多模式数据为条件的现实,生动和类似人类的合成对话手势仍然是一个未解决的问题。为了解决这个问题,我们构建了人体表达式 - aauio-Text数据集,Beat,它具有76小时,高质量的,高质量的多模式数据,这些数据从30位扬声器中捕获了八种不同的情绪,用四种不同的语言,ii)32数以百万计的框架级别的情感和语义相关注释。我们对BEAT的统计分析表明,除了与音频,文本和说话者身份的已知相关性外,对话式手势与面部表情,情感和语义的相关性。基于此观察结果,我们提出了一个基线模型,即级联运动网络(CAMN),该模型由以上六种模式组成,该模式在级联的架构中建模以进行手势合成。为了评估语义相关性,我们引入了指标,语义相关性召回(SRGR)。定性和定量实验证明了指标的有效性,地面真相数据质量以及基线的最先进性能。据我们所知,BEAT是用于研究人类手势的最大运动捕获数据集,这可能有助于许多不同的研究领域,包括可控的手势合成,跨模式分析和情感手势识别。数据,代码和模型可在https://pantomatrix.github.io/beat/上获得。
translated by 谷歌翻译