使用未转录的参考样本来克隆说话者的声音是现代神经文本到语音(TTS)方法的巨大进步之一。最近还提出了模仿转录参考音频的韵律的方法。在这项工作中,我们首次将这两项任务与话语级别的扬声器嵌入在一起,首次将这两个任务融合在一起。我们进一步引入了一个轻巧的对准器,用于提取细粒度的韵律特征,可以在几秒钟内对单个样品进行填充。我们表明,正如我们的客观评估和人类研究表明,我们可以独立地独立地独立语言参考的声音以及与原始声音和韵律高度相似的韵律的韵律,正如我们的客观评估和人类研究表明。我们的所有代码和训练有素的模型都可以以及静态和交互式演示。
translated by 谷歌翻译
诗歌的语音综合是由于诗意语音固有的特定语调模式而具有挑战性的。在这项工作中,我们提出了一种将诗歌与几乎像人类一样自然的综合诗作的方法,以使文学学者能够系统地检查有关文本,口头实现和听众对诗歌的相互作用的假设。为了满足文学研究的这些特殊要求,我们通过从人类参考朗诵中克隆韵律价值来重新合成诗,然后利用细粒度的韵律控制来操纵在人类的环境中的合成语音以改变朗诵W.R.T.具体现象。我们发现,对诗歌的TTS模型进行鉴定会在很大程度上捕捉诗歌语调模式,这对韵律克隆和操纵是有益的,并在客观评估和人类研究中都验证了我们方法的成功。
translated by 谷歌翻译
本文介绍了对F0的音素级韵律控制的方法和多销箱文本到语音设置的持续时间,基于韵律聚类。使用自回归关注的模型,并将多个箱子架构模块并联,与韵律编码器并联。提出了对基本单扬声器方法的几种改进,从而增加了韵律控制范围和覆盖范围。更具体地说,我们采用数据增强,F0​​标准化,持续时间的平衡集群,以及扬声器无关的韵律聚类。这些修改使培训集中包含的所有发言者能够进行细粒度的音素级韵律控制,同时保持扬声器标识。该模型也可以微调到具有限制数据量的看不见的扬声器,并显示其维持其韵律控制能力,验证说话者无关的韵律聚类是有效的。实验结果验证了该模型维持了高输出语音质量,并且该方法允许在每个扬声器范围内有效的韵律控制,尽管多种式箱子设置介绍的变化。
translated by 谷歌翻译
In this paper, we present a novel method for phoneme-level prosody control of F0 and duration using intuitive discrete labels. We propose an unsupervised prosodic clustering process which is used to discretize phoneme-level F0 and duration features from a multispeaker speech dataset. These features are fed as an input sequence of prosodic labels to a prosody encoder module which augments an autoregressive attention-based text-to-speech model. We utilize various methods in order to improve prosodic control range and coverage, such as augmentation, F0 normalization, balanced clustering for duration and speaker-independent clustering. The final model enables fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. Instead of relying on reference utterances for inference, we introduce a prior prosody encoder which learns the style of each speaker and enables speech synthesis without the requirement of reference audio. We also fine-tune the multispeaker model to unseen speakers with limited amounts of data, as a realistic application scenario and show that the prosody control capabilities are maintained, verifying that the speaker-independent prosodic clustering is effective. Experimental results show that the model has high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
translated by 谷歌翻译
在本文中,介绍了文本到读取/唱歌系统,可以适应任何扬声器的声音。它利用基于TacoTron的多级箱子声学模型在只读语音数据训练,并且在音素级别提供韵律控制。还研究了基于传统DSP算法的数据集增强和额外的韵律操纵。神经TTS模型对看不见的扬声器的有限录音进行了微调,允许与目标的扬声器语音进行敲击/歌唱合成。描述了系统的详细管道,其包括从Capella歌曲的目标音调和持续时间值提取,并将其转换为在合成之前的目标扬声器的有效音符范围内。还研究了通过WSOLA输出的输出的韵律操纵的另外的阶段,以便更好地匹配目标持续时间值。合成的话语可以与乐器伴奏轨道混合以产生完整的歌曲。通过主观聆听测试评估所提出的系统,以及与可用的备用系统相比,该系统还旨在从只读训练数据产生合成歌唱语音。结果表明,该拟议的方法可以产生高质量的敲击/歌声,具有增加的自然。
translated by 谷歌翻译
重音文本到语音(TTS)合成旨在以重音(L2)作为标准版本(L1)的变体生成语音。强调TTS合成具有挑战性,因为在语音渲染和韵律模式方面,L2在L1上都不同。此外,在话语中无法控制重音强度的解决方案。在这项工作中,我们提出了一种神经TTS体系结构,使我们能够控制重音及其在推理过程中的强度。这是通过三种新型机制来实现的,1)一种重音方差适配器,可以用三个韵律控制因子(即俯仰,能量和持续时间)对复杂的重音方差进行建模; 2)一种重音强度建模策略来量化重音强度; 3)一个一致性约束模块,以鼓励TTS系统在良好的水平上呈现预期的重音强度。实验表明,在重音渲染和强度控制方面,所提出的系统在基线模型上的性能优于基线模型。据我们所知,这是对具有明确强度控制的重音TT合成的首次研究。
translated by 谷歌翻译
Voice Conversion (VC) is the task of making a spoken utterance by one speaker sound as if uttered by a different speaker, while keeping other aspects like content unchanged. Current VC methods, focus primarily on spectral features like timbre, while ignoring the unique speaking style of people which often impacts prosody. In this study, we introduce a method for converting not only the timbre, but also prosodic information (i.e., rhythm and pitch changes) to those of the target speaker. The proposed approach is based on a pretrained, self-supervised, model for encoding speech to discrete units, which make it simple, effective, and easy to optimise. We consider the many-to-many setting with no paired data. We introduce a suite of quantitative and qualitative evaluation metrics for this setup, and empirically demonstrate the proposed approach is significantly superior to the evaluated baselines. Code and samples can be found under https://pages.cs.huji.ac.il/adiyoss-lab/dissc/ .
translated by 谷歌翻译
情绪转换(EVC)寻求转换话语的情绪状态,同时保留语言内容和扬声器身份。在EVC,情绪通常被视为离散类别,忽略了言论也传达了听众可以感知的各种强度水平的情绪。在本文中,我们的目标是明确地表征和控制情绪强度。我们建议解开语言内容的扬声器风格,并将扬声器风格编码成一个嵌入的嵌入空间,形成情绪嵌入的原型。我们进一步从情感标记的数据库中了解实际的情感编码器,并研究使用相对属性来表示细粒度的情绪强度。为确保情绪可理解性,我们将情感分类损失和情感嵌入了EVC网络培训中的相似性损失。根据需要,所提出的网络控制输出语音中的细粒度情绪强度。通过目标和主观评估,我们验证了建议网络的情感表达和情感强度控制的有效性。
translated by 谷歌翻译
机器生成的语音的特点是其有限或不自然的情绪变化。目前的语音系统文本与扁平情绪,从预定义的集合中选择的情感,从培训数据中的韵律序列中学到的平均变异,或者从源样式转移。我们向语音(TTS)系统提出了文本,其中用户可以从连续和有意义的情感空间(唤醒空间)中选择生成的语音的情绪。所提出的TTS系统可以从任何扬声器风格中的文本产生语音,具有对情绪的精细控制。我们展示该系统在培训期间无知的情感上的工作,并且可以鉴于他/她的演讲样本来扩展到以前看不见的扬声器。我们的作品将最先进的FastSeech2骨干的地平线扩展到多扬声器设置,并为其提供了多令人垂涎的连续(和可解释)的情感控制,而没有任何可观察到的综合演讲的退化。
translated by 谷歌翻译
在这项工作中,我们提出了一个说话者的匿名管道,该管道利用高质量的自动语音识别和合成系统来生成以语音转录和匿名扬声器嵌入为条件的语音。使用电话作为中间表示,可确保从输入中完全消除说话者身份信息,同时尽可能保留原始的语音内容。我们在Librispeech和VCTK Corpora上的实验结果揭示了两个关键发现:1)尽管自动语音识别会产生不完美的转录,但我们的神经语音合成系统可以处理此类错误,使我们的系统可行且健壮,并且2)结合来自不同资源的扬声器嵌入,有益及其适当的归一化至关重要。总体而言,我们的最终最佳系统在2020年语音隐私挑战挑战中提供的基线在与懒惰的攻击者的稳健性方面相当大,同时保持了匿名语音的高度理解性和自然性。
translated by 谷歌翻译
YOUTTS为零拍摄多扬声器TTS的任务带来了多语言方法的力量。我们的方法在VITS模型上构建,并为零拍摄的多扬声器和多语言训练增加了几种新颖的修改。我们实现了最先进的(SOTA)导致零拍摄的多扬声器TTS以及与VCTK数据集上的零拍语音转换中的SOTA相当的结果。此外,我们的方法可以实现具有单扬声器数据集的目标语言的有希望的结果,以低资源语言为零拍摄多扬声器TTS和零拍语音转换系统的开放可能性。最后,可以微调言论不到1分钟的言论,并实现最先进的语音相似性和合理的质量。这对于允许具有非常不同的语音或从训练期间的记录特征的讲话来合成非常重要。
translated by 谷歌翻译
个性化语音合成系统是一个非常期望的应用程序,其中系统可以使用罕见的登记录制与用户的语音产生语音。最近有两种主要方法可以在近期建立这样的系统:扬声器适配和扬声器编码。一方面,扬声器适配方法微调训练有素的多扬声器文本到语音(TTS)模型,只有少数注册样本。然而,它们需要至少有数千个微调步骤以进行高质量适应,使其难以在设备上施加。另一方面,扬声器编码方法将注册话语编码为扬声器嵌入。训练的TTS模型可以在相应的扬声器嵌入上综合用户的语音。然而,扬声器编码器遭受了所看到和看不见的扬声器之间的泛化差距。在本文中,我们建议将元学习算法应用于扬声器适应方法。更具体地说,我们使用模型不可知的元学习(MAML)作为多扬声器TTS模型的训练算法,其旨在找到一个很好的元初始化,以便快速地将模型调整到任何几次扬声器适应任务。因此,我们还可以将元训练的TTS模型调整为有效地解除扬声器。我们的实验比较了两个基线的提出方法(Meta-TTS):扬声器适配方法基线和扬声器编码方法基线。评估结果表明,Meta-TTS可以从扬声器适应基线的少量适应步骤中综合高扬声器相似性语音,而不是扬声器适配基线,并且在相同的训练方案下优于扬声器编码基线。当基线的扬声器编码器用额外的8371个扬声器进行预先培训时,Meta-TTS仍然可以越优于库特布特数据集的基线,并在VCTK数据集上实现可比结果。
translated by 谷歌翻译
现有的唱歌语音合成模型(SVS)通常在唱歌数据上进行训练,并取决于容易出错的时间对齐和持续时间功能或明确的音乐得分信息。在本文中,我们提出了Karaoker,Karaoker是一种基于多言式Tacotron的模型,该模型以语音特征为条件,该功能专门针对口语数据进行训练,而无需时间对齐。卡拉克(Karaoker)在从看不见的歌手/扬声器的源波形中提取的多维模板之后,综合了歌声和传输风格。该模型在连续数据上以单个深卷积编码为共同条件,包括音高,强度,和谐,实扣,cepstral峰值突出和八度。我们通过功能重建,分类和说话者身份识别任务扩展了文本到语音训练目标,这些任务将模型指导到准确的结果。除多任务外,我们还采用了Wasserstein GAN训练方案以及声学模型的输出的新损失,以进一步完善模型的质量。
translated by 谷歌翻译
本文介绍了语音(TTS)系统的Microsoft端到端神经文本:暴风雪挑战2021。这一挑战的目标是从文本中综合自然和高质量的演讲,并在两个观点中接近这一目标:首先是直接模型,并在48 kHz采样率下产生波形,这比以前具有16 kHz或24 kHz采样率的先前系统带来更高的感知质量;第二个是通过系统设计来模拟语音中的变化信息,从而提高了韵律和自然。具体而言,对于48 kHz建模,我们预测声学模型中的16 kHz熔点 - 谱图,并提出称为HIFINET的声码器直接从预测的16kHz MEL谱图中产生48kHz波形,这可以更好地促进培训效率,建模稳定性和语音。质量。我们从显式(扬声器ID,语言ID,音高和持续时间)和隐式(话语级和音素级韵律)视角系统地模拟变化信息:1)对于扬声器和语言ID,我们在培训和推理中使用查找嵌入; 2)对于音高和持续时间,我们在训练中提取来自成对的文本语音数据的值,并使用两个预测器来预测推理中的值; 3)对于话语级和音素级韵律,我们使用两个参考编码器来提取训练中的值,并使用两个单独的预测器来预测推理中的值。此外,我们介绍了一个改进的符合子块,以更好地模拟声学模型中的本地和全局依赖性。对于任务SH1,DelightFultts在MOS测试中获得4.17均匀分数,4.35在SMOS测试中,表明我们所提出的系统的有效性
translated by 谷歌翻译
在本文中,我们呈现VDTTS,一个视觉驱动的文本到语音模型。通过配音而激励,VDTTS利用视频帧作为伴随文本的附加输入,并生成与视频信号匹配的语音。我们展示了这允许VDTTS,与普通的TTS模型不同,产生不仅具有自然暂停和间距等韵律变化的语音,而且还与输入视频同步。实验,我们显示我们的模型产生良好的同步输出,接近地面真理的视频语音同步质量,在几个具有挑战性的基准中,包括来自VoxceleB2的“野外”内容。我们鼓励读者查看演示视频,演示视频语音同步,对扬声器ID交换和韵律的鲁棒性。
translated by 谷歌翻译
Deep learning based text-to-speech (TTS) systems have been evolving rapidly with advances in model architectures, training methodologies, and generalization across speakers and languages. However, these advances have not been thoroughly investigated for Indian language speech synthesis. Such investigation is computationally expensive given the number and diversity of Indian languages, relatively lower resource availability, and the diverse set of advances in neural TTS that remain untested. In this paper, we evaluate the choice of acoustic models, vocoders, supplementary loss functions, training schedules, and speaker and language diversity for Dravidian and Indo-Aryan languages. Based on this, we identify monolingual models with FastPitch and HiFi-GAN V1, trained jointly on male and female speakers to perform the best. With this setup, we train and evaluate TTS models for 13 languages and find our models to significantly improve upon existing models in all languages as measured by mean opinion scores. We open-source all models on the Bhashini platform.
translated by 谷歌翻译
在本文中,我们提出了GLOWVC:一种基于多语言的多语言流程模型,用于与语言无关的语音转换。我们建立在Glow-TTS上,该架构提供了一个架构,该体系结构可以在训练过程中使用语言特征,而无需将其用于VC推理。我们考虑了我们的模型的两个版本:glowVC条件和glowVC阐释。 GLOWVC条件模拟具有扬声器条件流的旋光图的分布,并将Mel-Spectrogragron空间置于内容和音高相关的尺寸中,而GlowVC-Plapic-Plapic-Plocific-Plocific opplicit over opplicit of the SughtliciT模型,无条件的流量和删除空间表示空间 - 内容 - 音调和与扬声器相关的维度。我们根据可见语言和看不见的语言的内部和跨语性转换来评估我们的模型,说话者的相似性和自然性。 GlowVC在清晰度方面的模型大大优于AutoVC基线,同时在语言内VC中获得了高扬声器的相似性,并且在跨语言环境中稍差。此外,我们证明了glowvc-suplicic在自然性方面超过了glowvc条件和自动vc。
translated by 谷歌翻译
本文提出了一种表达语音合成架构,用于在单词级别建模和控制说话方式。它试图借助两个编码器来学习语音数据的单词级风格和韵律表示。通过查找声学特征的每个单词的样式令牌的组合,第二个模型样式,第二个输出单词级序列仅在语音信息上调节,以便从风格信息解开它。两个编码器输出与音素编码器输出对齐并连接,然后用非周度塔歇尔策略模型解码。额外的先前编码器用于自向预测样式标记,以便模型能够在没有参考话语的情况下运行。我们发现所产生的模型给出了对样式的单词级和全局控制,以及韵律转移能力。
translated by 谷歌翻译
这项工作探讨了在不存在的人类发声声中合成语音的任务。我们称之为此任务“扬声器生成”,并呈现Tacosawn,一个在此任务中竞争地执行的系统。Tacosawn是一种基于重复的关注文本到语音模型,了解备用空间的发行版,这使得新颖和各种扬声器采样。我们的方法易于实现,并且不需要从扬声器ID系统转移学习。我们呈现客观和主观指标,用于评估此任务的表现,并证明我们所提出的客观指标与人类对扬声器相似性相关联。我们的演示页面上有音频样本。
translated by 谷歌翻译
在本文中,我们提出了一个神经端到端系统,用于保存视频的语音,唇部同步翻译。该系统旨在将多个组件模型结合在一起,并以目标语言的目标语言与目标语言的原始扬声器演讲的视频与目标语音相结合,但在语音,语音特征,面对原始扬声器的视频中保持着重点。管道从自动语音识别开始,包括重点检测,然后是翻译模型。然后,翻译后的文本由文本到语音模型合成,该模型重新创建了原始句子映射的原始重点。然后,使用语音转换模型将结果的合成语音映射到原始扬声器的声音。最后,为了将扬声器的嘴唇与翻译的音频同步,有条件的基于对抗网络的模型生成了相对于输入面图像以及语音转换模型的输出的适应性唇部运动的帧。最后,系统将生成的视频与转换后的音频结合在一起,以产生最终输出。结果是一个扬声器用另一种语言说话的视频而不真正知道。为了评估我们的设计,我们介绍了完整系统的用户研究以及对单个组件的单独评估。由于没有可用的数据集来评估我们的整个系统,因此我们收集了一个测试集并在此测试集上评估我们的系统。结果表明,我们的系统能够生成令人信服的原始演讲者的视频,同时保留原始说话者的特征。收集的数据集将共享。
translated by 谷歌翻译