我们的声音编码了一种独特的可识别模式,该模式可用于推断私人属性(例如性别或身份),即个人可能希望在使用语音识别服务时不会透露。为了防止属性推理攻击与语音识别任务一起,我们提出了一个生成的对抗网络Gengan,该网络综合了掩盖说话者的性别或身份的声音。拟议的网络包括一个具有U-NET体系结构的生成器,该发生器学会了欺骗歧视者。我们仅根据性别信息来调节发电机,并在信号失真和隐私保护之间使用对抗性损失。我们表明,与将性别信息视为保护性别的敏感属性相比,Gengan改善了隐私和公用事业之间的权衡。
translated by 谷歌翻译
语音信号包含许多敏感信息,例如说话者的身份,这些信息在收集语音数据时引起了隐私问题。演讲者的匿名化旨在转换语音信号以消除源说话者的身份,同时使口语内容不变。当前方法通过依靠内容/说话者的分离和语音转换来执行转换。通常,来自自动语音识别系统的声学模型会提取内容表示,而X-Vector系统则提取说话者表示。先前的工作表明,提取的功能并未完全脱离。本文解决了如何改善特征分离的特征,从而改善了转换的匿名语音。我们建议使用矢量量化从声学模型中删除扬声器信息来增强分离。使用Voice Privacy 2022 Toolkit进行的评估表明,向量量化有助于隐藏原始的说话者身份,同时保持语音识别的实用性。
translated by 谷歌翻译
本文介绍了第一个致力于2020挑战的结果和分析,重点是开发语音技术的匿名解决方案。我们提供了对提交的系统和评估结果的分析,提供了挑战设计的系统概述。特别是,我们描述了用于系统开发和评估的语音匿名任务和数据集。此外,我们呈现不同的攻击模型和相关目标和主观评估指标。我们介绍了两个匿名化的基线,并提供了由挑战参与者开发的匿名化系统的摘要描述。我们向基线和提交的系统报告客观和主观评估结果。此外,我们提出了作为评估后分析的一部分开发的替代隐私度量和攻击模型的实验结果。最后,我们总结了我们的见解和观察,这将影响下一个语音普遍挑战版的设计和未来语音匿名化研究的某些方向。
translated by 谷歌翻译
非平行的多与众不同的语音转换仍然是一项有趣但具有挑战性的语音处理任务。最近,基于有条件的自动编码器的方法AutoVC通过使用信息限制的瓶颈来删除说话者身份和语音内容,从而实现了出色的转换结果。但是,由于纯粹的自动编码器训练方法,很难评估内容和说话者身份的分离效果。在本文中,一个新颖的语音转换框架,名为$ \ boldsymbol t $ ext $ \ boldsymbol g $ uided $ \ boldsymbol a $ utovc(tgavc),提议更有效地将内容和音色与语音分开,其中预期的内容嵌入其中根据文本转录生产的旨在指导语音内容的提取。此外,对对抗性训练将用于消除从语音中提取的估计内容中的说话者身份信息。在预期内容嵌入和对抗培训的指导下,对内容编码器进行了培训,以从语音中提取嵌入说话者的内容。 Aishell-3数据集的实验表明,所提出的模型在自然性和转换语音的相似性方面优于AUTOVC。
translated by 谷歌翻译
在这项工作中,我们提出了一个说话者的匿名管道,该管道利用高质量的自动语音识别和合成系统来生成以语音转录和匿名扬声器嵌入为条件的语音。使用电话作为中间表示,可确保从输入中完全消除说话者身份信息,同时尽可能保留原始的语音内容。我们在Librispeech和VCTK Corpora上的实验结果揭示了两个关键发现:1)尽管自动语音识别会产生不完美的转录,但我们的神经语音合成系统可以处理此类错误,使我们的系统可行且健壮,并且2)结合来自不同资源的扬声器嵌入,有益及其适当的归一化至关重要。总体而言,我们的最终最佳系统在2020年语音隐私挑战挑战中提供的基线在与懒惰的攻击者的稳健性方面相当大,同时保持了匿名语音的高度理解性和自然性。
translated by 谷歌翻译
对于新参与者 - 执行摘要:(1)任务是为语音数据开发语音匿名系统,该系统隐藏了说话者的语音身份,同时保护语言内容,副语言属性,清晰度和自然性。 (2)除3种不同的基线匿名系统,评估脚本和指标外,还提供了培训,开发和评估数据集。参与者应用其开发的匿名系统,运行评估脚本并向组织者提交客观评估结果和匿名语音数据。 (3)结果将在与Interspeech 2022结合的研讨会上展示,邀请所有参与者介绍其挑战系统并提交其他研讨会论文。对于熟悉语音挑战的读者 - 更改W.R.T. 2020年:(1)以自动扬声器验证(ASV)系统的形式进行了更强的半信息攻击模型,该系统接受了匿名(每位)语音数据的训练。 (2)互补指标包括等于误差率(EER)作为隐私指标,单词错误率(WER)作为主要实用性度量,以及音调相关性和声音独特性作为辅助效用度量标准。 (3)基于一组最小目标隐私要求的新排名策略。
translated by 谷歌翻译
只有单个目标扬声器的语音供参考的单发语音转换(VC)已成为一个热门研究主题。现有作品通常会散布音色,而有关音高,节奏和内容的信息仍然混合在一起。为了进一步删除这些语音组件,有效地执行一声VC,我们采用随机重新采样用于音高和内容编码器,并使用互信息的各种对比对数比率上限和基于梯度反向层的对抗性相互信息学习来确保不同部分在训练过程中仅包含所需的分离表示的潜在空间。 VCTK数据集的实验显示该模型就自然性和智能性方面实现了一声VC的最新性能。此外,我们可以通过语音表示分离分别传递音色,音调和节奏的单发VC的特征。我们的代码,预训练的模型和演示可在https://im1eon.github.io/is2022-Srdvc/上获得。
translated by 谷歌翻译
基于语音的在线服务的广泛采用提出了有关使用和共享数据的安全性和隐私问题。如果数据受到损害,攻击者可以利用用户语音绕过扬声器验证系统甚至模仿用户。为了减轻这种情况,我们提出了DEID-VC,这是一种演讲者的识别系统,将真实的演讲者转换为伪扬声器,从而从口头声音中删除或使依赖说话者的属性混淆。 DEID-VC的关键组件包括基于变量的自动编码器(VAE)的伪扬声器生成器(PSG)和在零摄像机设置下的语音转换自动编码器(AE)。在PSG的帮助下,DeID-VC可以在扬声器级别甚至在话语层面上分配独特的伪扬声器。此外,还添加了两个新颖的学习目标,以弥合训练和零声音转换的推理之间的差距。我们以单词错误率(WER)和相等的错误率(EER)以及三个主观指标介绍了我们的实验结果,以评估DEID-VC的生成输出。结果表明,与我们的基线相比,我们的方法显着提高了清晰度(低10%)和去识别效果(EER高5%)。代码和听力演示:https://github.com/a43992899/deid-vc
translated by 谷歌翻译
如今,随着越来越多的系统在传统的语音转换(VC)任务中实现了良好的性能,人们的注意力在极端条件下逐渐转向VC任务。在本文中,我们提出了一种零射声语音转换的新方法。我们的目标是获取讲话者内容解剖的中间陈述,以更好地删除发言者信息并获得纯净的内容信息。因此,我们所提出的框架包含一种模块,该模块从源扬声器的声学特征中移除扬声器信息。此外,扬声器信息控制被添加到我们的系统中以维持语音克隆性能。所提出的系统由主观和客观度量评估。结果表明,我们提出的系统显着降低了零射声语音转换中的权衡问题,而且还可以对扬声器验证系统进行高欺骗功率。
translated by 谷歌翻译
在本文中,我们提出了GLOWVC:一种基于多语言的多语言流程模型,用于与语言无关的语音转换。我们建立在Glow-TTS上,该架构提供了一个架构,该体系结构可以在训练过程中使用语言特征,而无需将其用于VC推理。我们考虑了我们的模型的两个版本:glowVC条件和glowVC阐释。 GLOWVC条件模拟具有扬声器条件流的旋光图的分布,并将Mel-Spectrogragron空间置于内容和音高相关的尺寸中,而GlowVC-Plapic-Plapic-Plocific-Plocific opplicit over opplicit of the SughtliciT模型,无条件的流量和删除空间表示空间 - 内容 - 音调和与扬声器相关的维度。我们根据可见语言和看不见的语言的内部和跨语性转换来评估我们的模型,说话者的相似性和自然性。 GlowVC在清晰度方面的模型大大优于AutoVC基线,同时在语言内VC中获得了高扬声器的相似性,并且在跨语言环境中稍差。此外,我们证明了glowvc-suplicic在自然性方面超过了glowvc条件和自动vc。
translated by 谷歌翻译
无监督的零射声语音转换(VC)旨在修改话语的扬声器特性,以匹配看不见的目标扬声器,而无需依赖并行培训数据。最近,已经显示了语音表示的自我监督学习在不使用转录物的情况下产生有用的语言单元,这可以直接传递给VC模型。在本文中,我们展示了通过使用长度重采样解码器来实现高质量的音频样本,这使得VC模型能够与不同的语言特征提取器和声码器一起工作,而无需它们以相同的序列长度运行。我们表明,我们的方法可以胜过VCTK数据集的许多基线。在不修改架构的情况下,我们进一步展示了a)使用来自同一扬声器的不同音频段,b)添加循环一致性损失,并且c)添加扬声器分类损失可以有助于学习更好的扬声器嵌入。我们的模型使用这些技术训练了Libritts,实现了最佳性能,产生了音频样本对目标扬声器的声音,同时保留了在字符错误率方面与实际人类话语相当的语言内容。
translated by 谷歌翻译
Faced with the threat of identity leakage during voice data publishing, users are engaged in a privacy-utility dilemma when enjoying convenient voice services. Existing studies employ direct modification or text-based re-synthesis to de-identify users' voices, but resulting in inconsistent audibility in the presence of human participants. In this paper, we propose a voice de-identification system, which uses adversarial examples to balance the privacy and utility of voice services. Instead of typical additive examples inducing perceivable distortions, we design a novel convolutional adversarial example that modulates perturbations into real-world room impulse responses. Benefit from this, our system could preserve user identity from exposure by Automatic Speaker Identification (ASI) while remaining the voice perceptual quality for non-intrusive de-identification. Moreover, our system learns a compact speaker distribution through a conditional variational auto-encoder to sample diverse target embeddings on demand. Combining diverse target generation and input-specific perturbation construction, our system enables any-to-any identify transformation for adaptive de-identification. Experimental results show that our system could achieve 98% and 79% successful de-identification on mainstream ASIs and commercial systems with an objective Mel cepstral distortion of 4.31dB and a subjective mean opinion score of 4.48.
translated by 谷歌翻译
In this paper, we propose dictionary attacks against speaker verification - a novel attack vector that aims to match a large fraction of speaker population by chance. We introduce a generic formulation of the attack that can be used with various speech representations and threat models. The attacker uses adversarial optimization to maximize raw similarity of speaker embeddings between a seed speech sample and a proxy population. The resulting master voice successfully matches a non-trivial fraction of people in an unknown population. Adversarial waveforms obtained with our approach can match on average 69% of females and 38% of males enrolled in the target system at a strict decision threshold calibrated to yield false alarm rate of 1%. By using the attack with a black-box voice cloning system, we obtain master voices that are effective in the most challenging conditions and transferable between speaker encoders. We also show that, combined with multiple attempts, this attack opens even more to serious issues on the security of these systems.
translated by 谷歌翻译
Speech-centric machine learning systems have revolutionized many leading domains ranging from transportation and healthcare to education and defense, profoundly changing how people live, work, and interact with each other. However, recent studies have demonstrated that many speech-centric ML systems may need to be considered more trustworthy for broader deployment. Specifically, concerns over privacy breaches, discriminating performance, and vulnerability to adversarial attacks have all been discovered in ML research fields. In order to address the above challenges and risks, a significant number of efforts have been made to ensure these ML systems are trustworthy, especially private, safe, and fair. In this paper, we conduct the first comprehensive survey on speech-centric trustworthy ML topics related to privacy, safety, and fairness. In addition to serving as a summary report for the research community, we point out several promising future research directions to inspire the researchers who wish to explore further in this area.
translated by 谷歌翻译
在本文中,我们研究了一些现有的和新的最先进的生成的对抗网络(GAN)语音转换方法,用于增强暂存语音,以改善发育性语音识别。我们将现有方法的关键组成部分进行比较,作为严格的消融研究的一部分,以找到提高发狂语音识别的最有效的解决方案。我们发现,直接的信号处理方法,例如静止噪声消除和基于声码的时间拉伸导致达到疑声语音识别结果,其与使用最先进的GaN的语音转换方法使用的那些使用音素识别任务测量而获得的结果相当。此外,我们提出的蒙面克萨根-VC和时间拉伸增强的组合解决方案能够改善与我们的时间拉伸基线相比的某些发育扬声器的音素识别结果。
translated by 谷歌翻译
已经提出了语音转换(VC)以通过使用它来增强有限培训数据来改进低资源语言的语音识别系统。但直到最近,计算速度等实际问题限制了VC为此目的的使用。此外,尚不清楚在一个资源良好的语言上培训的VC模型是否可以从其他低资源语言应用于数据增强的目的。在这项工作中,我们评估VC系统是否可以在凌乱上使用,以改善低资源语音识别。具体地,我们将最近的几种技术与英语一起设计和培训实用的VC系统,然后使用该系统以几种低资源语言培训语音识别模型的数据。我们发现,当使用合理量的增强数据时,所有四种低资源语言都有改进了语音识别性能。
translated by 谷歌翻译
In this paper, we present a novel method for phoneme-level prosody control of F0 and duration using intuitive discrete labels. We propose an unsupervised prosodic clustering process which is used to discretize phoneme-level F0 and duration features from a multispeaker speech dataset. These features are fed as an input sequence of prosodic labels to a prosody encoder module which augments an autoregressive attention-based text-to-speech model. We utilize various methods in order to improve prosodic control range and coverage, such as augmentation, F0 normalization, balanced clustering for duration and speaker-independent clustering. The final model enables fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. Instead of relying on reference utterances for inference, we introduce a prior prosody encoder which learns the style of each speaker and enables speech synthesis without the requirement of reference audio. We also fine-tune the multispeaker model to unseen speakers with limited amounts of data, as a realistic application scenario and show that the prosody control capabilities are maintained, verifying that the speaker-independent prosodic clustering is effective. Experimental results show that the model has high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
translated by 谷歌翻译
视频到语音是从口语说话视频中重建音频演讲的过程。此任务的先前方法依赖于两个步骤的过程,该过程从视频中推断出中间表示,然后使用Vocoder或波形重建算法将中间表示形式解码为波形音频。在这项工作中,我们提出了一个基于生成对抗网络(GAN)的新的端到端视频到语音模型,该模型将口语视频转换为波形端到端,而无需使用任何中间表示或单独的波形合成算法。我们的模型由一个编码器架构组成,该体系结构接收原始视频作为输入并生成语音,然后将其馈送到波形评论家和权力评论家。基于这两个批评家的对抗损失的使用可以直接综合原始音频波形并确保其现实主义。此外,我们的三个比较损失的使用有助于建立生成的音频和输入视频之间的直接对应关系。我们表明,该模型能够用诸如网格之类的受约束数据集重建语音,并且是第一个为LRW(野外唇读)生成可理解的语音的端到端模型,以数百名扬声器为特色。完全记录在“野外”。我们使用四个客观指标来评估两种不同的情况下生成的样本,这些客观指标衡量了人工语音的质量和清晰度。我们证明,所提出的方法在Grid和LRW上的大多数指标上都优于以前的所有作品。
translated by 谷歌翻译
Accent plays a significant role in speech communication, influencing understanding capabilities and also conveying a person's identity. This paper introduces a novel and efficient framework for accented Text-to-Speech (TTS) synthesis based on a Conditional Variational Autoencoder. It has the ability to synthesize a selected speaker's speech that is converted to any desired target accent. Our thorough experiments validate the effectiveness of our proposed framework using both objective and subjective evaluations. The results also show remarkable performance in terms of the ability to manipulate accents in the synthesized speech and provide a promising avenue for future accented TTS research.
translated by 谷歌翻译
在这项工作中,我们解决了为野外任何演讲者发出静音唇部视频演讲的问题。与以前的作品形成鲜明对比的是,我们的方法(i)不仅限于固定数量的扬声器,(ii)并未明确对域或词汇构成约束,并且(iii)涉及在野外记录的视频,反对实验室环境。该任务提出了许多挑战,关键是,所需的目标语音的许多功能(例如语音,音调和语言内容)不能完全从无声的面部视频中推断出来。为了处理这些随机变化,我们提出了一种新的VAE-GAN结构,该结构学会了将唇部和语音序列关联到变化中。在指导培训过程的多个强大的歧视者的帮助下,我们的发电机学会了以任何人的唇部运动中的任何声音综合语音序列。多个数据集上的广泛实验表明,我们的优于所有基线的差距很大。此外,我们的网络可以在特定身份的视频上进行微调,以实现与单扬声器模型相当的性能,该模型接受了$ 4 \ times $ $数据的培训。我们进行了大量的消融研究,以分析我们体系结构不同模块的效果。我们还提供了一个演示视频,该视频与我们的网站上的代码和经过训练的模型一起展示了几个定性结果: -合成}}
translated by 谷歌翻译