这项工作旨在自动评估儿童的语言发展是否适合年龄。经过验证的语音和语言测试用于此目的测试听觉记忆。在这项工作中,任务是确定是否正确说出了口语非单词。我们比较有动机来建模特定语言结构的不同方法:低水平特征(FFT),扬声器嵌入(ECAPA-TDNN),素化 - 动机的嵌入(WAV2VEC 2.0)和语音嵌入Senones(ASR ASR ACOSTIC模型)形式。每种方法都提供了类似VGG的5层CNN分类器的输入。我们还检查了每个非单词的适应性。使用来自口头非单词的不同幼儿园的录音进行了对拟议系统的评估。 ECAPA-TDNN和低级FFT特征不会明确模型语音信息; WAV2VEC2.0经过素数标签训练,我们的ASR声学模型包含(子)语音信息。我们发现,语音建模越颗粒状,达到的识别率就越高。在ASR声学模型特征上训练的最佳系统的精度为89.4%,在ROC(接收器操作特征)曲线(AUC)下的面积为0.923。与FFT-BASELINE相比,这对应于20.2%和AUC相对0.309的改善。
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
口吃是一种多种言语障碍,会损害个人的沟通能力。口吃(PWS)的人经常使用语音疗法来应对自己的病情。改善具有这种非典型语音或跟踪语音疗法的人的语音识别系统将需要能够检测功能障碍的系统,同时能够检测到治疗中获得的语​​音技术。本文表明,用于在含有口吃的语音上结结巴巴的口吃的微调2VEC 2.0 [1],结合多任务的学习,增强了通用Purepose Wav2VEC 2.0的有效性,以检测语音在语音中检测说话的功能;内部和跨语言。我们通过训练支持向量机分类器评估我们的FluencyBank的方法[2]和以德国治疗为中心的Kassel Fluency(KSOF)[3]数据集[3]数据集,该数据集使用六种不同结肠相关的事件类型中提取的功能:块:块: ,延长,声音重复,单词重复,插入和 - 特定于治疗 - 语音修改。使用来自微调模型的嵌入式嵌入会导致相对分类的性能增长到高达27%W.R.T. F1得分。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
毒性言论,也被称为仇恨言论,被认为是今天批评在线社交媒体的重要问题之一。最近关于有毒语音检测的工作受到文本的模型,没有现有的毒性检测从口语中的出口检测。在本文中,我们提出了一种从口语中检测毒性的新口语处理任务。我们介绍了排毒,这是英语演讲的第一个公开的毒性注释数据集,来自各种公开可用的语音数据库,包括超过200万个话语。最后,我们还提供了对毒性注释的语音语料库的分析可以帮助促进E2E模型的发展,更好地捕获语音中的各种韵律线索,从而提高了口语的毒性分类。
translated by 谷歌翻译
最近深入学习的突破往往依靠代表学习和知识转移。近年来,开发了用于培养自动语音识别的无监督和自我监督的学习讲话技巧。迄今为止,大多数方法是特定于任务的,并且在特定任务的不同数据集或设置之间进行任务传输学习。反过来,学习任务 - 独立于转移学习的语音和交叉任务应用的代表仍然不那么常见。在这里,我们介绍了一个编码器捕获词级表示的跨任务传输学习。我们展示了预先训练的编码器在四个不同的语音和音频处理任务中的应用:(i)语音增强,(ii)语言识别,(iii)语音,噪声和音乐分类,和(iv)扬声器识别。在每项任务中,我们将跨任务转移学习方法的表现进行比较,以完成任务特定的基准。我们的结果表明,编码器通过预训练捕获的语音表示可在不同的语音处理任务和数据集中可转换。值得注意的是,即使是我们预先训练的编码器的简单应用也优于任务特定的方法,或者取决于任务。
translated by 谷歌翻译
在最近的研究中,自我监管的预训练模型倾向于在转移学习中优于监督的预训练模型。特别是,可以在语音应用中使用语音级语音表示的自我监督学习(SSL),这些语音应用需要歧视性表示话语中一致属性的表示:说话者,语言,情感和年龄。现有的框架级别的自我监督语音表示,例如WAV2VEC,可以用作带有汇总的话语级表示,但这些模型通常很大。也有SSL技术可以学习话语级的表示。最成功的方法之一是一种对比方法,它需要负采样:选择替代样品与当前样品(锚)对比。但是,这并不确保所有负面样本属于与没有标签的锚类别不同的​​类别。本文应用了一种非对抗性的自我监督方法来学习话语级的嵌入。我们对没有标签(Dino)从计算机视觉到语音进行了调整,没有标签(Dino)。与对比方法不同,Dino不需要负抽样。我们将Dino与受到监督方式训练的X-Vector进行了比较。当转移到下游任务(说话者验证,语音情绪识别(SER)和阿尔茨海默氏病检测)时,Dino的表现优于X-Vector。我们研究了转移学习过程中几个方面的影响,例如将微调过程分为步骤,块长度或增强。在微调过程中,首先调整最后一个仿射层,然后整个网络一次超过微调。使用较短的块长度,尽管它们产生了更多不同的输入,但并不一定会提高性能,这意味着至少需要具有特定长度的语音段才能为每个应用程序提高性能。增强对SER有帮助。
translated by 谷歌翻译
众所周知,自动语音识别(ASR)系统在转录儿童的言语时会出现困难。这主要归因于没有大儿童的语音语料库来培训强大的ASR模型以及在用接受成人数据培训的系统解码儿童演讲时所产生的领域不匹配。在本文中,我们提出了多种增强能力来减轻这些问题。首先,我们根据语音源过滤器模型提出了一种数据增强技术,以缩小成人和儿童语音之间的领域差距。这使我们能够通过使这些样本在感知上与儿童的言语相似,从而利用成人语音语料库的数据可用性。其次,使用这种增强策略,我们将转移学习应用于成人数据预先训练的变压器模型。该模型遵循最近引入的XLS-R体系结构,这是对几个跨语性成人语音语料库进行预训练的WAV2VEC 2.0模型,以学习一般和强大的声学框架级表示。使用拟议的来源滤清器扭曲策略增强的成人数据来采用此模型,以实现ASR任务,并且在PF-Star英国英语儿童演讲语料库上的先前最先进的结果大大优于先前的最先进的结果官方测试集中的4.86%。
translated by 谷歌翻译
在空中交通管制(ATC)控制器飞行员谈话的自动语音指令的理解(SIU)不仅需要认识到的演讲词和语义,但也确定了演讲者的角色。然而,很少有在空中交通通信专注于扬声器的作用识别(SRI)自动认识系统发表的作品。在本文中,我们制定管制员 - 驾驶员通信的SRI任务作为二元分类问题。提出此外,基于文本的,基于语音和语音和文本为基础的多模态的方法来达到SRI任务的全面比较。消融的比较方法的影响,各种先进的神经网络架构应用进行优化的,基于语音的基于文本和方法的实现。最重要的是,多模态扬声器的作用识别网络(MMSRINet)设计同时考虑语音和文本模式功能实现的SRI任务。聚集形态特征,模态融合模块提出了保险丝和模态注意机制和自我关注池层,分别挤声音和文本表示。最后,比较的方法进行验证从现实世界ATC环境中收集的语料库ATCSpeech。实验结果表明,所有的比较方法是对SRI任务分别工作,并提议MMSRINet显示出比上都看到和看不到数据的其他方法的有竞争力的性能和稳定性,达到98.56%,98.08和%的准确度。
translated by 谷歌翻译
自我监督的语音表示,如Wav2Vec 2.0和Hubert正在自动语音识别(ASR)中进行革命性进展。但是,未经监督模型没有完全证明在ASR以外的任务中产生更好的性能。在这项工作中,我们探索了Wav2Vec 2.0和Hubert预先训练模型的部分微调和整个微调,适用于三个非ASR语音任务:语音情感识别,发言者验证和口语理解。我们还比较带有/没有ASR微调的预训练型号。通过简单的下游框架,最佳分数对IEMocap上的语音情感识别的加权精度达到79.58%,扬声器验证对voxcereB1的2.36%,意图分类的准确性为87.51%,Slotp的槽填充的75.32%f1,因此为这三个基准设置新的最先进,证明了微调Wave2VEC 2.0和Hubert模型可以更好地学习韵律,语音印刷和语义表示。
translated by 谷歌翻译
State-of-the-art speaker verification frameworks have typically focused on speech enhancement techniques with increasingly deeper (more layers) and wider (number of channels) models to improve their verification performance. Instead, this paper proposes an approach to increase the model resolution capability using attention-based dynamic kernels in a convolutional neural network to adapt the model parameters to be feature-conditioned. The attention weights on the kernels are further distilled by channel attention and multi-layer feature aggregation to learn global features from speech. This approach provides an efficient solution to improving representation capacity with lower data resources. This is due to the self-adaptation to inputs of the structures of the model parameters. The proposed dynamic convolutional model achieved 1.62\% EER and 0.18 miniDCF on the VoxCeleb1 test set and has a 17\% relative improvement compared to the ECAPA-TDNN.
translated by 谷歌翻译
我们介绍BERTPHONE,一个在大型语音上培训的变压器编码器,输出可以用于扬声器和语言识别的语音感知的上下文表示向量。这是通过对两个目标的培训来实现的:首先是通过调整伯特对连续领域的启发,涉及掩蔽输入框架的跨度并重建用于声学表示学习的整个序列;其次,由ASR的瓶颈特征成功的启发是应用于音素标签的序列级CTC损失,用于语音表示学习。我们预留了两种BERTPHONE型号(一个在FISHER上,一个在TED-lium上),并用它们用作两个任务的X-Vector-Sique DNN中的特征提取器。我们达到最先进的$ C _ {\ TEXT {AVG}} $ 6.16就具有挑战性的LRE07 3SEC封闭式语言识别任务。在Fisher和VoxceleB扬声器识别任务上,我们在培训BertPhone向量而不是MFCC时,我们看到扬声器EER的相对减少18%。通常,BERTPHONE在同一数据上优于先前的语音预制方法。我们在https://github.com/awslabs/speech -representations释放我们的代码和模型。
translated by 谷歌翻译
学龄前评估至关重要,因为它为教师和父母提供了有关儿童成长和成长的关键知识。冠状病毒大流行强调了在线评估学龄前儿童的必要性。这种在线测试需要各种技术,从Web应用程序开发到各种标准(例如语音识别)的各种人工智能模型。由于声学的波动和儿童和成人之间语音频率的差异,因此很难采用自动语音识别(ASR)系统,因为它们是在成年人的声音上预先训练的。此外,培训新模型需要大量数据。为了解决此问题,我们使用具有新的预训练目标的WAV2VEC 2.0模型为认知测试系统构建了ASR,称为随机频率音调(RFP),而我们的新数据集则在无意义的单词(MW)和New DataSet上进行了测试(MW)和快速自动命名(RAN)测试。由于这两个测试的特殊性,我们探索了许多模型,包括卷积神经网络(CNN)和WAV2VEC 2.0模型。我们的新方法在CommonVoice数据集的波斯部分上达到6.45的单词错误率(WER)。此外,我们的新方法在零和少数场景中产生积极的结果。
translated by 谷歌翻译
In this paper, we use data augmentation to improve performance of deep neural network (DNN) embeddings for speaker recognition. The DNN, which is trained to discriminate between speakers, maps variable-length utterances to fixed-dimensional embeddings that we call x-vectors. Prior studies have found that embeddings leverage large-scale training datasets better than i-vectors. However, it can be challenging to collect substantial quantities of labeled data for training. We use data augmentation, consisting of added noise and reverberation, as an inexpensive method to multiply the amount of training data and improve robustness. The x-vectors are compared with i-vector baselines on Speakers in the Wild and NIST SRE 2016 Cantonese. We find that while augmentation is beneficial in the PLDA classifier, it is not helpful in the i-vector extractor. However, the x-vector DNN effectively exploits data augmentation, due to its supervised training. As a result, the x-vectors achieve superior performance on the evaluation datasets.
translated by 谷歌翻译
以前的研究已经证实了利用明晰度信息达到改善的语音增强(SE)性能的有效性。通过使用铰接特征的地点/方式增强原始声学特征,可以引导SE过程考虑执行增强时输入语音的剖视特性。因此,我们认为关节属性的上下文信息应包括有用的信息,并可以进一步利用不同的语言。在这项研究中,我们提出了一个SE系统,通过优化英语和普通话的增强演讲中的上下文清晰度信息来提高其性能。我们通过联合列车与端到端的自动语音识别(E2E ASR)模型进行联合列车,预测广播序列(BPC)而不是单词序列的序列。同时,开发了两种培训策略,以基于基于BPC的ASR:多任务学习和深度特征培训策略来培训SE系统。 Timit和TMhint DataSet上的实验结果证实了上下文化学信息促进了SE系统,以实现比传统声学模型(AM)更好的结果。此外,与用单声道ASR培训的另一SE系统相比,基于BPC的ASR(提供上下文化学信息)可以在不同的信噪比(SNR)下更有效地改善SE性能。
translated by 谷歌翻译
个人叙述(PN) - 口语或书面 - 来自自己经验的事实,人,活动和思想的回忆。情感识别和情感分析任务通常在话语或文档级别定义。然而,在这项工作中,我们专注于情感载体(EC)定义为最佳解释叙述者的情绪状态(“父亲失去”,“让我选择”)。一旦提取,这种EC可以提供用户状态的更丰富表示以改善自然语言理解和对话建模。在以前的工作中,已经表明可以使用词法特征来识别EC。但是,口语叙述应该提供对背景的更丰​​富的描述和用户的情绪状态。在本文中,我们利用基于文字的声学和文本嵌入以及早期和晚期融合技术,用于检测口语叙述中的ECS。对于声学词级表示,我们使用在单独的语音情绪上进行剩余的剩余神经网络(Reset)并进行微调以检测EC。不同融合和系统组合策略的实验表明,晚期融合导致这项任务的重大改进。
translated by 谷歌翻译
Human speech can be characterized by different components, including semantic content, speaker identity and prosodic information. Significant progress has been made in disentangling representations for semantic content and speaker identity in Automatic Speech Recognition (ASR) and speaker verification tasks respectively. However, it is still an open challenging research question to extract prosodic information because of the intrinsic association of different attributes, such as timbre and rhythm, and because of the need for unsupervised training schemes to achieve robust large-scale and speaker-independent ASR. The aim of this paper is to address the disentanglement of emotional prosody from speech based on unsupervised reconstruction. Specifically, we identify, design, implement and integrate three crucial components in our proposed speech reconstruction model Prosody2Vec: (1) a unit encoder that transforms speech signals into discrete units for semantic content, (2) a pretrained speaker verification model to generate speaker identity embeddings, and (3) a trainable prosody encoder to learn prosody representations. We first pretrain the Prosody2Vec representations on unlabelled emotional speech corpora, then fine-tune the model on specific datasets to perform Speech Emotion Recognition (SER) and Emotional Voice Conversion (EVC) tasks. Both objective and subjective evaluations on the EVC task suggest that Prosody2Vec effectively captures general prosodic features that can be smoothly transferred to other emotional speech. In addition, our SER experiments on the IEMOCAP dataset reveal that the prosody features learned by Prosody2Vec are complementary and beneficial for the performance of widely used speech pretraining models and surpass the state-of-the-art methods when combining Prosody2Vec with HuBERT representations. Some audio samples can be found on our demo website.
translated by 谷歌翻译
Self-supervised speech models have grown fast during the past few years and have proven feasible for use in various downstream tasks. Some recent work has started to look at the characteristics of these models, yet many concerns have not been fully addressed. In this work, we conduct a study on emotional corpora to explore a popular self-supervised model -- wav2vec 2.0. Via a set of quantitative analysis, we mainly demonstrate that: 1) wav2vec 2.0 appears to discard paralinguistic information that is less useful for word recognition purposes; 2) for emotion recognition, representations from the middle layer alone perform as well as those derived from layer averaging, while the final layer results in the worst performance in some cases; 3) current self-supervised models may not be the optimal solution for downstream tasks that make use of non-lexical features. Our work provides novel findings that will aid future research in this area and theoretical basis for the use of existing models.
translated by 谷歌翻译
学习一种新语言涉及不断比较语音作品与环境的参考作品。在言语获取的早期,孩子们进行了发音调整以符合他们的看护人的言论。一种语言的成年学习者调整他们的演讲以匹配导师参考。本文提出了一种合成产生正确的发音反馈的方法。此外,我们的目标是在保持演讲者的原始声音的同时产生校正后的生产。该系统提示用户发音短语。记录语音,并用与不准确音素相关的样品用零掩盖。该波形是对语音生成器的输入,作为具有U-NET体系结构的深度学习介绍系统实现,并经过培训以输出重建的语音。该训练集由未损坏的适当语音示例组成,并且对发电机进行了训练以重建原始的适当语音。我们评估了系统的性能在音素替代英语以及发音障碍儿童的最小对单词方面的性能。结果表明,人类听众稍微偏爱我们产生的语音,而不是用不同的扬声器的生产来平滑地替换音素。
translated by 谷歌翻译
语音的视频录制包含相关的音频和视觉信息,为语音表示从扬声器的唇部运动和产生的声音提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HUBERT),是视听语音的自我监督的代表学习框架,这些屏幕屏蔽了多流视频输入并预测自动发现和迭代地精制多模式隐藏单元。 AV-HUBERT学习强大的视听语音表示,这些语音表示受益于唇读和自动语音识别。在最大的公众唇读基准LRS3(433小时)中,AV-Hubert达到32.5%WER,只有30个小时的标签数据,优于前一种最先进的方法(33.6%)培训,达到了一千次转录的视频数据(31k小时)。当使用来自LRS3的所有433小时的标记数据并结合自培训时,唇读WER进一步降低至26.9%。使用我们在相同的基准测试中使用您的视听表示,用于音频语音识别的相对效率为40%,而最先进的性能(1.3%Vs 2.3%)。我们的代码和模型可在https://github.com/facebookResearch/av_hubert获得
translated by 谷歌翻译