End-to-End automatic speech recognition (ASR) models aim to learn a generalised speech representation to perform recognition. In this domain there is little research to analyse internal representation dependencies and their relationship to modelling approaches. This paper investigates cross-domain language model dependencies within transformer architectures using SVCCA and uses these insights to exploit modelling approaches. It was found that specific neural representations within the transformer layers exhibit correlated behaviour which impacts recognition performance. Altogether, this work provides analysis of the modelling approaches affecting contextual dependencies and ASR performance, and can be used to create or adapt better performing End-to-End ASR models and also for downstream tasks.
translated by 谷歌翻译
最近,基于注意的编码器 - 解码器(AED)模型对多个任务的端到端自动语音识别(ASR)显示了高性能。在此类模型中解决了过度控制,本文介绍了轻松关注的概念,这是一种简单地逐渐注入对训练期间对编码器 - 解码器注意重量的统一分配,其易于用两行代码实现。我们调查轻松关注跨不同AED模型架构和两个突出的ASR任务,华尔街日志(WSJ)和LibRisPeech的影响。我们发现,在用外部语言模型解码时,随着宽松的注意力训练的变压器始终如一地始终如一地遵循标准基线模型。在WSJ中,我们为基于变压器的端到端语音识别设置了一个新的基准,以3.65%的单词错误率,最优于13.1%的相对状态,同时仅引入单个HyperParameter。
translated by 谷歌翻译
基于全注意力的变压器体系结构的强大建模能力通常会导致过度拟合,并且 - 对于自然语言处理任务,导致自动回归变压器解码器中隐式学习的内部语言模型,使外部语言模型的集成变得复杂。在本文中,我们探索了放松的注意力,对注意力的重量进行了简单易于实现的平滑平滑,从编码器。其次,我们表明它自然支持外部语言模型的整合,因为它通过放松解码器中的交叉注意来抑制隐式学习的内部语言模型。我们证明了在几项任务中放松注意力的好处,并与最近的基准方法相结合,并明显改善。具体而言,我们超过了最大的最大公共唇部阅读LRS3基准的26.90%单词错误率的先前最新性能,单词错误率为26.31%,并且我们达到了最佳表现的BLEU分数37.67在IWSLT14(de $ \ rightarrow $ en)的机器翻译任务没有外部语言模型,几乎没有其他模型参数。代码和模型将公开可用。
translated by 谷歌翻译
最近,自我监督的预先磨普已经实现了端到端(E2E)自动语音识别(ASR)的令人印象深刻的结果。然而,主要的序列到序列(S2S)E2E模型仍然很难充分利用自我监督的预训练方法,因为其解码器在声学表示上被调节,因此不能分开预先磨损。在本文中,我们提出了一种基于混合CTC /注意E2E模型的预磨削变压器(Preformer)S2S ASR架构,以充分利用预磨削的声学模型(AMS)和语言模型(LMS)。在我们的框架中,编码器初始化了Preprina(Wav2Vec2.0)。 Preformer在训练和推理期间利用CTC作为辅助任务。此外,我们设计了一个十字解码器(OCD),其放宽对声学表示的依赖性,以便可以用预净化的LM(DistilGPT2)初始化它。实验在Aishell-1语料库上进行,并在测试集上达到4.6±6 \%$ Character error rate(cer)。与我们的Vanilla混合CTC /注意力变压器基线相比,我们所提出的CTC /注意力的预浆料产生27亿美元的相对CER减少。据我们所知,这是第一个在S2S ASR系统中使用普里雷米和LM的第一项工作。
translated by 谷歌翻译
抖动和闪光测量已经显示出语音质量的载体和韵律信息,增强了扬声器识别,日记或自动语音识别(ASR)等任务的性能。然而,这种特征很少用于神经基ASR的背景下,其中频谱特征通常是普遍的。在这项工作中,我们研究了将语音质量和音高特征完全且分开地融合到基于变压器的ASR模型的效果,直觉是注意力机制可能会利用潜在的韵律特征。为此为此,我们提出了用于韵律和光谱特征的分离的卷积前端,表明该架构选择比将这种间距和语音质量特征的简单串联产生更好的结果,以及对MEL-谱图滤波器组。此外,我们找到了LibrisPeech基准测试的平均错误率高达5.6%。这种发现可以进一步研究韵律知识应用于增加基于变压器的ASR的鲁棒性的研究。
translated by 谷歌翻译
最近,卷积增强的变压器(构象异构体)在自动语音识别(ASR)中显示出令人鼓舞的结果,表现优于先前发表的最佳变压器传感器。在这项工作中,我们认为编码器和解码器中每个块的输出信息并不完全包容,换句话说,它们的输出信息可能是互补的。我们研究如何以参数效率的方式利用每个块的互补信息,并且可以预期这可能会导致更强的性能。因此,我们提出了刻板的变压器以进行语音识别,名为BlockFormer。我们已经实现了两个块集合方法:块输出的基本加权总和(基本WSBO),以及挤压和激气模块到块输出的加权总和(SE-WSBO)。实验已经证明,阻滞剂在Aishell-1上大大优于基于最新的构象模型,我们的模型在不使用语言模型的情况下达到了4.35 \%的CER,并且在4.10 \%上具有外部语言模型的4.10 \%测试集。
translated by 谷歌翻译
由长期记忆复发网络(LSTM-RNN)和变压器代表的最先进的神经网络语言模型(NNLMS)和变压器变得非常复杂。当获得有限的培训数据时,它们容易过度拟合和泛化。为此,本文提出了一个总体完整的贝叶斯学习框架,其中包含三种方法,以说明LSTM-RNN和Transformer LMS的潜在不确定性。分别使用贝叶斯,高斯过程和变异LSTM-RNN或变压器LMS对其模型参数,神经激活的选择和隐藏输出表示的不确定性。有效的推理方法被用来自动选择使用神经体系结构搜索的最佳网络内部组件作为贝叶斯学习。还使用了最少数量的蒙特卡洛参数样本。这些允许贝叶斯NNLM培训和评估中产生的计算成本最小化。实验是针对两项任务进行的:AMI符合转录和牛津-BBC唇读句子2(LRS2)使用最先进的LF-MMI培训的有效的TDNN系统重叠的语音识别,具有数据增强,扬声器的适应和多种音频,频道横梁成形以进行重叠的语音。基线LSTM-RNN和Transformer LMS具有估计的模型参数和辍学正则化的一致性改进,就困惑性和单词错误率(WER)获得了两项任务。特别是,在LRS2数据上,在基线LSTM-RNN和Transformer LMS中,在贝叶斯NNLMS及其各自的Baselines之间的模型组合后,在基线LSTM-RNN和Transferes LMS上分别获得了最高1.3%和1.2%的绝对降低(相对12.1%和11.3%)。 。
translated by 谷歌翻译
在端到端RNN-TransDucer(RNN-T)中使用外部语言模型(ELM)使用仅文本数据进行语音识别是具有挑战性的。最近,已经开发了一类方法,例如密度比(DR)和内部语言模型估计(ILME),表现优于经典的浅融合(SF)方法。这些方法背后的基本思想是,RNN-T后验应首先先于隐式学习的内部语言模型(ILM),以便整合ELM。尽管最近的研究表明RNN-T仅学习一些低阶语言模型信息,但DR方法使用具有完整背景的训练有素的神经语言模型,这可能不适合估计ILM并恶化整合性能。基于DR方法,我们通过用低阶弱语言模型代替估计来提出低阶密度比方法(LODR)。在英语librispeech&tedlium-2和中国wenetspeech和aishell-1数据集的内域和跨域情景上进行了广泛的经验实验。结果表明,在大多数测试中,LODR在所有任务中始终胜过所有任务,而通常接近ILME,并且比DR更好。
translated by 谷歌翻译
端到端(E2E)模型的仅文本适应仍然是自动语音识别(ASR)的具有挑战性的任务。基于语言模型(LM)基于融合的方法需要在推理过程中额外的外部LM,从而大大增加了计算成本。为了克服这一点,我们建议使用仅文本数据的E2E模型的内部LM适应(ILMA)。经过音频转录对训练,E2E模型隐含地学习了一个内部LM,该LM表征令牌序列概率,该序列概率在零零贡献后由E2E模型输出近似。在ILMA期间,我们对内部LM微调,即不包括编码器的E2E组件,以最大程度地减少跨熵损失。为了使ILMA有效,除了标准E2E损失外,必须使用内部LM损失来训练E2E模型。此外,我们建议通过最大程度地减少适应性和非适应性内部LMS的输出分布之间的kullback-leibler差异来使ILMA正规化。当我们仅更新关节网络的最后一个线性层时,ILMA是最有效的。 ILMA可以在不增加运行时计算成本的情况下对E2E模型进行快速的文本适应。 ILMA通过经过30k训练的变压器传感器模型进行了实验,可从非适应性基线实现高达34.9%的相对单词错误率。
translated by 谷歌翻译
Recently Transformer and Convolution neural network (CNN) based models have shown promising results in Automatic Speech Recognition (ASR), outperforming Recurrent neural networks (RNNs). Transformer models are good at capturing content-based global interactions, while CNNs exploit local features effectively. In this work, we achieve the best of both worlds by studying how to combine convolution neural networks and transformers to model both local and global dependencies of an audio sequence in a parameter-efficient way. To this regard, we propose the convolution-augmented transformer for speech recognition, named Conformer. Conformer significantly outperforms the previous Transformer and CNN based models achieving state-of-the-art accuracies. On the widely used LibriSpeech benchmark, our model achieves WER of 2.1%/4.3% without using a language model and 1.9%/3.9% with an external language model on test/testother. We also observe competitive performance of 2.7%/6.3% with a small model of only 10M parameters.
translated by 谷歌翻译
语言模型(LMS)显着提高端到端模型(E2E)模型在训练过程中很少见的单词的识别准确性,当时在浅融合或重新恢复设置中。在这项工作中,我们介绍了LMS在判别培训框架中学习混合自动回旋传感器(HAT)模型的研究,以减轻有关使用LMS的训练与推理差距。对于浅融合设置,我们在假设生成和损失计算过程中都使用LMS,而LM感知的MWER训练模型可实现10 \%的相对改进,比用标准MWER在语音搜索测试集中培训的模型相对改进,其中包含稀有单词。对于重新设置,我们学会了一个小型神经模块,以数据依赖性方式产生串联的融合权重。该模型与常规MWER训练的模型相同,但无需清除融合重量。
translated by 谷歌翻译
State-of-the-art speaker verification frameworks have typically focused on speech enhancement techniques with increasingly deeper (more layers) and wider (number of channels) models to improve their verification performance. Instead, this paper proposes an approach to increase the model resolution capability using attention-based dynamic kernels in a convolutional neural network to adapt the model parameters to be feature-conditioned. The attention weights on the kernels are further distilled by channel attention and multi-layer feature aggregation to learn global features from speech. This approach provides an efficient solution to improving representation capacity with lower data resources. This is due to the self-adaptation to inputs of the structures of the model parameters. The proposed dynamic convolutional model achieved 1.62\% EER and 0.18 miniDCF on the VoxCeleb1 test set and has a 17\% relative improvement compared to the ECAPA-TDNN.
translated by 谷歌翻译
事实证明,构象异构体在许多语音处理任务中都是有效的。它结合了使用卷积和使用自我注意的全球依赖性提取本地依赖的好处。受此启发,我们提出了一个更灵活,可解释和可自定义的编码器替代方案,分支机构,并在端到端语音处理中对各种远程依赖关系进行建模。在每个编码器层中,一个分支都采用自我注意事项或其变体来捕获远程依赖性,而另一个分支则利用带有卷积门控(CGMLP)的MLP模块来提取局部关系。我们对几种语音识别和口语理解基准进行实验。结果表明,我们的模型优于变压器和CGMLP。它还与构象异构体获得的最先进结果相匹配。此外,由于两分支结构,我们展示了减少计算的各种策略,包括在单个训练有素的模型中具有可变的推理复杂性的能力。合并分支的权重表明如何在不同层中使用本地和全球依赖性,从而使模型设计受益。
translated by 谷歌翻译
端到端(E2E)模型通常通过浅融合伴随语言模型(LMS),以提高其整体质量以及对稀有单词的认可。同时,几项先前的作品表明,LMS容易在训练数据中无意中记住稀有或独特的序列。在这项工作中,我们设计了一个框架,用于检测LM培训数据中随机文本序列的记忆(我们称为Canaries),当一个人只有Black-Box(Query)访问LM融合语音识别器,而不是直接访问到达LM融合语音识别器LM。在与变压器LM融合的生产级构象体RNN-T E2E模型中,我们表明可以从300m示例的LM训练数据中检测到单一疾病的金丝雀的记忆。我们还激发了保护隐私的动机,我们还表明,通过示例梯度倾斜的LM培训而没有损害整体质量,这种记忆会大大减少。
translated by 谷歌翻译
最先进的编码器模型(例如,用于机器翻译(MT)或语音识别(ASR))作为原子单元构造并端到端训练。没有其他模型的任何组件都无法(重新)使用。我们描述了Legonn,这是一种使用解码器模块构建编码器架构的过程,可以在各种MT和ASR任务中重复使用,而无需进行任何微调。为了实现可重复性,每个编码器和解码器模块之间的界面都基于模型设计器预先定义的离散词汇,将其接地到边缘分布序列。我们提出了两种摄入这些边缘的方法。一个是可区分的,可以使整个网络的梯度流动,另一个是梯度分离的。为了使MT任务之间的解码器模块的可移植性用于不同的源语言和其他任务(例如ASR),我们引入了一种模态不可思议的编码器,该模态编码器由长度控制机制组成,以动态调整编码器的输出长度,以匹配预期的输入长度范围的范围预训练的解码器。我们提出了几项实验来证明Legonn模型的有效性:可以重复使用德国英语(DE-EN)MT任务的训练有素的语言解码器模块,而没有对Europarl English ASR和ROMANIAN-ENGLISH进行微调(RO)(RO)(RO)(RO) -en)MT任务以匹配或击败相应的基线模型。当针对数千个更新的目标任务进行微调时,我们的Legonn模型将RO-EN MT任务提高了1.5个BLEU点,并为Europarl ASR任务降低了12.5%的相对减少。此外,为了显示其可扩展性,我们从三个模块中构成了一个legonn ASR模型 - 每个模块都在三个不同数据集的不同端到端训练的模型中学习 - 将降低的减少降低到19.5%。
translated by 谷歌翻译
注意层是现代端到端自动语音识别系统不可或缺的一部分,例如作为变压器或构象体体系结构的一部分。注意通常是多头的,每个头部都有一组独立的学习参数,并在相同的输入特征序列上运行。多头注意的输出是单个头部输出的融合。我们经验分析了不同注意力头部产生的表示之间的多样性,并证明在训练过程中头部高度相关。我们研究了一些增加注意力头多样性的方法,包括为每个头部使用不同的注意力机制和辅助训练损失功能来促进头部多样性。我们表明,在训练过程中引入多样性辅助损失功能是一种更有效的方法,并且在Librispeech语料库上获得了多达6%的相对相对的改善。最后,我们在注意力头的多样性与头部参数梯度的相似性之间建立了联系。
translated by 谷歌翻译
Collecting sufficient labeled data for spoken language understanding (SLU) is expensive and time-consuming. Recent studies achieved promising results by using pre-trained models in low-resource scenarios. Inspired by this, we aim to ask: which (if any) pre-training strategies can improve performance across SLU benchmarks? To answer this question, we employ four types of pre-trained models and their combinations for SLU. We leverage self-supervised speech and language models (LM) pre-trained on large quantities of unpaired data to extract strong speech and text representations. We also explore using supervised models pre-trained on larger external automatic speech recognition (ASR) or SLU corpora. We conduct extensive experiments on the SLU Evaluation (SLUE) benchmark and observe self-supervised pre-trained models to be more powerful, with pre-trained LM and speech models being most beneficial for the Sentiment Analysis and Named Entity Recognition task, respectively.
translated by 谷歌翻译
对于普通话端到端(E2E)自动语音识别(ASR)任务,与基于角色的建模单元相比,基于发音的建模单元可以改善模型培训中的建模单元的共享,但遇到了同音词。在这项研究中,我们建议使用一种新颖的发音意识到的独特字符编码来构建基于E2E RNN-T的普通话ASR系统。所提出的编码是发音基本音节和字符索引(CI)的组合。通过引入CI,RNN-T模型可以在利用发音信息来提取建模单元的同时克服同音问题。通过提出的编码,可以通过一对一的映射将模型输出转换为最终识别结果。我们在Aishell和MagicData数据集上进行了实验,实验结果表明了该方法的有效性。
translated by 谷歌翻译
最近的言语和语言技术的方法预先rain非常大型模型,用于特定任务。然而,这种大型模型的好处通常仅限于世界上少数资源丰富的语言。在这项工作中,我们对来自印度次大陆的低资源语言构建ASR系统进行多种贡献。首先,我们从各种领域策划40个印度语言的17,000小时的原始语音数据,包括教育,新闻,技术和金融。其次,使用这种原始语音数据,我们预先存在于40个印度语言的Wav2Vec样式模型的多个变体。第三,我们分析佩带的模型以查找关键特点:码本矢量的类似探测音素在语言中共享,跨层的表示是语言系列的判别,并且注意力头通常会在小型本地窗口中注意。第四,我们微调了9种语言的下游ASR模型,并在3个公共数据集上获得最先进的结果,包括非常低的资源语言,如Sinhala和Nepali。我们的工作建立了多语言预介质是建立ASR系统的有效策略,为印度次大陆的语言上不同的扬声器建立ASR系统。
translated by 谷歌翻译
基于内部语言模型估计(ILME)语言模型(LM)融合已显示出明显改善的识别结果,而识别域内和跨域语音识别任务的常规浅融合。在本文中,我们试图将ILME方法应用于跨域代码转换语音识别(CSSR)工作。具体而言,我们的好奇心来自几个方面。首先,我们很好奇基于ILME的LM融合对内域和跨域CSSR任务的有效性。我们在不合并两个代码转换域的情况下对此进行验证。更重要的是,我们通过合并两个单语言数据集训练端到端(E2E)语音识别模型,并观察到拟议的基于ILME的LM Fusion对CSSR的功效。来自东南亚和另一个中国大陆CS数据集的SEAME的实验结果证明了拟议的基于ILME的LM融合方法的有效性。
translated by 谷歌翻译