Recently, RNN-Transducers have achieved remarkable results on various automatic speech recognition tasks. However, lattice-free sequence discriminative training methods, which obtain superior performance in hybrid modes, are rarely investigated in RNN-Transducers. In this work, we propose three lattice-free training objectives, namely lattice-free maximum mutual information, lattice-free segment-level minimum Bayes risk, and lattice-free minimum Bayes risk, which are used for the final posterior output of the phoneme-based neural transducer with a limited context dependency. Compared to criteria using N-best lists, lattice-free methods eliminate the decoding step for hypotheses generation during training, which leads to more efficient training. Experimental results show that lattice-free methods gain up to 6.5% relative improvement in word error rate compared to a sequence-level cross-entropy trained model. Compared to the N-best-list based minimum Bayes risk objectives, lattice-free methods gain 40% - 70% relative training time speedup with a small degradation in performance.
translated by 谷歌翻译
作为语音识别的最流行的序列建模方法之一,RNN-Transducer通过越来越复杂的神经网络模型,以增长的规模和增加训练时代的增长,实现了不断发展的性能。尽管强大的计算资源似乎是培训卓越模型的先决条件,但我们试图通过仔细设计更有效的培训管道来克服它。在这项工作中,我们提出了一条高效的三阶段渐进式训练管道,以在合理的短时间内从头开始建立具有非常有限的计算资源的高效神经传感器模型。每个阶段的有效性在LibrisPeech和Convebobly Corpora上都经过实验验证。拟议的管道能够在短短2-3周内以单个GPU接近最先进的性能来训练换能器模型。我们最好的构型传感器在Librispeech测试中获得4.1%的速度,仅使用35个训练时代。
translated by 谷歌翻译
在端到端RNN-TransDucer(RNN-T)中使用外部语言模型(ELM)使用仅文本数据进行语音识别是具有挑战性的。最近,已经开发了一类方法,例如密度比(DR)和内部语言模型估计(ILME),表现优于经典的浅融合(SF)方法。这些方法背后的基本思想是,RNN-T后验应首先先于隐式学习的内部语言模型(ILM),以便整合ELM。尽管最近的研究表明RNN-T仅学习一些低阶语言模型信息,但DR方法使用具有完整背景的训练有素的神经语言模型,这可能不适合估计ILM并恶化整合性能。基于DR方法,我们通过用低阶弱语言模型代替估计来提出低阶密度比方法(LODR)。在英语librispeech&tedlium-2和中国wenetspeech和aishell-1数据集的内域和跨域情景上进行了广泛的经验实验。结果表明,在大多数测试中,LODR在所有任务中始终胜过所有任务,而通常接近ILME,并且比DR更好。
translated by 谷歌翻译
在自动语音识别(ASR)研究中,歧视性标准在DNN-HMM系统中取得了出色的性能。鉴于这一成功,采用判别标准是有望提高端到端(E2E)ASR系统的性能。有了这一动机,以前的作品将最小贝叶斯风险(MBR,歧视性标准之一)引入了E2E ASR系统中。但是,基于MBR的方法的有效性和效率受到损害:MBR标准仅用于系统培训,这在训练和解码之间造成了不匹配;基于MBR的方法中的直接解码过程导致需要预先训练的模型和缓慢的训练速度。为此,在这项工作中提出了新的算法,以整合另一种广泛使用的判别标准,无晶格的最大互信息(LF-MMI),不仅在训练阶段,而且在解码过程中。提出的LF-MI训练和解码方法显示了它们对两个广泛使用的E2E框架的有效性:基于注意力的编码器解码器(AEDS)和神经传感器(NTS)。与基于MBR的方法相比,提出的LF-MMI方法:保持训练和解码之间的一致性;避开直立的解码过程;来自具有卓越训练效率的随机初始化模型的火车。实验表明,LF-MI方法的表现优于其MBR对应物,并始终导致各种框架和数据集从30小时到14.3k小时上的统计学意义改进。所提出的方法在Aishell-1(CER 4.10%)和Aishell-2(CER 5.02%)数据集上实现了最先进的结果(SOTA)。代码已发布。
translated by 谷歌翻译
经常性的神经网络传感器(RNN-T)目标在建立当今最好的自动语音识别(ASR)系统中发挥着重要作用。与连接员时间分类(CTC)目标类似,RNN-T损失使用特定规则来定义生成一组对准以形成用于全汇训练的格子。但是,如果这些规则是最佳的,则在很大程度上未知,并且会导致最佳ASR结果。在这项工作中,我们介绍了一种新的传感器目标函数,它概括了RNN-T丢失来接受标签的图形表示,从而提供灵活和有效的框架来操纵训练格子,例如用于限制对齐或研究不同的转换规则。我们证明,与标准RNN-T相比,具有CTC样格子的基于传感器的ASR实现了更好的结果,同时确保了严格的单调对齐,这将允许更好地优化解码过程。例如,所提出的CTC样换能器系统对于测试 - LibrisPeech的其他条件,实现了5.9%的字误差率,相对于基于等效的RNN-T系统的提高,对应于4.8%。
translated by 谷歌翻译
Neural transducer is now the most popular end-to-end model for speech recognition, due to its naturally streaming ability. However, it is challenging to adapt it with text-only data. Factorized neural transducer (FNT) model was proposed to mitigate this problem. The improved adaptation ability of FNT on text-only adaptation data came at the cost of lowered accuracy compared to the standard neural transducer model. We propose several methods to improve the performance of the FNT model. They are: adding CTC criterion during training, adding KL divergence loss during adaptation, using a pre-trained language model to seed the vocabulary predictor, and an efficient adaptation approach by interpolating the vocabulary predictor with the n-gram language model. A combination of these approaches results in a relative word-error-rate reduction of 9.48\% from the standard FNT model. Furthermore, n-gram interpolation with the vocabulary predictor improves the adaptation speed hugely with satisfactory adaptation performance.
translated by 谷歌翻译
This paper proposes a modification to RNN-Transducer (RNN-T) models for automatic speech recognition (ASR). In standard RNN-T, the emission of a blank symbol consumes exactly one input frame; in our proposed method, we introduce additional blank symbols, which consume two or more input frames when emitted. We refer to the added symbols as big blanks, and the method multi-blank RNN-T. For training multi-blank RNN-Ts, we propose a novel logit under-normalization method in order to prioritize emissions of big blanks. With experiments on multiple languages and datasets, we show that multi-blank RNN-T methods could bring relative speedups of over +90%/+139% to model inference for English Librispeech and German Multilingual Librispeech datasets, respectively. The multi-blank RNN-T method also improves ASR accuracy consistently. We will release our implementation of the method in the NeMo (\url{https://github.com/NVIDIA/NeMo}) toolkit.
translated by 谷歌翻译
梁搜索是端到端模型的主要ASR解码算法,生成树结构化假设。但是,最近的研究表明,通过假设合并进行解码可以通过可比或更好的性能实现更有效的搜索。但是,复发网络中的完整上下文与假设合并不兼容。我们建议在RNN传感器的预测网络中使用矢量定量的长期记忆单元(VQ-LSTM)。通过与ASR网络共同培训离散表示形式,可以积极合并假设以生成晶格。我们在总机语料库上进行的实验表明,提出的VQ RNN传感器改善了具有常规预测网络的换能器的ASR性能,同时还产生了具有相同光束尺寸的Oracle Word错误率(WER)的密集晶格。其他语言模型撤退实验还证明了拟议的晶格生成方案的有效性。
translated by 谷歌翻译
最近,端到端(E2E)框架在各种自动语音识别(ASR)任务上取得了显着的结果。但是,无格的最大互信息(LF-MMI),作为在混合ASR系统中显示出卓越性能的鉴别性培训标准之一,很少在E2E ASR框架中采用。在这项工作中,我们提出了一种新的方法,将LF-MMI标准集成到培训和解码阶段的E2E ASR框架中。该方法显示了其在两个最广泛使用的E2E框架上的有效性,包括基于注意的编码器解码器(AED)和神经传感器(NTS)。实验表明,LF-MMI标准的引入始终如一地导致各种数据集和不同E2E ASR框架的显着性能改进。我们最好的模型在Aishell-1开发/测试集上实现了4.1 \%/ 4.4 \%的竞争力;我们还在强大的基线上实现了对Aishell-2和Librispeech数据集的显着误差。
translated by 谷歌翻译
最近,基于注意的编码器 - 解码器(AED)模型对多个任务的端到端自动语音识别(ASR)显示了高性能。在此类模型中解决了过度控制,本文介绍了轻松关注的概念,这是一种简单地逐渐注入对训练期间对编码器 - 解码器注意重量的统一分配,其易于用两行代码实现。我们调查轻松关注跨不同AED模型架构和两个突出的ASR任务,华尔街日志(WSJ)和LibRisPeech的影响。我们发现,在用外部语言模型解码时,随着宽松的注意力训练的变压器始终如一地始终如一地遵循标准基线模型。在WSJ中,我们为基于变压器的端到端语音识别设置了一个新的基准,以3.65%的单词错误率,最优于13.1%的相对状态,同时仅引入单个HyperParameter。
translated by 谷歌翻译
最近提出的符合者架构已成功用于实现在不同数据集上实现最先进性能的端到端自动语音识别(ASR)架构。为了我们的最佳知识,没有研究使用适用物声学模型对混合ASR的影响。在本文中,我们展示并评估了竞争的基于统一体的混合模型训练配方。我们研究了不同的培训方面和方法,以提高字差率以及提高训练速度。我们应用时间下采样方法以实现有效的培训,并使用转换卷积再次上置输出序列。我们在交换机300H数据集中进行实验,与其他架构相比,我们的符合子的混合模型实现了竞争力。它在Hub5'01测试集上概括并显着优于BLSTM的混合模型。
translated by 谷歌翻译
本文介绍了新颖的加权有限态传感器(WFST)拓扑,以实现连接的时间分类(CTC)类似于自动语音识别的算法。提出了三个新的CTC变体:(1)“紧凑型CTC”,其中单位之间的直接过渡被<epsilon>退回过渡代替;(2)“最小ctc”,仅在wfst composition中使用时才添加<blank>自我;(3)“无私的CTC”变体,它不允许自动浮动对非空时单位。Compact-CTC允许较小的WFST解码图较小的1.5倍,并在使用LF-MMI目标训练CTC模型的情况下将内存消耗减少两次,而不会损害识别精度。最小CTC可将图形的大小和记忆消耗降低两次和四次,以使精度下降的成本下降。使用无私CTC可以提高宽上下文窗口模型的准确性。
translated by 谷歌翻译
Existing training criteria in automatic speech recognition(ASR) permit the model to freely explore more than one time alignments between the feature and label sequences. In this paper, we use entropy to measure a model's uncertainty, i.e. how it chooses to distribute the probability mass over the set of allowed alignments. Furthermore, we evaluate the effect of entropy regularization in encouraging the model to distribute the probability mass only on a smaller subset of allowed alignments. Experiments show that entropy regularization enables a much simpler decoding method without sacrificing word error rate, and provides better time alignment quality.
translated by 谷歌翻译
最近,语音界正在看到从基于深神经网络的混合模型移动到自动语音识别(ASR)的端到端(E2E)建模的显着趋势。虽然E2E模型在大多数基准测试中实现最先进的,但在ASR精度方面,混合模型仍然在当前的大部分商业ASR系统中使用。有很多实际的因素会影响生产模型部署决定。传统的混合模型,用于数十年的生产优化,通常擅长这些因素。在不为所有这些因素提供优异的解决方案,E2E模型很难被广泛商业化。在本文中,我们将概述最近的E2E模型的进步,专注于解决行业视角的挑战技术。
translated by 谷歌翻译
尽管端到端(E2E)自动语音识别(ASR)的快速进展,但已经证明将外部语言模型(LMS)结合到解码中可以进一步提高E2E ASR系统的识别性能。为了与E2E ASR系统中采用的建模单元对准,通常使用子字级(例如,字符,BPE)LMS与当前的E2E ASR系统配合。但是,使用子字级LMS将忽略单词级信息,这可能会限制E2E ASR中的外部LMS的强度。虽然已经提出了几种方法在E2E ASR中包含了单词级外部LMS,但这些方法主要针对具有清晰字界的语言,例如英语,并且不能直接应用于普通话等语言,其中每个字符序列可以具有多个对应的语言字序列。为此,我们提出了一种新颖的解码算法,其中在飞行中构造了单词级格子,以考虑每个部分假设的所有可能的字序列。然后,通过将产生的格子与外部单词N-GRAM LM交叉来获得假设的LM得分。在关注的基于编码器 - 解码器(AED)和神经换能器(NT)框架上检查所述方法。实验表明,我们的方法始终如一地优于次字级LMS,包括N-GRAM LM和神经网络LM。我们在Aishell-1(Cer 4.18%)和Aishell-2(Cer 5.06%)数据集上实现最先进的结果,并在21k小时的普通话数据集中减少14.8%。
translated by 谷歌翻译
The network architecture of end-to-end (E2E) automatic speech recognition (ASR) can be classified into several models, including connectionist temporal classification (CTC), recurrent neural network transducer (RNN-T), attention mechanism, and non-autoregressive mask-predict models. Since each of these network architectures has pros and cons, a typical use case is to switch these separate models depending on the application requirement, resulting in the increased overhead of maintaining all models. Several methods for integrating two of these complementary models to mitigate the overhead issue have been proposed; however, if we integrate more models, we will further benefit from these complementary models and realize broader applications with a single system. This paper proposes four-decoder joint modeling (4D) of CTC, attention, RNN-T, and mask-predict, which has the following three advantages: 1) The four decoders are jointly trained so that they can be easily switched depending on the application scenarios. 2) Joint training may bring model regularization and improve the model robustness thanks to their complementary properties. 3) Novel one-pass joint decoding methods using CTC, attention, and RNN-T further improves the performance. The experimental results showed that the proposed model consistently reduced the WER.
translated by 谷歌翻译
语言模型(LMS)显着提高端到端模型(E2E)模型在训练过程中很少见的单词的识别准确性,当时在浅融合或重新恢复设置中。在这项工作中,我们介绍了LMS在判别培训框架中学习混合自动回旋传感器(HAT)模型的研究,以减轻有关使用LMS的训练与推理差距。对于浅融合设置,我们在假设生成和损失计算过程中都使用LMS,而LM感知的MWER训练模型可实现10 \%的相对改进,比用标准MWER在语音搜索测试集中培训的模型相对改进,其中包含稀有单词。对于重新设置,我们学会了一个小型神经模块,以数据依赖性方式产生串联的融合权重。该模型与常规MWER训练的模型相同,但无需清除融合重量。
translated by 谷歌翻译
End-to-end speech recognition models trained using joint Connectionist Temporal Classification (CTC)-Attention loss have gained popularity recently. In these models, a non-autoregressive CTC decoder is often used at inference time due to its speed and simplicity. However, such models are hard to personalize because of their conditional independence assumption that prevents output tokens from previous time steps to influence future predictions. To tackle this, we propose a novel two-way approach that first biases the encoder with attention over a predefined list of rare long-tail and out-of-vocabulary (OOV) words and then uses dynamic boosting and phone alignment network during decoding to further bias the subword predictions. We evaluate our approach on open-source VoxPopuli and in-house medical datasets to showcase a 60% improvement in F1 score on domain-specific rare words over a strong CTC baseline.
translated by 谷歌翻译
知识蒸馏(KD),最称为模型压缩的有效方法,旨在将更大的网络(教师)的知识转移到更小的网络(学生)。传统的KD方法通常采用以监督方式培训的教师模型,其中输出标签仅作为目标处理。我们进一步扩展了这一受监督方案,我们为KD,即Oracle老师推出了一种新型的教师模型,它利用源输入和输出标签的嵌入来提取更准确的知识来转移到学生。所提出的模型遵循变压器网络的编码器解码器注意结构,这允许模型从输出标签上参加相关信息。在三种不同的序列学习任务中进行了广泛的实验:语音识别,场景文本识别和机器翻译。从实验结果来看,我们经验证明,拟议的模型在这些任务中改善了学生,同时在教师模型的培训时间内实现了相当大的速度。
translated by 谷歌翻译
语音识别的RNN-TransDucer(RNN-T)框架一直在越来越受欢迎,尤其是用于实时部署的ASR系统,因为它将高精度与自然流识别结合在一起。RNN-T的缺点之一是其损耗函数相对较慢,并且可以使用大量内存。在词汇大小较大的情况下,使用RNN-T损失的过多GPU记忆使用可能会使使用RNN-T损失是不切实际的:例如,对于基于中文的ASR而言。我们介绍了一种方法,用于更快,更快的记忆效率RNN-T损失计算。我们首先使用在编码器和解码器嵌入式中线性的简单木器网络获得RNN-T递归的修剪边界;我们可以在不使用很多内存的情况下对此进行评估。然后,我们使用那些修剪界限来评估完整的非线性木匠网络。
translated by 谷歌翻译