This paper proposes a new regularization algorithm referred to as macro-block dropout. The overfitting issue has been a difficult problem in training large neural network models. The dropout technique has proven to be simple yet very effective for regularization by preventing complex co-adaptations during training. In our work, we define a macro-block that contains a large number of units from the input to a Recurrent Neural Network (RNN). Rather than applying dropout to each unit, we apply random dropout to each macro-block. This algorithm has the effect of applying different drop out rates for each layer even if we keep a constant average dropout rate, which has better regularization effects. In our experiments using Recurrent Neural Network-Transducer (RNN-T), this algorithm shows relatively 4.30 % and 6.13 % Word Error Rates (WERs) improvement over the conventional dropout on LibriSpeech test-clean and test-other. With an Attention-based Encoder-Decoder (AED) model, this algorithm shows relatively 4.36 % and 5.85 % WERs improvement over the conventional dropout on the same test sets.
translated by 谷歌翻译
最近,基于注意的编码器 - 解码器(AED)模型对多个任务的端到端自动语音识别(ASR)显示了高性能。在此类模型中解决了过度控制,本文介绍了轻松关注的概念,这是一种简单地逐渐注入对训练期间对编码器 - 解码器注意重量的统一分配,其易于用两行代码实现。我们调查轻松关注跨不同AED模型架构和两个突出的ASR任务,华尔街日志(WSJ)和LibRisPeech的影响。我们发现,在用外部语言模型解码时,随着宽松的注意力训练的变压器始终如一地始终如一地遵循标准基线模型。在WSJ中,我们为基于变压器的端到端语音识别设置了一个新的基准,以3.65%的单词错误率,最优于13.1%的相对状态,同时仅引入单个HyperParameter。
translated by 谷歌翻译
基于全注意力的变压器体系结构的强大建模能力通常会导致过度拟合,并且 - 对于自然语言处理任务,导致自动回归变压器解码器中隐式学习的内部语言模型,使外部语言模型的集成变得复杂。在本文中,我们探索了放松的注意力,对注意力的重量进行了简单易于实现的平滑平滑,从编码器。其次,我们表明它自然支持外部语言模型的整合,因为它通过放松解码器中的交叉注意来抑制隐式学习的内部语言模型。我们证明了在几项任务中放松注意力的好处,并与最近的基准方法相结合,并明显改善。具体而言,我们超过了最大的最大公共唇部阅读LRS3基准的26.90%单词错误率的先前最新性能,单词错误率为26.31%,并且我们达到了最佳表现的BLEU分数37.67在IWSLT14(de $ \ rightarrow $ en)的机器翻译任务没有外部语言模型,几乎没有其他模型参数。代码和模型将公开可用。
translated by 谷歌翻译
在本文中,我们提出了一种方法来定量分析不同训练标签误差对基于RNN-T的影响。结果显示删除误差比RNN-T训练数据中的替换和插入标签误差更有害。我们还在RNN-T上检查了标签错误影响方法,并发现所有方法在某种程度上减轻了标签错误导致的劣化,但它们无法消除在没有标签的情况下培训的模型之间的性能差距错误。基于分析结果,我们建议设计用于RNN-T的数据管道,优先减少删除标签误差。我们还发现,尽管存在标签错误缓解方法,但确保了高质量的培训标签仍然很重要。
translated by 谷歌翻译
由长期记忆复发网络(LSTM-RNN)和变压器代表的最先进的神经网络语言模型(NNLMS)和变压器变得非常复杂。当获得有限的培训数据时,它们容易过度拟合和泛化。为此,本文提出了一个总体完整的贝叶斯学习框架,其中包含三种方法,以说明LSTM-RNN和Transformer LMS的潜在不确定性。分别使用贝叶斯,高斯过程和变异LSTM-RNN或变压器LMS对其模型参数,神经激活的选择和隐藏输出表示的不确定性。有效的推理方法被用来自动选择使用神经体系结构搜索的最佳网络内部组件作为贝叶斯学习。还使用了最少数量的蒙特卡洛参数样本。这些允许贝叶斯NNLM培训和评估中产生的计算成本最小化。实验是针对两项任务进行的:AMI符合转录和牛津-BBC唇读句子2(LRS2)使用最先进的LF-MMI培训的有效的TDNN系统重叠的语音识别,具有数据增强,扬声器的适应和多种音频,频道横梁成形以进行重叠的语音。基线LSTM-RNN和Transformer LMS具有估计的模型参数和辍学正则化的一致性改进,就困惑性和单词错误率(WER)获得了两项任务。特别是,在LRS2数据上,在基线LSTM-RNN和Transformer LMS中,在贝叶斯NNLMS及其各自的Baselines之间的模型组合后,在基线LSTM-RNN和Transferes LMS上分别获得了最高1.3%和1.2%的绝对降低(相对12.1%和11.3%)。 。
translated by 谷歌翻译
作为语音识别的最流行的序列建模方法之一,RNN-Transducer通过越来越复杂的神经网络模型,以增长的规模和增加训练时代的增长,实现了不断发展的性能。尽管强大的计算资源似乎是培训卓越模型的先决条件,但我们试图通过仔细设计更有效的培训管道来克服它。在这项工作中,我们提出了一条高效的三阶段渐进式训练管道,以在合理的短时间内从头开始建立具有非常有限的计算资源的高效神经传感器模型。每个阶段的有效性在LibrisPeech和Convebobly Corpora上都经过实验验证。拟议的管道能够在短短2-3周内以单个GPU接近最先进的性能来训练换能器模型。我们最好的构型传感器在Librispeech测试中获得4.1%的速度,仅使用35个训练时代。
translated by 谷歌翻译
We present SpecAugment, a simple data augmentation method for speech recognition. SpecAugment is applied directly to the feature inputs of a neural network (i.e., filter bank coefficients). The augmentation policy consists of warping the features, masking blocks of frequency channels, and masking blocks of time steps. We apply SpecAugment on Listen, Attend and Spell networks for end-to-end speech recognition tasks. We achieve state-of-the-art performance on the LibriSpeech 960h and Swichboard 300h tasks, outperforming all prior work. On LibriSpeech, we achieve 6.8% WER on test-other without the use of a language model, and 5.8% WER with shallow fusion with a language model. This compares to the previous stateof-the-art hybrid system of 7.5% WER. For Switchboard, we achieve 7.2%/14.6% on the Switchboard/CallHome portion of the Hub5'00 test set without the use of a language model, and 6.8%/14.1% with shallow fusion, which compares to the previous state-of-the-art hybrid system at 8.3%/17.3% WER.
translated by 谷歌翻译
将作为上下文知识获得的偏见单词合并对于许多自动语音识别(ASR)应用至关重要。本文建议将图形神经网络(GNN)编码用于端到端上下文ASR中的树受限指针生成器(TCPGEN)组件。通过用基于树的GNN编码前缀树中的有偏见的单词,可以在每个树节点上通过合并有关其扎根的树枝上的所有文字的信息来实现端到端ASR解码中未来文字的lookahead,从而实现。允许更准确地预测偏见单词的生成概率。使用模拟的偏置任务在Librispeech语料库上评估系统,并通过提出一种新颖的视觉接地上下文ASR管道,在AMI语料库上评估了系统,该管道从每次会议旁边的幻灯片中提取有偏见的单词。结果表明,与原始TCPGEN相比,具有GNN编码的TCPGEN对偏置单词的相对减少了约15%,而解码的计算成本的增加可忽略不计。
translated by 谷歌翻译
最近,我们提供了Wenet,这是一种面向生产的端到端语音识别工具包,它引入了统一的两通道(U2)框架和内置运行时,以解决单个中的流和非流传输模式。模型。为了进一步提高ASR性能并促进各种生产要求,在本文中,我们提出了Wenet 2.0,并提供四个重要的更新。 (1)我们提出了U2 ++,这是一个带有双向注意解码器的统一的两次通行框架,其中包括通过左右注意力解码器的未来上下文信息,以提高共享编码器的代表性和在夺回阶段的表现。 (2)我们将基于N-Gram的语言模型和基于WFST的解码器引入WENET 2.0,从而促进了在生产方案中使用丰富的文本数据。 (3)我们设计了一个统一的上下文偏见框架,该框架利用特定于用户的上下文(例如联系人列表)为生产提供快速适应能力,并提高了使用LM和没有LM场景的ASR准确性。 (4)我们设计了一个统一的IO,以支持大规模数据进行有效的模型培训。总而言之,全新的WENET 2.0可在各种Corpora上的原始WENET上取得高达10 \%的相对识别性能提高,并提供了一些重要的以生产为导向的功能。
translated by 谷歌翻译
在本文中,为波斯语音识别提出了用于信息定位的基于CNN的结构。研究表明,在哺乳动物的原发性听觉皮层和中脑中某些神经元的接收场的光谱量矩形可塑性使本地化设施改善了识别性能。在过去的几年中,使用HMMS,TDNNS,CNNS和LSTM-RNNS的方法的空间或时间不可超数属性,已经完成了许多工作来在ASR系统中定位时间频率信息。但是,这些模型中的大多数具有较大的参数量,并且训练具有挑战性。为此,我们提出了一种称为时频卷积的麦克斯神经网络(TFCMNN)的结构,其中并行时间域和频域1D-CMNN同时且独立地应用于频谱图,然后将其输出置于串联并置于串联并施加了串联并应用于频谱图。共同连接到完全连接的Maxout网络进行分类。为了提高这种结构的性能,我们使用了新开发的方法和模型,例如辍学,麦克斯特和体重归一化。在FARSDAT数据集上设计和实现了两组实验,以评估与常规1D-CMNN模型相比,该模型的性能。根据实验结果,TFCMNN模型的平均识别得分比常规1D-CMNN模型的平均值高约1.6%。此外,TFCMNN模型的平均训练时间比传统模型的平均训练时间低约17小时。因此,正如其他来源所证明的那样,ASR系统中的时频定位提高了系统的准确性并加快了训练过程。
translated by 谷歌翻译
最近,语音界正在看到从基于深神经网络的混合模型移动到自动语音识别(ASR)的端到端(E2E)建模的显着趋势。虽然E2E模型在大多数基准测试中实现最先进的,但在ASR精度方面,混合模型仍然在当前的大部分商业ASR系统中使用。有很多实际的因素会影响生产模型部署决定。传统的混合模型,用于数十年的生产优化,通常擅长这些因素。在不为所有这些因素提供优异的解决方案,E2E模型很难被广泛商业化。在本文中,我们将概述最近的E2E模型的进步,专注于解决行业视角的挑战技术。
translated by 谷歌翻译
事实证明,构象异构体在许多语音处理任务中都是有效的。它结合了使用卷积和使用自我注意的全球依赖性提取本地依赖的好处。受此启发,我们提出了一个更灵活,可解释和可自定义的编码器替代方案,分支机构,并在端到端语音处理中对各种远程依赖关系进行建模。在每个编码器层中,一个分支都采用自我注意事项或其变体来捕获远程依赖性,而另一个分支则利用带有卷积门控(CGMLP)的MLP模块来提取局部关系。我们对几种语音识别和口语理解基准进行实验。结果表明,我们的模型优于变压器和CGMLP。它还与构象异构体获得的最先进结果相匹配。此外,由于两分支结构,我们展示了减少计算的各种策略,包括在单个训练有素的模型中具有可变的推理复杂性的能力。合并分支的权重表明如何在不同层中使用本地和全球依赖性,从而使模型设计受益。
translated by 谷歌翻译
本文介绍了阿拉伯语多方面自动语音识别的设计与开发。深度神经网络正在成为解决顺序数据问题的有效工具,特别是采用系统的端到端培训。阿拉伯语语音识别是一个复杂的任务,因为存在多种方言,非可用性的大型语言和遗失的声音。因此,这项工作的第一种贡献是开发具有完全或至少部分发声转录的大型多方面语料库。此外,开源语料库已从多个源收集,通过定义公共字符集来对转录中的非标准阿拉伯字母表进行标准化。第二款贡献是开发框架,用于培训实现最先进的性能的声学模型。网络架构包括卷积和复发层的组合。音频数据的频谱图特征在频率VS时域中提取并在网络中馈送。通过复发模型产生的输出帧进一步训练以使音频特征与其相应的转录序列对齐。使用具有Tetra-Gram语言模型的波束搜索解码器来执行序列对准。所提出的系统实现了14%的错误率,以前优于以前的系统。
translated by 谷歌翻译
梁搜索是端到端模型的主要ASR解码算法,生成树结构化假设。但是,最近的研究表明,通过假设合并进行解码可以通过可比或更好的性能实现更有效的搜索。但是,复发网络中的完整上下文与假设合并不兼容。我们建议在RNN传感器的预测网络中使用矢量定量的长期记忆单元(VQ-LSTM)。通过与ASR网络共同培训离散表示形式,可以积极合并假设以生成晶格。我们在总机语料库上进行的实验表明,提出的VQ RNN传感器改善了具有常规预测网络的换能器的ASR性能,同时还产生了具有相同光束尺寸的Oracle Word错误率(WER)的密集晶格。其他语言模型撤退实验还证明了拟议的晶格生成方案的有效性。
translated by 谷歌翻译
最近提出的符合者架构已成功用于实现在不同数据集上实现最先进性能的端到端自动语音识别(ASR)架构。为了我们的最佳知识,没有研究使用适用物声学模型对混合ASR的影响。在本文中,我们展示并评估了竞争的基于统一体的混合模型训练配方。我们研究了不同的培训方面和方法,以提高字差率以及提高训练速度。我们应用时间下采样方法以实现有效的培训,并使用转换卷积再次上置输出序列。我们在交换机300H数据集中进行实验,与其他架构相比,我们的符合子的混合模型实现了竞争力。它在Hub5'01测试集上概括并显着优于BLSTM的混合模型。
translated by 谷歌翻译
Recurrent neural networks (RNN) are the backbone of many text and speech applications. These architectures are typically made up of several computationally complex components such as; non-linear activation functions, normalization, bi-directional dependence and attention. In order to maintain good accuracy, these components are frequently run using full-precision floating-point computation, making them slow, inefficient and difficult to deploy on edge devices. In addition, the complex nature of these operations makes them challenging to quantize using standard quantization methods without a significant performance drop. We present a quantization-aware training method for obtaining a highly accurate integer-only recurrent neural network (iRNN). Our approach supports layer normalization, attention, and an adaptive piecewise linear (PWL) approximation of activation functions, to serve a wide range of state-of-the-art RNNs. The proposed method enables RNN-based language models to run on edge devices with $2\times$ improvement in runtime, and $4\times$ reduction in model size while maintaining similar accuracy as its full-precision counterpart.
translated by 谷歌翻译
专家(MOE)的稀疏门控混合物可以用少量计算复杂性来放大网络容量。在这项工作中,我们调查多语言自动语音识别(ASR)网络如何用简单的路由算法进行缩放,以便实现更好的准确性。更具体地,我们将稀疏门的MOE技术应用于两种网络:序列到序列变压器(S2S-T)和变压器换能器(T-T)。我们通过一组关于多语言数据的一组ASR实验证明了MOE网络可以分别使用S2S-T和T-T将相对字误差率降低16.5 \%和4.7 \%。此外,我们在各种条件下彻底调查了MOE对T-T架构上的T-T架构的影响:流模式,非流模式,使用语言ID和带有MOE的标签解码器。
translated by 谷歌翻译
经常性的神经网络传感器(RNN-T)目标在建立当今最好的自动语音识别(ASR)系统中发挥着重要作用。与连接员时间分类(CTC)目标类似,RNN-T损失使用特定规则来定义生成一组对准以形成用于全汇训练的格子。但是,如果这些规则是最佳的,则在很大程度上未知,并且会导致最佳ASR结果。在这项工作中,我们介绍了一种新的传感器目标函数,它概括了RNN-T丢失来接受标签的图形表示,从而提供灵活和有效的框架来操纵训练格子,例如用于限制对齐或研究不同的转换规则。我们证明,与标准RNN-T相比,具有CTC样格子的基于传感器的ASR实现了更好的结果,同时确保了严格的单调对齐,这将允许更好地优化解码过程。例如,所提出的CTC样换能器系统对于测试 - LibrisPeech的其他条件,实现了5.9%的字误差率,相对于基于等效的RNN-T系统的提高,对应于4.8%。
translated by 谷歌翻译
Recently Transformer and Convolution neural network (CNN) based models have shown promising results in Automatic Speech Recognition (ASR), outperforming Recurrent neural networks (RNNs). Transformer models are good at capturing content-based global interactions, while CNNs exploit local features effectively. In this work, we achieve the best of both worlds by studying how to combine convolution neural networks and transformers to model both local and global dependencies of an audio sequence in a parameter-efficient way. To this regard, we propose the convolution-augmented transformer for speech recognition, named Conformer. Conformer significantly outperforms the previous Transformer and CNN based models achieving state-of-the-art accuracies. On the widely used LibriSpeech benchmark, our model achieves WER of 2.1%/4.3% without using a language model and 1.9%/3.9% with an external language model on test/testother. We also observe competitive performance of 2.7%/6.3% with a small model of only 10M parameters.
translated by 谷歌翻译
知识蒸馏(KD),最称为模型压缩的有效方法,旨在将更大的网络(教师)的知识转移到更小的网络(学生)。传统的KD方法通常采用以监督方式培训的教师模型,其中输出标签仅作为目标处理。我们进一步扩展了这一受监督方案,我们为KD,即Oracle老师推出了一种新型的教师模型,它利用源输入和输出标签的嵌入来提取更准确的知识来转移到学生。所提出的模型遵循变压器网络的编码器解码器注意结构,这允许模型从输出标签上参加相关信息。在三种不同的序列学习任务中进行了广泛的实验:语音识别,场景文本识别和机器翻译。从实验结果来看,我们经验证明,拟议的模型在这些任务中改善了学生,同时在教师模型的培训时间内实现了相当大的速度。
translated by 谷歌翻译