我们提出了基于流的端到端自动语音识别(ASR)体系结构,该体系结构通过计算成本摊销来实现有效的神经推断。我们的体系结构在推理时间动态创建稀疏的计算途径,从而选择性地使用计算资源在整个解码过程中,从而使计算中的大幅降低,对准确性的影响最小。完全可区分的体系结构是端到端训练的,随附的轻巧仲裁器机制在帧级别运行,以在每个输入上做出动态决策,同时使用可调损耗函数来正规化针对预测性能的整体计算水平。我们使用在LiblisPeech数据上进行的计算摊销变压器变形器(T-T)模型报告了实验的经验结果。我们的最佳模型可以实现60%的计算成本降低,而相对单词错误率仅3%(WER)增加。
translated by 谷歌翻译
最近,语音界正在看到从基于深神经网络的混合模型移动到自动语音识别(ASR)的端到端(E2E)建模的显着趋势。虽然E2E模型在大多数基准测试中实现最先进的,但在ASR精度方面,混合模型仍然在当前的大部分商业ASR系统中使用。有很多实际的因素会影响生产模型部署决定。传统的混合模型,用于数十年的生产优化,通常擅长这些因素。在不为所有这些因素提供优异的解决方案,E2E模型很难被广泛商业化。在本文中,我们将概述最近的E2E模型的进步,专注于解决行业视角的挑战技术。
translated by 谷歌翻译
专家(MOE)的稀疏门控混合物可以用少量计算复杂性来放大网络容量。在这项工作中,我们调查多语言自动语音识别(ASR)网络如何用简单的路由算法进行缩放,以便实现更好的准确性。更具体地,我们将稀疏门的MOE技术应用于两种网络:序列到序列变压器(S2S-T)和变压器换能器(T-T)。我们通过一组关于多语言数据的一组ASR实验证明了MOE网络可以分别使用S2S-T和T-T将相对字误差率降低16.5 \%和4.7 \%。此外,我们在各种条件下彻底调查了MOE对T-T架构上的T-T架构的影响:流模式,非流模式,使用语言ID和带有MOE的标签解码器。
translated by 谷歌翻译
事实证明,构象异构体在许多语音处理任务中都是有效的。它结合了使用卷积和使用自我注意的全球依赖性提取本地依赖的好处。受此启发,我们提出了一个更灵活,可解释和可自定义的编码器替代方案,分支机构,并在端到端语音处理中对各种远程依赖关系进行建模。在每个编码器层中,一个分支都采用自我注意事项或其变体来捕获远程依赖性,而另一个分支则利用带有卷积门控(CGMLP)的MLP模块来提取局部关系。我们对几种语音识别和口语理解基准进行实验。结果表明,我们的模型优于变压器和CGMLP。它还与构象异构体获得的最先进结果相匹配。此外,由于两分支结构,我们展示了减少计算的各种策略,包括在单个训练有素的模型中具有可变的推理复杂性的能力。合并分支的权重表明如何在不同层中使用本地和全球依赖性,从而使模型设计受益。
translated by 谷歌翻译
已知历史和未来的上下文信息对于准确的声学建模很重要。但是,获取未来的上下文会带来流式ASR的延迟。在本文中,我们提出了一个新的框架 - 块,模拟未来的上下文和解码(Cuside)以进行流语言识别。引入了一个新的仿真模块,以递归地模拟未来的上下文帧,而无需等待未来的上下文。使用自我监督的损失与ASR模型共同训练模拟模块;ASR模型通过通常的ASR损失(例如我们实验中使用的CTC-CRF)进行了优化。实验表明,与使用真实的未来框架作为正确的上下文相比,使用模拟的未来上下文可以大大降低延迟,同时保持识别精度。使用Cuside,我们在Aishell-1数据集上获得了新的最新流媒体ASR结果。
translated by 谷歌翻译
通过利用变形金刚捕获基于内容的全球互动和卷积神经网络对本地特征的利用,Condormer在自动语音识别(ASR)方面取得了令人印象深刻的结果。在构象异构体中,两个具有一半剩余连接的马卡龙状进料层将多头的自我注意和卷积模块夹在一起,然后是后层的归一化。我们在两个方向上提高了构象异构器的长序列能力,\ emph {sparser}和\ emph {更深层次}。我们使用$ \ Mathcal {o}(l \ text {log} l)$在时间复杂性和内存使用情况下调整稀疏的自我发挥机制。在执行剩余连接时,将使用深层的归一化策略,以确保我们对一百级构象体块的培训。在日本CSJ-500H数据集上,这种深稀疏的构象异构体分别达到5.52 \%,4.03 \%和4.50 \%在三个评估集上和4.16 \%,2.84 \%\%和3.20 \%时,当结合五个深度稀疏的稀疏配置符号时从12到16、17、50,最后100个编码器层的变体。
translated by 谷歌翻译
当前,主要有三个基于Transformer编码器的流端到端到端(E2E)自动语音识别(ASR)方法,即时间限制的方法,块方法和基于内存的方法。但是,所有这些都在全球上下文建模,线性计算复杂性和模型并行性方面都有一些局限性。在这项工作中,我们旨在建立一个单一模型,以实现流式E2E ASR的所有三个方面的好处。特别是,我们建议使用转移的块机制,而不是传统的块机制来流动变压器和构象异构体。这种转移的块机制可以通过允许块自我注意力捕获跨局部块的全球环境,同时保持线性计算复杂性和平行训练,从而显着增强建模能力。我们将转移的块变压器和配置器命名为Schunk-Transofromer和Schunk-Conformer。我们验证了他们在广泛使用的Aishell-1 Benckmark上的性能。实验表明,Schunk转换器和Schunk-Conformer分别达到CER 6.43%和5.77%。这超过了现有的基于内存和内存的方法的幅度很大,即使与具有二次计算复杂性的最新时间限制的方法相比,也具有竞争力。
translated by 谷歌翻译
Transformers in their common form are inherently limited to operate on whole token sequences rather than on one token at a time. Consequently, their use during online inference on time-series data entails considerable redundancy due to the overlap in successive token sequences. In this work, we propose novel formulations of the Scaled Dot-Product Attention, which enable Transformers to perform efficient online token-by-token inference on a continual input stream. Importantly, our modifications are purely to the order of computations, while the outputs and learned weights are identical to those of the original Transformer Encoder. We validate our Continual Transformer Encoder with experiments on the THUMOS14, TVSeries and GTZAN datasets with remarkable results: Our Continual one- and two-block architectures reduce the floating point operations per prediction by up to 63x and 2.6x, respectively, while retaining predictive performance.
translated by 谷歌翻译
注意层是现代端到端自动语音识别系统不可或缺的一部分,例如作为变压器或构象体体系结构的一部分。注意通常是多头的,每个头部都有一组独立的学习参数,并在相同的输入特征序列上运行。多头注意的输出是单个头部输出的融合。我们经验分析了不同注意力头部产生的表示之间的多样性,并证明在训练过程中头部高度相关。我们研究了一些增加注意力头多样性的方法,包括为每个头部使用不同的注意力机制和辅助训练损失功能来促进头部多样性。我们表明,在训练过程中引入多样性辅助损失功能是一种更有效的方法,并且在Librispeech语料库上获得了多达6%的相对相对的改善。最后,我们在注意力头的多样性与头部参数梯度的相似性之间建立了联系。
translated by 谷歌翻译
变压器已经看到了自然语言处理和计算机视觉任务的前所未有的上升。但是,在音频任务中,由于音频波形的极大序列长度或在培训基于傅立叶特征时,它们是不可行的。在这项工作中,我们介绍了一个架构,Audiomer,在那里我们将1D残差网络与表演者的注意力结合起来,以实现使用原始音频波形的关键字在关键字中实现最先进的性能,优先于以前的所有方法,同时计算更便宜和参数效率。此外,我们的模型具有语音处理的实际优点,例如由于缺乏位置编码而在任意长的音频剪辑上推断。代码可在https://github.com/the-learning-machines/dautiomer获得
translated by 谷歌翻译
最近,基于注意的编码器 - 解码器(AED)模型对多个任务的端到端自动语音识别(ASR)显示了高性能。在此类模型中解决了过度控制,本文介绍了轻松关注的概念,这是一种简单地逐渐注入对训练期间对编码器 - 解码器注意重量的统一分配,其易于用两行代码实现。我们调查轻松关注跨不同AED模型架构和两个突出的ASR任务,华尔街日志(WSJ)和LibRisPeech的影响。我们发现,在用外部语言模型解码时,随着宽松的注意力训练的变压器始终如一地始终如一地遵循标准基线模型。在WSJ中,我们为基于变压器的端到端语音识别设置了一个新的基准,以3.65%的单词错误率,最优于13.1%的相对状态,同时仅引入单个HyperParameter。
translated by 谷歌翻译
本文介绍了一个新型的流媒体自动语音识别(ASR)框架,用于由带有任意几何形状的遥远麦克风阵列捕获的多对话者重叠语音。我们的名为T-Sot-VA的框架在独立开发了两种最近的技术上。基于令牌级别的序列化输出训练(T-SOT),数量几何形状 - 反应连续的语音分离或VARARRARY和流媒体多对话者ASR。为了结合两种技术的最佳,我们新设计了一个基于T-SOT的ASR模型,该模型基于Vararray的两个分离的语音信号生成序列化的多对话者转录。我们还为这种ASR模型提出了一种预训练方案,我们基于单膜单键式ASR训练数据来模拟Vararray的输出信号。使用AMI会议语料库的对话转录实验表明,基于提议的框架的系统大大优于常规的框架。我们的系统分别在保留流媒体推理能力的同时,在多远离微米频道设置中分别实现了AMI开发和评估集的最新单词错误率为13.7%和15.5%。
translated by 谷歌翻译
流动自动语音识别(ASR)模型更为流行,适合基于语音的应用程序。但是,非流入模型在查看整个音频上下文时提供了更好的性能。为了利用语音搜索等流媒体应用程序中非流游模型的好处,它通常在第二通过重新评分模式下使用。使用蒸汽模型生成的候选假设是使用非流程模型重新评分的。在这项工作中,我们在独立和重新评分模式的Flipkart语音搜索任务上评估了基于注意力的端到端ASR模型。这些模型基于收听拼写(LAS)编码器编码器架构。我们基于LSTM,变压器和构象异构体进行不同的编码器变化。我们将这些模型的延迟要求与它们的性能进行比较。总体而言,我们表明,变压器模型提供了可接受的延迟要求。我们报告的相对改善约为16%,第二次通过LAS重新评分,延迟开销低于5ms。我们还强调了CNN前端使用变压器体系结构的重要性,以达到可比的单词错误率(WER)。此外,我们观察到,在第二次通过重新评分模式下,所有编码器都提供了相似的好处,而在独立文本生成模式下,性能差异很明显。
translated by 谷歌翻译
越来越有兴趣将流和全文自动语音识别(ASR)网络统一到单个端到端ASR模型中,以简化两种用例的模型培训和部署。在现实世界中的ASR应用程序中,流媒体ASR模型通常在更多的存储和计算约束(例如,在嵌入式设备上)进行操作,而不是任何服务器端的全文模型。由Omni-Sparsity Supernet训练的最新进展激发,该训练在一个单个模型中共同优化了多个子网,该工作旨在共同学习紧凑的稀疏稀疏式磁性流媒体流动ASR模型,以及一个大型密度服务器非流动模型,在一个超级网。接下来,我们提出,在两种WAV2VEC 2.0自制学习和监督的ASR微调上进行超网训练不仅可以基本上改善先前工作中所示的大型非流式模型,还可以改善紧凑的稀疏流流媒体流模型。
translated by 谷歌翻译
视觉变压器(VIT)用作强大的视觉模型。与卷积神经网络不同,在前几年主导视觉研究,视觉变压器享有捕获数据中的远程依赖性的能力。尽管如此,任何变压器架构的组成部分,自我关注机制都存在高延迟和低效的内存利用,使其不太适合高分辨率输入图像。为了缓解这些缺点,分层视觉模型在非交错的窗口上局部使用自我关注。这种放松会降低输入尺寸的复杂性;但是,它限制了横窗相互作用,损害了模型性能。在本文中,我们提出了一种新的班次不变的本地注意层,称为查询和参加(QNA),其以重叠的方式聚集在本地输入,非常类似于卷积。 QNA背后的关键想法是介绍学习的查询,这允许快速高效地实现。我们通过将其纳入分层视觉变压器模型来验证我们的层的有效性。我们展示了速度和内存复杂性的改进,同时实现了与最先进的模型的可比准确性。最后,我们的图层尺寸尤其良好,窗口大小,需要高于X10的内存,而不是比现有方法更快。
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
隔离架构在语音分离中显示出非常好的结果。像其他学习的编码器模型一样,它使用了短帧,因为它们已被证明在这些情况下可以获得更好的性能。这导致输入处有大量帧,这是有问题的。由于隔离器是基于变压器的,因此其计算复杂性随着较长的序列而大大增加。在本文中,我们在语音增强任务中采用了隔离器,并表明,通过以短期傅立叶变换(STFT)表示替换学习式编码器的功能,我们可以使用长帧而不会损害感知增强性能。我们获得了同等的质量和清晰度评估得分,同时将10秒的话语减少了大约8倍。
translated by 谷歌翻译
数据冗余在深神经网络(DNN)的输入和中间结果中无处不在。它为提高DNN性能和效率提供了许多重要的机会,并在大量工作中探索了。这些研究在几年中都在许多场所散布。他们关注的目标范围从图像到视频和文本,以及他们用于检测和利用数据冗余的技术在许多方面也有所不同。尚无对许多努力进行系统的检查和摘要,使研究人员很难对先前的工作,最新技术,差异和共享原则以及尚未探索的领域和方向进行全面看法。本文试图填补空白。它调查了有关该主题的数百篇论文,引入了一种新颖的分类法,以将各种技术纳入一个单一的分类框架,对用于利用数据冗余的主要方法进行了全面描述,以改善数据的多种DNN,并指出一组未来探索的研究机会。
translated by 谷歌翻译
Transformers are among the state of the art for many tasks in speech, vision, and natural language processing, among others. Self-attentions, which are crucial contributors to this performance have quadratic computational complexity, which makes training on longer input sequences challenging. Prior work has produced state-of-the-art transformer variants with linear attention, however, current models sacrifice performance to achieve efficient implementations. In this work, we develop a novel linear transformer by examining the properties of the key-query product within self-attentions. Our model outperforms state of the art approaches on speech recognition and speech summarization, resulting in 1 % absolute WER improvement on the Librispeech-100 speech recognition benchmark and a new INTERVIEW speech recognition benchmark, and 5 points on ROUGE for summarization with How2.
translated by 谷歌翻译
多头注意力是最先进的变压器背后的推动力,它在各种自然语言处理(NLP)和计算机视觉任务中实现了出色的性能。已经观察到,对于许多应用,这些注意力头会学习冗余嵌入,并且大多数可以在不降低模型性能的情况下去除。受到这一观察的启发,我们提出了变压器的混合物(变压器-MGK)的混合物,这是一种新型的变压器架构,用每个头部的钥匙混合了变压器中的冗余头部。这些键的混合物遵循高斯混合模型,并使每个注意力头有效地集中在输入序列的不同部分上。与传统的变压器对应物相比,变压器-MGK会加速训练和推理,具有较少的参数,并且需要更少的拖船来计算,同时实现跨任务的可比性或更高的准确性。 Transformer-MGK也可以轻松扩展到线性注意力。我们从经验上证明了在一系列实用应用中变形金属MGK的优势,包括语言建模和涉及非常长序列的任务。在Wikitext-103和远程竞技场基准中,具有4个头部的变压器MGK具有与基线变压器具有8个头的可比性或更好的性能。
translated by 谷歌翻译