While recent research advances in speaker diarization mostly focus on improving the quality of diarization results, there is also an increasing interest in improving the efficiency of diarization systems. In this paper, we propose a multi-stage clustering strategy, that uses different clustering algorithms for input of different lengths. Specifically, a fallback clusterer is used to handle short-form inputs; a main clusterer is used to handle medium-length inputs; and a pre-clusterer is used to compress long-form inputs before they are processed by the main clusterer. Both the main clusterer and the pre-clusterer can be configured with an upper bound of the computational complexity to adapt to devices with different constraints. This multi-stage clustering strategy is critical for streaming on-device speaker diarization systems, where the budgets of CPU, memory and battery are tight.
translated by 谷歌翻译
In this work we propose a novel token-based training strategy that improves Transformer-Transducer (T-T) based speaker change detection (SCD) performance. The conventional T-T based SCD model loss optimizes all output tokens equally. Due to the sparsity of the speaker changes in the training data, the conventional T-T based SCD model loss leads to sub-optimal detection accuracy. To mitigate this issue, we use a customized edit-distance algorithm to estimate the token-level SCD false accept (FA) and false reject (FR) rates during training and optimize model parameters to minimize a weighted combination of the FA and FR, focusing the model on accurately predicting speaker changes. We also propose a set of evaluation metrics that align better with commercial use cases. Experiments on a group of challenging real-world datasets show that the proposed training method can significantly improve the overall performance of the SCD model with the same number of parameters.
translated by 谷歌翻译
言语分离的许多最近进步主要针对具有高重叠程度的短音频话语的合成混合物。这些数据集与真实的会话数据显着不同,因此,在这些数据集上培训和评估的模型不会概括到真实的会话方案。使用大多数这些模型用于长形式语音的另一个问题是由于时间频率掩模或置换不变训练(PIT)损耗的无监督聚类,因此是分离的语音段的非明确顺序。这导致准确地缝合用于自动语音识别(ASR)的下游任务的均匀扬声器段。在本文中,我们提出了一种扬声器调节分离器,在直接从混合信号中提取的扬声器嵌入物上训练。我们使用定向丢失训练此模型,该丢失调节分离的段的顺序。使用此模型,我们对真实会话数据的单词错误率(WER)进行了重大改进,而无需额外的重新拼接步骤。
translated by 谷歌翻译
扬声器日流是一个标签音频或视频录制的任务,与扬声器身份或短暂的任务标记对应于扬声器标识的类,以识别“谁谈到何时发表讲话”。在早期,对MultiSpeaker录音的语音识别开发了扬声器日益衰退算法,以使扬声器自适应处理能够实现扬声器自适应处理。这些算法还将自己的价值作为独立应用程序随着时间的推移,为诸如音频检索等下游任务提供特定于扬声器的核算。最近,随着深度学习技术的出现,这在讲话应用领域的研究和实践中引起了革命性的变化,对扬声器日益改善已经进行了快速进步。在本文中,我们不仅审查了扬声器日益改善技术的历史发展,而且还审查了神经扬声器日益改善方法的最新进步。此外,我们讨论了扬声器日复速度系统如何与语音识别应用相结合,以及最近深度学习的激增是如何引领联合建模这两个组件互相互补的方式。通过考虑这种令人兴奋的技术趋势,我们认为本文对社区提供了有价值的贡献,以通过巩固具有神经方法的最新发展,从而促进更有效的扬声器日益改善进一步进展。
translated by 谷歌翻译
在本文中,我们提出了一种解决方案,以允许扬声器条件语音模型,例如VoiceFilter-Lite,以支持单个通过中的任意数量的注册用户。这是通过使用多个扬声器嵌入的注意机制来实现,以计算单个细小嵌入,然后将其用作模型的侧面输入。我们实现了多用户VoiceFilter-Lite并为三个任务进行了评估:(1)流自动语音识别(ASR)任务; (2)独立于文本的扬声器验证任务; (3)个性化关键级检测任务,其中ASR必须在嘈杂的环境中检测来自多个注册用户的关键次数。我们的实验表明,在最多四个注册的用户中,多用户VoiceFilter-Lite能够在具有重叠语音时显着降低语音识别和扬声器验证错误,而不会影响其他声学条件下的性能。这种细心的扬声器嵌入方法也可以轻松应用于其他扬声器条件模型,如个人VAD和个性化ASR。
translated by 谷歌翻译
Speaker embedding extractors significantly influence the performance of clustering-based speaker diarisation systems. Conventionally, only one embedding is extracted from each speech segment. However, because of the sliding window approach, a segment easily includes two or more speakers owing to speaker change points. This study proposes a novel embedding extractor architecture, referred to as a high-resolution embedding extractor (HEE), which extracts multiple high-resolution embeddings from each speech segment. Hee consists of a feature-map extractor and an enhancer, where the enhancer with the self-attention mechanism is the key to success. The enhancer of HEE replaces the aggregation process; instead of a global pooling layer, the enhancer combines relative information to each frame via attention leveraging the global context. Extracted dense frame-level embeddings can each represent a speaker. Thus, multiple speakers can be represented by different frame-level features in each segment. We also propose an artificially generating mixture data training framework to train the proposed HEE. Through experiments on five evaluation sets, including four public datasets, the proposed HEE demonstrates at least 10% improvement on each evaluation set, except for one dataset, which we analyse that rapid speaker changes less exist.
translated by 谷歌翻译
诊断将音频流划分为基于扬声器的声音。包括入学步骤的实时诊断系统应限制入学培训样本,以减少用户交互时间。尽管对少数样品的培训产生的性能较差,但我们表明,使用年代自我训练方法可以大大提高准确性。我们研究了训练时间和分类性能之间的权衡,发现1秒足以达到超过95%的精度。我们从6种不同的语言中评估了700个音频对话文件约10分钟,并证明平均诊断错误率低至10%。
translated by 谷歌翻译
对话场景是语音处理技术最重要,最具挑战性的场景之一,因为对话中的人们以随意的方式相互反应。在对话中检测每个人的语音活动对于下游任务,例如自然语言处理,机器翻译等。人们指的是“何时说话”作为说话者诊断(SD)的检测技术。传统上,诊断错误率(DER)长期以来一直用作SD系统的标准评估度量。但是,der没有给简短的对话短语提供足够的重视,这在语义层面上很重要。此外,在语音社区中,仍然无法使用精心准确的手动测试数据集,适合评估对话性SD技术。在本文中,我们设计和描述了对话式短语扬声器诊断(CSSD)任务,该任务包括培训和测试数据集,评估指标和基线。在数据集方面,尽管先前开源的180小时对话魔术Data-RAMC数据集,但我们还准备了一个20小时的对话演讲测试数据集,并精心验证了CSSD任务的时间戳注释。在度量方面,我们设计了新的对话der(CDER)评估度量,该评估度量计算出语音级别的SD准确性。在基线方面,我们采用了一种常用的方法:变异贝叶斯HMM X-vector系统,作为CSSD任务的基线。我们的评估指标可在https://github.com/speechclub/cder_metric上公开获得。
translated by 谷歌翻译
本文介绍了流式扬声器的自动语音识别(SA-ASR)模型,该模型可以识别``即使多个人同时讲话,谁说'谁说什么”。我们的模型基于令牌级的序列化输出培训(T-SOT),该培训最近提议以流媒体方式转录多对词的演讲。为了进一步认识说话者的身份,我们提出了一个基于编码器的扬声器嵌入提取器,该扬声器可以估算每个公认的代币的说话者表示,不仅是从非重叠的语音中,而且还来自重叠的语音。所提出的扬声器嵌入为T-vector,与T-SOT ASR模型同步提取,从而可以通过低潜伏期的多词器转录来联合执行说话者识别(SID)或说话者诊断(SD)。我们通过使用LibrisPeechMix和Libralics Corpora评估了ASR和SID/SD联合任务的建议模型。所提出的模型比以前的流媒体模型获得了更高的准确性,并且与最新的离线SA-ASR模型显示出可比甚至更高的结果。
translated by 谷歌翻译
使用未知数量的扬声器数量的单通道远场录制的自动语音识别(ASR)传统上由级联模块解决。最近的研究表明,与模块化系统相比,端到端(E2E)多扬声器ASR模型可以实现卓越的识别准确性。但是,这些模型不会确保由于其对完整音频上下文的依赖性而实时适用性。这项工作采用实时适用性,作为模型设计的第一优先级,并解决了以前的多扬声器经常性神经网络传感器(MS-RNN-T)的几个挑战。首先,我们在训练期间介绍一般的重叠言论模拟,在LibrisPeechMix测试集上产生14%的相对字错误率(WER)改进。其次,我们提出了一种新的多转RNN-T(MT-RNN-T)模型,其具有基于重叠的目标布置策略,其概括为任意数量的扬声器,而没有模型架构的变化。我们调查在Liblics测试集上培训训练期间看到的最大扬声器数量的影响,并在两位扬声器MS-RNN-T上报告28%的相对加速。第三,我们试验丰富的转录战略,共同承认和分割多方言论。通过深入分析,我们讨论所提出的系统的潜在陷阱以及未来的未来研究方向。
translated by 谷歌翻译
播客本质上是对话性的,说话者的变化很频繁 - 需要说话者诊断以了解内容。我们在不依赖语言特定组件的情况下提出了一种无监督的技术诊断技术。该算法是重叠的,不需要有关说话者数量的信息。我们的方法显示,针对播客数据的Google Cloud Platform解决方案,纯度得分(F-评分为34%)的纯度得分提高了79%。
translated by 谷歌翻译
自动语音识别和文本到语音系统主要以监督方式培训,需要高质量,准确标记的语音数据集。在这项工作中,我们研究语音数据的常见问题,并为语音数据集的构建和交互式错误分析引入工具箱。施工工具基于K \“urzinger等。工作,并且,尽我们所知,数据集探索工具是世界上第一个这类开源工具。我们演示了如何应用这些工具来创建一个俄语语音数据集并分析现有语音数据集(多语种LibrisPeech,Mozilla Common语音)。该工具是开放的,作为Nemo框架的一部分。
translated by 谷歌翻译
近年来,在设备上的演讲识别(ASR)的个性化已经爆炸性增长,这在很大程度上是由于个人助理功能在移动设备和智能家居扬声器上越来越受欢迎。在这项工作中,我们提出了个人VAD 2.0,这是一种个性化的语音活动探测器,可检测目标扬声器的语音活动,作为流媒体上的ASR系统的一部分。尽管以前的概念证明研究已经验证了个人VAD的有效性,但在生产中可以使用该模型之前,仍然存在一些关键的挑战:首先,在招生和无人列的场景中,质量必须令人满意。其次,它应该以流媒体方式运行。最后,型号的大小应足够小,以适合有限的延迟和CPU/内存预算。为了满足多方面的要求,我们提出了一系列新颖的设计:1)高级扬声器嵌入调制方法; 2)一种新的培训范式,以概括为无数的条件; 3)用于延迟和资源限制的体系结构和运行时优化。对现实语音识别系统的广泛实验证明了我们提出的方法的最新性能。
translated by 谷歌翻译
本文提出了代币级别的序列化输出训练(T-SOT),这是流式传输多对话者自动语音识别(ASR)的新型框架。与使用多个输出分支的现有流媒体多对话者ASR模型不同,T-SOT模型只有一个单个输出分支,该分支基于其排放时间生成多个扬声器的识别令牌(例如,单词,子字)。引入了指示“虚拟”输出通道更改的特殊令牌,以跟踪重叠的话语。与先前的流媒体ASR模型相比,T-SOT模型具有较低的推理成本和更简单的模型体系结构的优点。此外,在我们对LibrisPeechMix和Librics数据集的实验中,基于T-SOT的变压器换能器模型可实现最新的单词错误率,从而有很大的差距。对于非重叠的语音,T-SOT模型在精度和计算成本方面与单调的ASR模型相提并论,为单个单词和多对话者方案部署一个模型打开了大门。
translated by 谷歌翻译
A method to perform offline and online speaker diarization for an unlimited number of speakers is described in this paper. End-to-end neural diarization (EEND) has achieved overlap-aware speaker diarization by formulating it as a multi-label classification problem. It has also been extended for a flexible number of speakers by introducing speaker-wise attractors. However, the output number of speakers of attractor-based EEND is empirically capped; it cannot deal with cases where the number of speakers appearing during inference is higher than that during training because its speaker counting is trained in a fully supervised manner. Our method, EEND-GLA, solves this problem by introducing unsupervised clustering into attractor-based EEND. In the method, the input audio is first divided into short blocks, then attractor-based diarization is performed for each block, and finally, the results of each block are clustered on the basis of the similarity between locally-calculated attractors. While the number of output speakers is limited within each block, the total number of speakers estimated for the entire input can be higher than the limitation. To use EEND-GLA in an online manner, our method also extends the speaker-tracing buffer, which was originally proposed to enable online inference of conventional EEND. We introduce a block-wise buffer update to make the speaker-tracing buffer compatible with EEND-GLA. Finally, to improve online diarization, our method improves the buffer update method and revisits the variable chunk-size training of EEND. The experimental results demonstrate that EEND-GLA can perform speaker diarization of an unseen number of speakers in both offline and online inferences.
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译
DER is the primary metric to evaluate diarization performance while facing a dilemma: the errors in short utterances or segments tend to be overwhelmed by longer ones. Short segments, e.g., `yes' or `no,' still have semantic information. Besides, DER overlooks errors in less-talked speakers. Although JER balances speaker errors, it still suffers from the same dilemma. Considering all those aspects, duration error, segment error, and speaker-weighted error constituting a complete diarization evaluation, we propose a Balanced Error Rate (BER) to evaluate speaker diarization. First, we propose a segment-level error rate (SER) via connected sub-graphs and adaptive IoU threshold to get accurate segment matching. Second, to evaluate diarization in a unified way, we adopt a speaker-specific harmonic mean between duration and segment, followed by a speaker-weighted average. Third, we analyze our metric via the modularized system, EEND, and the multi-modal method on real datasets. SER and BER are publicly available at https://github.com/X-LANCE/BER.
translated by 谷歌翻译
在本文中,我们在多方会议场景中对说话者的自动语音识别(SA-ASR)进行了比较研究,这一主题越来越关注丰富的转录。具体而言,本研究评估了三种方法。第一种方法,即FD-SOT,由框架级诊断模型组成,以识别说话者和多对话者ASR以识别话语。通过对齐诊断结果和公认的假设,可以获得说话者归因的转录。但是,由于模块化的独立性,这种对齐策略可能会遭受错误的时间戳,从而严重阻碍了模型性能。因此,我们提出了第二种方法WD-SOT,以通过引入单词水平诊断模型来解决对齐误差,从而可以摆脱这种时间戳对齐依赖性。为了进一步缓解对齐问题,我们提出了第三种方法TS-ASR,该方法可以训练目标扬声器分离模块和ASR模块。通过比较每种SA-ASR方法的各种策略,对真实会议场景语料库的实验结果,AlimeTing,表明WD-SOT方法可在平均扬声器依赖性角色错误率(SD-CER)相对降低10.7%,与之相比FD-SOT方法。此外,TS-ASR方法还优于FD-SOT方法,并带来16.5%的相对平均SD-CER减少。
translated by 谷歌翻译
本文介绍了使用变压器基于目标扬声器语音活动检测(TS-VAD)的扬声器诊断模型。为了克服原始的TS-VAD模型无法处理任意数量的扬声器的缺点,我们研究了使用具有可变长度时间和扬声器尺寸的输入张量的模型架构。将变压器层应用于扬声器轴,以使模型输出对提供给TS-VAD模型的扬声器配置文件的顺序不敏感。时间顺序层插入了这些说话者的变压器层之间,以允许捕获输入语音信号的时间和跨语言器相关性。我们还使用基于编码器的吸引子(EEND-EDA)将基于端到端神经诊断的诊断模型通过基于变压器的TS-VAD替换其基于DOT的扬声器检测层,从而扩展了基于端到端的神经腹泻。 VoxConverse上的实验结果表明,使用变压器进行跨言扬声器建模可将TS-VAD的诊断错误率(DER)降低10.9%,从而使新的最先进(SOTA)DER达到4.74%。此外,我们的扩展eDa-eda在呼叫者数据集上相对于原始eend-eda的模型大小将6.9%降低了6.9%,在广泛使用的培训数据设置下,新的SOTA DER为11.18%。
translated by 谷歌翻译
最近,语音界正在看到从基于深神经网络的混合模型移动到自动语音识别(ASR)的端到端(E2E)建模的显着趋势。虽然E2E模型在大多数基准测试中实现最先进的,但在ASR精度方面,混合模型仍然在当前的大部分商业ASR系统中使用。有很多实际的因素会影响生产模型部署决定。传统的混合模型,用于数十年的生产优化,通常擅长这些因素。在不为所有这些因素提供优异的解决方案,E2E模型很难被广泛商业化。在本文中,我们将概述最近的E2E模型的进步,专注于解决行业视角的挑战技术。
translated by 谷歌翻译