音频分割和声音事件检测是机器聆听中的关键主题,旨在检测声学类别及其各自的边界。它对于音频分析,语音识别,音频索引和音乐信息检索非常有用。近年来,大多数研究文章都采用分类。该技术将音频分为小帧,并在这些帧上单独执行分类。在本文中,我们提出了一种新颖的方法,叫您只听一次(Yoho),该方法受到计算机视觉中普遍采用的Yolo算法的启发。我们将声学边界的检测转换为回归问题,而不是基于框架的分类。这是通过具有单独的输出神经元来检测音频类的存在并预测其起点和终点来完成的。与最先进的卷积复发性神经网络相比,Yoho的F量的相对改善范围从多个数据集中的1%到6%不等,以进行音频分段和声音事件检测。由于Yoho的输出更端到端,并且可以预测的神经元更少,因此推理速度的速度至少比逐个分类快6倍。另外,由于这种方法可以直接预测声学边界,因此后处理和平滑速度约为7倍。
translated by 谷歌翻译
机器侦听中的声音事件检测(SED)需要识别音频文件中的不同声音,并识别音频中特定声音事件的开始和结束时间。 SED在多媒体数据库中发现了在各种应用中的应用,例如音频监控,语音识别和基于上下文的索引和检索数据。然而,在现实生活场景中,来自各种来源的声音很少没有任何干扰噪音或干扰。在本文中,我们在嘈杂的音频数据上测试您只听到一次(Yoho)算法的性能。由您的灵感仅仅看一次(YOLO)算法在计算机视觉中,yoho算法可以匹配数据集上各种最先进的算法的性能,如音乐语音检测数据集,TUT声音事件和城市 - SED数据集,但在较低的推理时间。在本文中,我们探讨了Yoho算法在包含不同声音噪声比(SNR)的噪声的音频文件的语音数据集的性能。 Yoho可以胜过或至少匹配语音数据集纸中的最佳性能SED算法,并在更短的时间内进行推断。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
基于音频的色情检测可以通过利用不同的光谱特征来实现有效的成人内容过滤。为了改善它,我们根据不同的神经体系结构和声学特征探索色情声音建模。我们发现,经过对数频谱图训练的CNN可以在色情800数据集上实现最佳性能。我们的实验结果还表明,对数MEL频谱图可以为模型识别色情声音提供更好的表示。最后,为了对整个音频波形进行分类,而不是段,我们采用了投票段到原告技术,从而产生最佳的音频级检测结果。
translated by 谷歌翻译
注释音乐节拍在繁琐的过程中是很长的。为了打击这个问题,我们为节拍跟踪和下拍估算提出了一种新的自我监督的学习借口任务。这项任务利用SPLEETER,一个音频源分离模型,将歌曲的鼓从其其余的信号分开。第一组信号用作阳性,并通过延长否定,用于对比学习预培训。另一方面,鼓的信号用作锚点。使用此借口任务进行全卷积和复发模型时,学习了一个开始功能。在某些情况下,发现此功能被映射到歌曲中的周期元素。我们发现,当一个节拍跟踪训练集非常小(少于10个示例)时,预先训练的模型随机初始化模型表现优于随机初始化的模型。当不是这种情况时,预先训练导致了一个学习速度,导致模型过度训练集。更一般地说,这项工作定义了音乐自我监督学习领域的新观点。尤其是使用音频源分离作为自我监督的基本分量的作品之一。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
声音事件检测(SED)在监控,视频索引等中的广泛应用程序上获得了越来越长的关注。SED中的现有模型主要产生帧级预测,将其转换为序列多标签分类问题。基于帧的模型的一个关键问题是它追求最佳的帧级预测而不是最佳的事件级预测。此外,它需要后处理,无法以端到端的方式培训。本文首先介绍了一维检测变压器(1D-DETR),受到图像对象检测的检测变压器的启发。此外,鉴于SED的特征,音频查询分支和用于微调的一对多匹配策略将模型添加到1D-DETR以形成声音事件检测变压器(SEDT)。据我们所知,Sedt是第一个基于事件和最终的SED模型。实验在城市 - SED数据集和DCES2019任务4数据集上进行,两者都表明席克可以实现竞争性能。
translated by 谷歌翻译
诸如“ uh”或“ um”之类的填充词是人们用来表示他们停下来思考的声音或词。从录音中查找和删除填充单词是媒体编辑中的一项常见和繁琐的任务。自动检测和分类填充单词可以极大地帮助这项任务,但是迄今为止,很少有关于此问题的研究。一个关键原因是缺少带有带注释的填充词的数据集用于模型培训和评估。在这项工作中,我们介绍了一个新颖的语音数据集,PodcastFillers,带有35K注释的填充单词和50k注释,这些声音通常会出现在播客中,例如呼吸,笑声和单词重复。我们提出了一条利用VAD和ASR来检测填充候选物和分类器以区分填充单词类型的管道。我们评估了有关播客填充器的拟议管道,与几个基线相比,并提供了一项详细的消融研究。特别是,我们评估了使用ASR的重要性以及它与类似于关键字发现的无转录方法的比较。我们表明,我们的管道获得了最新的结果,并且利用ASR强烈优于关键字斑点方法。我们公开播放播客,希望我们的工作是未来研究的基准。
translated by 谷歌翻译
自从几十年前的频谱分析开创性工作以来,已经研究了提取音频和语音特征的方法。最近的努力以开发通用音频表示的雄心为指导。例如,如果深度神经网络在大型音频数据集上进行了培训,则可以提取最佳的嵌入。这项工作扩展了基于自我监督的学习,通过引导,提出各种编码器体系结构,并探索使用不同的预训练数据集的效果。最后,我们提出了一个新颖的培训框架,以提出一个混合音频表示,该框架结合了手工制作和数据驱动的学习音频功能。在HEAR NEURIPS 2021挑战中,对听觉场景分类和时间戳检测任务进行了评估。我们的结果表明,在大多数听到挑战任务中,带有卷积变压器的混合模型都会产生卓越的性能。
translated by 谷歌翻译
With big data becoming increasingly available, IoT hardware becoming widely adopted, and AI capabilities becoming more powerful, organizations are continuously investing in sensing. Data coming from sensor networks are currently combined with sensor fusion and AI algorithms to drive innovation in fields such as self-driving cars. Data from these sensors can be utilized in numerous use cases, including alerts in safety systems of urban settings, for events such as gun shots and explosions. Moreover, diverse types of sensors, such as sound sensors, can be utilized in low-light conditions or at locations where a camera is not available. This paper investigates the potential of the utilization of sound-sensor data in an urban context. Technically, we propose a novel approach of classifying sound data using the Wigner-Ville distribution and Convolutional Neural Networks. In this paper, we report on the performance of the approach on open-source datasets. The concept and work presented is based on my doctoral thesis, which was performed as part of the Engineering Doctorate program in Data Science at the University of Eindhoven, in collaboration with the Dutch National Police. Additional work on real-world datasets was performed during the thesis, which are not presented here due to confidentiality.
translated by 谷歌翻译
眼目光信息的收集为人类认知,健康和行为的许多关键方面提供了一个窗口。此外,许多神经科学研究补充了从眼睛跟踪中获得的行为信息,以及脑电图(EEG)提供的高时间分辨率和神经生理学标记。必不可少的眼睛跟踪软件处理步骤之一是将连续数据流的分割为与扫视,固定和眨眼等眼睛跟踪应用程序相关的事件。在这里,我们介绍了Detrtime,这是一个新颖的时间序列分割框架,该框架创建了不需要额外记录的眼睛跟踪模式并仅依靠脑电图数据的眼部事件检测器。我们的端到端基于深度学习的框架将计算机视觉的最新进展带到了脑电图数据的《时代》系列分割的最前沿。 Detr Time在各种眼睛追踪实验范式上实现眼部事件检测中的最新性能。除此之外,我们还提供了证据表明我们的模型在脑电图阶段分割的任务中很好地概括了。
translated by 谷歌翻译
We consider the question: what can be learnt by looking at and listening to a large number of unlabelled videos? There is a valuable, but so far untapped, source of information contained in the video itself -the correspondence between the visual and the audio streams, and we introduce a novel "Audio-Visual Correspondence" learning task that makes use of this. Training visual and audio networks from scratch, without any additional supervision other than the raw unconstrained videos themselves, is shown to successfully solve this task, and, more interestingly, result in good visual and audio representations. These features set the new state-of-the-art on two sound classification benchmarks, and perform on par with the state-of-the-art selfsupervised approaches on ImageNet classification. We also demonstrate that the network is able to localize objects in both modalities, as well as perform fine-grained recognition tasks.
translated by 谷歌翻译
听觉对于自动驾驶汽车(AV)至关重要,以更好地感知其周围环境。尽管相机,激光雷达和雷达等AV的视觉传感器有助于看到其周围环境,但AV无法看到这些传感器的视线。另一方面,视线无法阻碍AV的听力感。例如,即使紧急车辆不在AV的视线之内,AV也可以通过音频分类识别紧急车辆的警笛。因此,听觉感知与相机,激光雷达和基于雷达的感知系统互补。本文提出了一个基于深度学习的强大音频分类框架,旨在提高对AV的环境感知。提出的框架利用深度卷积神经网络(CNN)来对不同的音频类进行分类。 Urbansound8K是一个城市环境数据集,用于训练和测试开发的框架。七个音频课程,即空调,汽车喇叭,儿童播放,狗皮,发动机空闲,枪声和警报器,是从urbansound8k数据集中识别的,因为它们与AVS相关。我们的框架可以以97.82%的精度对不同的音频类别进行分类。此外,介绍了所有十个类的音频分类精度,这证明,与现有的音频分类框架相比,在与AV相关的声音的情况下,我们的框架的性能更好。
translated by 谷歌翻译
音乐作品结构的分析是一项任务,对人工智能仍然是一个挑战,特别是在深度学习领域。它需要先前识别音乐件的结构范围。最近通过无监督的方法和\ Texit {端到端}技术研究了这种结构边界分析,例如使用熔融缩放的对数级阶段特征(MLS),自相似性矩阵(SSM)等卷积神经网络(CNN)或自我相似性滞后矩阵(SSLM)作为输入和用人的注释培训。已发布几项研究分为无监督和\ yexit {端到端}方法,其中使用不同的距离度量和音频特性以不同方式进行预处理,因此通过计算模型输入的广义预处理方法是丢失的。这项工作的目的是通过比较来自不同池策略,距离度量和音频特性的输入来建立预处理这些输入的一般方法,也考虑到计算时间来获得它们。我们还建立了要交付给CNN的最有效的投入结合,以便建立最有效的方法来提取音乐件结构的限制。通过对输入矩阵和池策略的充分组合,我们获得了0.411的测量精度$ 0.411优于在相同条件下获得的目前。
translated by 谷歌翻译
声音事件检测(SED)和声学场景分类(ASC)是两项广泛研究的音频任务,构成了声学场景分析研究的重要组成部分。考虑声音事件和声学场景之间的共享信息,共同执行这两个任务是复杂的机器聆听系统的自然部分。在本文中,我们研究了几个空间音频特征在训练执行SED和ASC的关节深神经网络(DNN)模型中的有用性。对包含双耳记录和同步声音事件和声学场景标签的两个不同数据集进行了实验,以分析执行SED和ASC之间的差异。提出的结果表明,使用特定双耳特征,主要是与相变(GCC-PHAT)的广义交叉相关性以及相位差异的罪和余弦,从而在单独和关节任务中具有更好的性能模型,与基线方法相比仅基于logmel能量。
translated by 谷歌翻译
在实践中,非常苛刻,有时无法收集足够大的标记数据数据集以成功培训机器学习模型,并且对此问题的一个可能解决方案是转移学习。本研究旨在评估如何可转让的时间序列数据和哪些条件下的不同域之间的特征。在训练期间,在模型的预测性能和收敛速度方面观察到转移学习的影响。在我们的实验中,我们使用1,500和9,000个数据实例的减少数据集来模仿现实世界的条件。使用相同的缩小数据集,我们培训了两组机器学习模型:那些随着转移学习的培训和从头开始培训的机器学习模型。使用四台机器学习模型进行实验。在相同的应用领域(地震学)以及相互不同的应用领域(地震,语音,医学,金融)之间进行知识转移。我们在训练期间遵守模型的预测性能和收敛速度。为了确认所获得的结果的有效性,我们重复了实验七次并应用了统计测试以确认结果的重要性。我们研究的一般性结论是转移学习可能会增加或不会对模型的预测性能或其收敛速度产生负面影响。在更多细节中分析收集的数据,以确定哪些源域和目标域兼容以用于传输知识。我们还分析了目标数据集大小的效果和模型的选择及其超参数对转移学习的影响。
translated by 谷歌翻译
This paper describes Tacotron 2, a neural network architecture for speech synthesis directly from text. The system is composed of a recurrent sequence-to-sequence feature prediction network that maps character embeddings to mel-scale spectrograms, followed by a modified WaveNet model acting as a vocoder to synthesize time-domain waveforms from those spectrograms. Our model achieves a mean opinion score (MOS) of 4.53 comparable to a MOS of 4.58 for professionally recorded speech. To validate our design choices, we present ablation studies of key components of our system and evaluate the impact of using mel spectrograms as the conditioning input to WaveNet instead of linguistic, duration, and F0 features. We further show that using this compact acoustic intermediate representation allows for a significant reduction in the size of the WaveNet architecture.
translated by 谷歌翻译
将音频分离成不同声音源的深度学习技术面临着几种挑战。标准架构需要培训不同类型的音频源的独立型号。虽然一些通用分离器采用单个模型来靶向多个来源,但它们难以推广到看不见的来源。在本文中,我们提出了一个三个组件的管道,可以从大型但弱标记的数据集:audioset训练通用音频源分离器。首先,我们提出了一种用于处理弱标记训练数据的变压器的声音事件检测系统。其次,我们设计了一种基于查询的音频分离模型,利用此数据进行模型培训。第三,我们设计一个潜在的嵌入处理器来编码指定用于分离的音频目标的查询,允许零拍摄的概括。我们的方法使用单一模型进行多种声音类型的源分离,并仅依赖于跨标记的培训数据。此外,所提出的音频分离器可用于零拍摄设置,学习以分离从未在培训中看到的音频源。为了评估分离性能,我们在侦察中测试我们的模型,同时在不相交的augioset上培训。我们通过对从训练中保持的音频源类型进行另一个实验,进一步通过对训练进行了另一个实验来验证零射性能。该模型在两种情况下实现了对当前监督模型的相当的源 - 失真率(SDR)性能。
translated by 谷歌翻译
Music discovery services let users identify songs from short mobile recordings. These solutions are often based on Audio Fingerprinting, and rely more specifically on the extraction of spectral peaks in order to be robust to a number of distortions. Few works have been done to study the robustness of these algorithms to background noise captured in real environments. In particular, AFP systems still struggle when the signal to noise ratio is low, i.e when the background noise is strong. In this project, we tackle this problematic with Deep Learning. We test a new hybrid strategy which consists of inserting a denoising DL model in front of a peak-based AFP algorithm. We simulate noisy music recordings using a realistic data augmentation pipeline, and train a DL model to denoise them. The denoising model limits the impact of background noise on the AFP system's extracted peaks, improving its robustness to noise. We further propose a novel loss function to adapt the DL model to the considered AFP system, increasing its precision in terms of retrieved spectral peaks. To the best of our knowledge, this hybrid strategy has not been tested before.
translated by 谷歌翻译
呼吸声分类中的问题已在去年的临床科学家和医学研究员团体中获得了良好的关注,以诊断Covid-19疾病。迄今为止,各种模型的人工智能(AI)进入了现实世界,从人类生成的声音等人生成的声音中检测了Covid-19疾病,例如语音/言语,咳嗽和呼吸。实现卷积神经网络(CNN)模型,用于解决基于人工智能(AI)的机器上的许多真实世界问题。在这种情况下,建议并实施一个维度(1D)CNN,以诊断Covid-19的呼吸系统疾病,例如语音,咳嗽和呼吸。应用基于增强的机制来改善Covid-19声音数据集的预处理性能,并使用1D卷积网络自动化Covid-19疾病诊断。此外,使用DDAE(数据去噪自动编码器)技术来产生诸如输入功能的深声特征,而不是采用MFCC(MEL频率跳跃系数)的标准输入,并且它更好地执行比以前的型号的准确性和性能。
translated by 谷歌翻译