自从近年来,自我监督的方法已成为代表性学习的有前途的途径,因为它们减轻了对被标记的数据集的需求,这些数据集的需求稀缺又昂贵。对比方法是在音频域中自学的流行选择,通常通过强迫模型不变到输入的某些转换来提供学习信号。但是,这些方法需要采取诸如阴性采样或某种形式的正则化之类的措施,以防止模型在琐碎的溶液上崩溃。在这项工作中,我们建议使用均衡性作为一个自我判断信号,以从未标记的数据中学习音频节奏表示。我们得出一个简单的损耗函数,可防止网络在训练过程中崩溃,而无需任何形式的正则化或负抽样。我们的实验表明,可以通过仅依靠模棱两可的自学意义来学习有意义的速度估计表示,从而实现与几种基准上有监督的方法相当的性能。为了额外的好处,我们的方法仅需要适度的计算资源,因此,广泛的研究社区仍然可以使用。
translated by 谷歌翻译