智能论文笔记

自从近年来，自我监督的方法已成为代表性学习的有前途的途径，因为它们减轻了对被标记的数据集的需求，这些数据集的需求稀缺又昂贵。对比方法是在音频域中自学的流行选择，通常通过强迫模型不变到输入的某些转换来提供学习信号。但是，这些方法需要采取诸如阴性采样或某种形式的正则化之类的措施，以防止模型在琐碎的溶液上崩溃。在这项工作中，我们建议使用均衡性作为一个自我判断信号，以从未标记的数据中学习音频节奏表示。我们得出一个简单的损耗函数，可防止网络在训练过程中崩溃，而无需任何形式的正则化或负抽样。我们的实验表明，可以通过仅依靠模棱两可的自学意义来学习有意义的速度估计表示，从而实现与几种基准上有监督的方法相当的性能。为了额外的好处，我们的方法仅需要适度的计算资源，因此，广泛的研究社区仍然可以使用。

translated by 谷歌翻译

作为人类已知的最直观的界面之一，自然语言有可能调解许多涉及人类计算机互动的任务，尤其是在音乐信息检索等以应用程序为中心的领域。在这项工作中，我们探索了跨模式学习，以试图在音乐领域弥合音频和语言。为此，我们提出了Muscall，这是音乐对比的音频学习框架。我们的方法由双重编码架构组成，该体系结构了解音乐音频和描述性句子对之间的对齐方式，生成可用于文本到原告和音频到文本检索的多模式嵌入。多亏了这个属性，肌肉几乎可以转移到任何可以作为基于文本检索的任务转移到任何任务。我们的实验表明，我们的方法在检索音频时的性能要比基线要好得多，该音频与文本描述匹配，相反，与音频查询匹配的文本。我们还证明，我们的模型的多模式对齐能力可以成功扩展到零摄像转移方案，用于流派分类和在两个公共数据集上自动标记。

translated by 谷歌翻译

Learning music audio representations via weak language supervision

Ilaria Manco , Emmanouil Benetos , Elio Quinton , Gyorgy Fazekas

分类：自然语言处理 | 机器学习

2021-12-08

音乐信息检索的音频表示通常通过以特定于任务的方式通过监督学习来学习。虽然有效地产生最先进的结果，但该方案对于模型可以具有并且需要广泛的注释数据集的应用范围缺乏灵活性。在这项工作中，我们构成了是否可以利用弱对齐文本作为唯一用于学习通用音频音频表示的监督信号的问题。为了解决这个问题，我们设计了通过一组代理任务优化的音乐和语言预训练（Mulap）的多模式架构。弱监管以嘈杂的自然语言描述形式传达轨道的整体音乐纪念。在预训练之后，我们将模型的音频骨干转换为一组音乐音频分类和回归任务。我们通过比较通过不同培训策略产生的相同音频骨干声音产生的音频表示的性能并表明我们的预训练方法始终如一地实现所有任务和数据集所考虑的可比分数，因此证明了我们的方法。我们的实验还证实，Mulap有效利用音频标题对，以学习与文献中的音频和跨模型自我监督方法具有竞争力的表示。

translated by 谷歌翻译

自组织的聚合是群体机器人技术的一种精心研究的行为，因为它是开发更先进的组级响应的前提。在本文中，我们研究了分散算法的设计，用于在不同的目标位点上自我聚集的一群异质机器人。先前的研究表明，包括作为群体的一部分，许多知情的机器人可以将聚合过程的动态引导到可用聚合位点之间群体的理想分布。我们使用简化的方法复制了先前研究的结果：我们删除了与机器人的通信协议相关的约束，并简化了调节概率控制器状态之间过渡的控制机制。结果表明，可以使用我们的简化方法来复制以先前，更复杂的控制器获得的性能，该方法在物理机器人的便携性和灵活性方面具有明显的优势。也就是说，与复杂控制器相比，我们简化的方法可以在更大的操作条件下产生自组织的聚合响应。

translated by 谷歌翻译