智能论文笔记

SD-LayerNet: Semi-supervised retinal layer segmentation in OCT using disentangled representation with anatomical priors

Botond Fazekas , Guilherme Aresta , Dmitrii Lachinov , Sophie Riedl , Julia Mai , Ursula Schmidt-Erfurth , Hrvoje Bogunovic

分类：计算机视觉

2022-07-01

光学相干断层扫描（OCT）是一种非侵入性的3D模态，广泛用于视网膜的眼科。在OCT上实现自动化的解剖学视网膜层分割对于检测和监测不同视网膜疾病（如年龄相关的黄斑病（AMD）或糖尿病性视网膜病）很重要。但是，大多数最先进的层分割方法基于纯监督的深度学习，需要大量的像素级注释数据，这些数据昂贵且难以获得。考虑到这一点，我们将半监督的范式介绍到视网膜层分割任务中，该任务利用大规模未标记数据集中存在的信息以及解剖学先验。特别是，一种新型的完全可区分的方法用于将表面位置回归转换为像素结构化分割，从而使以耦合方式同时使用1D表面和2D层表示来训练模型。特别是，这些2D分割被用作解剖因素，与学习的样式因子一起组成了用于重建输入图像的分离表示。同时，我们建议一组解剖学先验，以改善有限的标记数据时，可以改善网络训练。我们在使用中间和湿amd的现实世界中的扫描数据集上证明了我们的方法在使用我们的完整训练集时优于最先进带有标记数据的一部分。

translated by 谷歌翻译

Contrastive Audio-Language Learning for Music

Ilaria Manco , Emmanouil Benetos , Elio Quinton , György Fazekas

分类：自然语言处理 | 机器学习

2022-08-25

作为人类已知的最直观的界面之一，自然语言有可能调解许多涉及人类计算机互动的任务，尤其是在音乐信息检索等以应用程序为中心的领域。在这项工作中，我们探索了跨模式学习，以试图在音乐领域弥合音频和语言。为此，我们提出了Muscall，这是音乐对比的音频学习框架。我们的方法由双重编码架构组成，该体系结构了解音乐音频和描述性句子对之间的对齐方式，生成可用于文本到原告和音频到文本检索的多模式嵌入。多亏了这个属性，肌肉几乎可以转移到任何可以作为基于文本检索的任务转移到任何任务。我们的实验表明，我们的方法在检索音频时的性能要比基线要好得多，该音频与文本描述匹配，相反，与音频查询匹配的文本。我们还证明，我们的模型的多模式对齐能力可以成功扩展到零摄像转移方案，用于流派分类和在两个公共数据集上自动标记。

translated by 谷歌翻译

HTML版本

Local distance preserving auto-encoders using Continuous k-Nearest Neighbours graphs

Nutan Chen , Patrick van der Smagt , Botond Cseke

分类：机器学习

2022-06-13

保留数据中相似性的自动编码器模型是表示学习中的流行工具。在本文中，我们介绍了几种自动编码器模型，这些模型在从数据空间到潜在空间的映射时可以保留本地距离。我们使用局部距离保留损失，该损失基于连续的K-Nearthiend邻居图，该图已知可以同时捕获所有尺度的拓扑特征。为了提高培训绩效，我们将学习作为约束优化问题，并保存本地距离，作为主要目标和重建精度作为约束。我们将这种方法推广到分层变分自动编码器，从而学习具有几何一致的潜在和数据空间的生成模型。我们的方法在几个标准数据集和评估指标上提供了最先进的性能。

translated by 谷歌翻译

Differentiable Time-Frequency Scattering on GPU

John Muradeli , Cyrus Vahidi , Changhong Wang , Han Han , Vincent Lostanlen , Mathieu Lagrange , George Fazekas

分类：机器学习

2022-04-18

联合时频散射（JTFS）是时频域中的卷积算子，以各种速率和尺度提取光谱调制。它提供了原发性听觉皮层中光谱接收场（STRF）的理想化模型，因此可以作为孤立音频事件规模的人类感知判断的生物学合理替代物。然而，JTFS和STRF的先前实现仍然不在音频生成的知觉相似性度量和评估方法的标准工具包中。我们将此问题追溯到三个局限性：不同的性能，速度和灵活性。在本文中，我们提出了Python中时间频率散射的实现。与先前的实现不同，我们的将Numpy，Pytorch和Tensorflow作为后端可容纳，因此可以在CPU和GPU上移植。我们通过三个应用说明了JTF的有用性：光谱调制的无监督流形学习，乐器的监督分类以及生物声音的质地重新合成。

translated by 谷歌翻译

Optimal high-dimensional and nonparametric distributed testing under communication constraints

Botond Szabó , Lasse Vuursteen , Harry van Zanten

分类： (统计)机器学习

2022-02-02

我们在分布式框架中得出最小值测试错误，其中数据被分成多个机器，并且它们与中央机器的通信仅限于$ b $位。我们研究了高斯白噪声下的$ d $ - 和无限维信号检测问题。我们还得出达到理论下限的分布式测试算法。我们的结果表明，分布式测试受到从根本上不同的现象，这些现象在分布式估计中未观察到。在我们的发现中，我们表明，可以访问共享随机性的测试协议在某些制度中的性能比不进行的测试协议可以更好地表现。我们还观察到，即使仅使用单个本地计算机上可用的信息，一致的非参数分布式测试始终是可能的，即使只有$ 1 $的通信和相应的测试优于最佳本地测试。此外，我们还得出了自适应非参数分布测试策略和相应的理论下限。

translated by 谷歌翻译

Learning music audio representations via weak language supervision

Ilaria Manco , Emmanouil Benetos , Elio Quinton , Gyorgy Fazekas

分类：自然语言处理 | 机器学习

2021-12-08

音乐信息检索的音频表示通常通过以特定于任务的方式通过监督学习来学习。虽然有效地产生最先进的结果，但该方案对于模型可以具有并且需要广泛的注释数据集的应用范围缺乏灵活性。在这项工作中，我们构成了是否可以利用弱对齐文本作为唯一用于学习通用音频音频表示的监督信号的问题。为了解决这个问题，我们设计了通过一组代理任务优化的音乐和语言预训练（Mulap）的多模式架构。弱监管以嘈杂的自然语言描述形式传达轨道的整体音乐纪念。在预训练之后，我们将模型的音频骨干转换为一组音乐音频分类和回归任务。我们通过比较通过不同培训策略产生的相同音频骨干声音产生的音频表示的性能并表明我们的预训练方法始终如一地实现所有任务和数据集所考虑的可比分数，因此证明了我们的方法。我们的实验还证实，Mulap有效利用音频标题对，以学习与文献中的音频和跨模型自我监督方法具有竞争力的表示。

translated by 谷歌翻译

A new baseline for retinal vessel segmentation: Numerical identification and correction of methodological inconsistencies affecting 100+ papers

György Kovács , Attila Fazekas

分类：计算机视觉 | 机器学习

2021-11-06

在过去的15年中，视网膜图像中的船只的分割已成为医学成像中的强烈研究问题，其中数百种算法发布。血管分割技术的DE事实上基准数据集之一是驱动数据集。由于驱动器包含训练和测试图像的预定义分割，因此各种分段技术的公布性能结果应提供算法的可靠排名。在该研究中包括超过100篇论文，我们对公布性能分数的一致性进行了详细的数值分析。我们发现与使用视野（FOV）相关的报告分数不一致，这对性能分数产生了重大影响。我们试图消除使用数值技术来提供偏差，以提供最逼真的现实情况。根据结果，我们制定了几种调查结果，最值得注意的是：尽管有明确定义的试验集，所公布论文中的大多数排名都基于非比较的数字;与文献中报告的近乎完善的准确度分数相反，迄今为止所达到的最高精度分数在FOV区域中为0.9582，比人类注释器高出1％。我们开发用于识别和消除评估偏差的方法可以很容易地应用于可能出现类似问题的其他域。

translated by 谷歌翻译

Analyzing hierarchical multi-view MRI data with StaPLR: An application to Alzheimer's disease classification

Wouter van Loon , Frank de Vos , Marjolein Fokkema , Botond Szabo , Marisa Koini , Reinhold Schmidt , Mark de Rooij

分类：机器学习 | (统计)机器学习

2021-08-12

多视图数据是指特征被分成特征集的设置，例如因为它们对应于不同的源。堆叠惩罚的逻辑回归（Staplr）是最近引入的方法，可用于分类并自动选择对预测最重要的视图。我们将此方法的扩展引入到数据具有分层多视图结构的位置。我们还为STAPLR介绍了一个新的视图重要性措施，这使我们能够比较层次结构的任何级别的视图的重要性。我们将扩展的STAPLR算法应用于Alzheimer的疾病分类，其中来自三种扫描类型的不同MRI措施：结构MRI，扩散加权MRI和休息状态FMRI。Staplr可以识别哪种扫描类型以及MRI措施对于分类最重要，并且在分类性能方面优于弹性净回归。

translated by 谷歌翻译

Constrained Probabilistic Movement Primitives for Robot Trajectory Adaptation

Felix Frank , Alexandros Paraschos , Patrick van der Smagt , Botond Cseke

分类：机器人

2021-01-29

将机器人放置在受控条件外，需要多功能的运动表示，使机器人能够学习新任务并使其适应环境变化。在工作区中引入障碍或额外机器人的位置，由于故障或运动范围限制导致的关节范围的修改是典型的案例，适应能力在安全地执行机器人任务的关键作用。已经提出了代表适应性运动技能的概率动态（PROMP），其被建模为轨迹的高斯分布。这些都是在分析讲道的，可以从少数演示中学习。然而，原始PROMP制定和随后的方法都仅为特定运动适应问题提供解决方案，例如障碍避免，以及普遍的，统一的适应概率方法缺失。在本文中，我们开发了一种用于调整PROMP的通用概率框架。我们统一以前的适应技术，例如，各种类型的避避，通过一个框架，互相避免，在一个框架中，并将它们结合起来解决复杂的机器人问题。另外，我们推导了新颖的适应技术，例如时间上未结合的通量和互相避免。我们制定适应作为约束优化问题，在那里我们最小化适应的分布与原始原始的分布之间的kullback-leibler发散，而我们限制了与不希望的轨迹相关的概率质量为低电平。我们展示了我们在双机器人手臂设置中的模拟平面机器人武器和7-DOF法兰卡 - Emika机器人的若干适应问题的方法。

translated by 谷歌翻译

A novel dataset for the identification of computer generated melodies in the CSMT challenge

Shengchen Li , Yinji Jing , György Fazekas

分类：机器学习

2020-12-07

在本文中，介绍了用于音乐和音乐技术会议（CSMT）组织的数据挑战的数据集。CSMT数据挑战要求参与者识别给定的旋律是否由计算机生成或由人类组成。数据集由两个部分组成：开发数据集和评估数据集。开发数据集仅包含计算机生成的旋转，而评估数据集包含计算机生成的旋律和人类组成的旋律。数据集的目的是通过学习产生的旋律的特征来检查是否可以区分计算机生成的旋律。

translated by 谷歌翻译