尽管表示学习对于机器学习和人工智能的兴起至关重要,但仍有一个关键问题在使学习的表示有意义。为此,典型的方法是通过先前的概率分布正规化学习的表示形式。但是,这样的先验通常不可用或临时。为了解决这个问题,我们提出了一个动态约束的表示学习框架。我们不使用预定义的概率,而是将潜在表示限制为遵循特定的动力学,这是在动态系统中的表示形式学习的更自然的约束。我们的信念源于物理学的基本观察,尽管不同的系统可以具有不同的边缘化概率分布,但它们通常遵守相同的动态,例如牛顿和施罗宾格的方程。我们验证了不同系统的框架,包括真实的荧光DNA电影数据集。我们表明,我们的算法可以唯一识别不相关的,等距和有意义的潜在表示。
translated by 谷歌翻译
保留数据中相似性的自动编码器模型是表示学习中的流行工具。在本文中,我们介绍了几种自动编码器模型,这些模型在从数据空间到潜在空间的映射时可以保留本地距离。我们使用局部距离保留损失,该损失基于连续的K-Nearthiend邻居图,该图已知可以同时捕获所有尺度的拓扑特征。为了提高培训绩效,我们将学习作为约束优化问题,并保存本地距离,作为主要目标和重建精度作为约束。我们将这种方法推广到分层变分自动编码器,从而学习具有几何一致的潜在和数据空间的生成模型。我们的方法在几个标准数据集和评估指标上提供了最先进的性能。
translated by 谷歌翻译
神经网络在许多科学学科中发挥着越来越大的作用,包括物理学。变形AutoEncoders(VAE)是能够表示在低维潜空间中的高维数据的基本信息,该神经网络具有概率解释。特别是所谓的编码器网络,VAE的第一部分,其将其输入到潜伏空间中的位置,另外在该位置的方差方面提供不确定性信息。在这项工作中,介绍了对AutoEncoder架构的扩展,渔民。在该架构中,借助于Fisher信息度量,不使用编码器中的附加信息信道生成潜在空间不确定性,而是从解码器导出。这种架构具有来自理论观点的优点,因为它提供了从模型的直接不确定性量化,并且还考虑不确定的交叉相关。我们可以通过实验表明,渔民生产比可比较的VAE更准确的数据重建,并且其学习性能也明显较好地缩放了潜伏空间尺寸的数量。
translated by 谷歌翻译
我们介绍了一种从高维时间序列数据学习潜在随机微分方程(SDES)的方法。考虑到从较低维潜在未知IT \ ^ O过程产生的高维时间序列,所提出的方法通过自我监督的学习方法学习从环境到潜在空间的映射和潜在的SDE系数。使用变形AutiaceOders的框架,我们考虑基于SDE解决方案的Euler-Maruyama近似的数据的条件生成模型。此外,我们使用最近的结果对潜在变量模型的可识别性来表明,所提出的模型不仅可以恢复底层的SDE系数,还可以在无限数据的极限中恢复底层的SDE系数,也可以最大潜在潜在变量。我们通过多个模拟视频处理任务验证方法,其中底层SDE是已知的,并通过真实的世界数据集。
translated by 谷歌翻译
以无监督的方式从高维领域提取生成参数的能力是计算物理学中的非常理想尚未实现的目标。这项工作探讨了用于非线性尺寸降低的变形Autiachoders(VAES),其特定目的是{\ EM解散}的特定目标,以识别生成数据的独立物理参数。解除戒开的分解是可解释的,并且可以转移到包括生成建模,设计优化和概率减少阶级型建模的各种任务。这项工作的重大重点是使用VAE来表征解剖学,同时最小地修改经典的VAE损失功能(即证据下限)以保持高重建精度。损耗景观的特点是过度正常的局部最小值,其环绕所需的解决方案。我们通过在模型多孔流量问题中并列在模拟潜在分布和真正的生成因子中,说明了分解和纠缠符号之间的比较。展示了等级前瞻,促进了解除不诚实的表现的学习。在用旋转不变的前沿训练时,正则化损失不受潜在的旋转影响,从而学习非旋转不变的前锋有助于捕获生成因子的性质,改善解剖学。最后,表明通过标记少量样本($ O(1 \%)$)来实现半监督学习 - 导致可以一致地学习的准确脱屑潜在的潜在表示。
translated by 谷歌翻译
矢量量化变量自动编码器(VQ-VAE)是基于数据的离散潜在表示的生成模型,其中输入映射到有限的学习嵌入式集合。要生成新样品,必须对离散状态进行自动介绍的先验分布。分别地。这一先验通常非常复杂,并导致生成缓慢。在这项工作中,我们提出了一个新模型,以同时训练先验和编码器/解码器网络。我们在连续编码的向量和非信息性先验分布之间建立扩散桥。然后将潜在离散状态作为这些连续向量的随机函数。我们表明,我们的模型与迷你imagenet和Cifar数据集的自动回归先验具有竞争力,并且在优化和采样方面都有效。我们的框架还扩展了标准VQ-VAE,并可以启用端到端培训。
translated by 谷歌翻译
异常检测是指识别偏离正常模式的观察,这是各个领域的活跃研究区域。最近,数据量表越来越多,复杂性和维度将传统的表示和基于统计的异常检测方法变得具有挑战性。在本文中,我们利用了高光谱图像异常检测的生成模型。 GIST是模拟正常数据的分布,而分布外样品可以被视为异常值。首先,研究了基于变分的基于异常的检测方法。理论上和经验地发现它们由于距离强烈的概念($ F $ -divergence)作为正则化而不稳定。其次,本文介绍了切片的Wasserstein距离,与F分歧相比,这是一种较弱的分布措施。然而,随机切片的数量难以估计真正的距离。最后,我们提出了一个投影的切片Wasserstein(PSW)基于AutoEncoder的异常筛选方法。特别是,我们利用计算友好的特征分解方法来找到切片高维数据的主成分。此外,我们所提出的距离可以用闭合形式计算,即使是先前的分布也不是高斯。在各种现实世界高光谱异常检测基准上进行的综合实验证明了我们提出的方法的卓越性能。
translated by 谷歌翻译
我们开发了包含几何信息和拓扑信息的数据驱动方法,以从观察值中学习非线性动力学的简约表示。我们开发了使用与变异自动编码器(VAE)相关的训练策略来学习一般歧管潜在空间动力学的非线性状态空间模型的方法。我们的方法称为几何动力学(GD)变化自动编码器(GD-VAE)。我们根据包括一般多层感知器(MLP),卷积神经网络(CNNS)和转置CNN(T-CNN)在内的深层神经网络体系结构学习系统状态和进化的编码器和分解器。由参数化的PDE和物理学引起的问题的促进,我们研究了我们在学习非线性汉堡方程,约束机械系统和反应扩散系统的空间场的低维表示任务方面的性能。 GD-VAE提供了用于获取表示涉及动态任务的表示形式的方法。
translated by 谷歌翻译
了解生物分子的动力学和热力学概况是为了了解其在机制驱动药物发现中具有重大影响的功能作用。分子动力学模拟已经常规地用于了解生物分子的构象动态和分子识别。来自分子动力学模拟产生的高维时空数据的统计分析需要识别几个低维变量,这可以描述系统的基本动态,而无需显着损失信息。在物理化学中,这些低维变量通常称为集体变量。集体变量用于产生可减少的自由能表面的表示,并计算不同亚稳态盆地之间的过渡概率。然而,复杂系统的集体变量的选择并不琐碎。集体变量范围从几何标准等距离,Dihedral角度到抽象的标准,例如诸如多个几何变量的加权线性组合的抽象线性组合。机器学习算法的出现导致越来越多地利用抽象集体变量来代表生物分子动态。在本次审查中,我将突出几个常用的集体变量的几个细微差别,范围从几何到抽象的变量。此外,我将提出一些情况,其中基于机器学习的集体变量来描述原则上的简单系统可以由几何可以描述。最后,我将提出我对人工综合情报的思考以及如何用于发现和预测来自分子动力学模拟产生的时空数据的集体变量。
translated by 谷歌翻译
虽然变形式自动泊车在多个任务中成功,但是使用传统前沿的使用是限于编码输入数据的底层结构的能力。我们介绍了一个被编码的先前切片的Wasserstein AutoEncoder,其中另外的先前编码器网络学会了数据歧管的嵌入,该数据歧管保留数据的拓扑和几何属性,从而提高了潜在空间的结构。使用切片的Wassersein距离迭代培训AutoEncoder和先前编码器网络。通过沿着大学探测器的内插来遍历潜伏空间来探讨所学习歧管编码的有效性,该测量空间产生位于数据歧管上的样本,因此与欧几里德插值相比更令人逼真。为此,我们介绍一种基于图形的算法,用于探索数据歧管,并通过沿着路径的样本密度最大化,同时最小化总能量,沿着潜在空间内插入潜伏空间。我们使用3D螺旋数据来表明先前对数据不同的几何形状,与传统的自动化器不同,并通过网络算法展示嵌入式数据歧管的探索。我们将框架应用于基准图像数据集,以演示在异常生成,潜在结构和测地插值中学习数据表示的优势。
translated by 谷歌翻译
用冷冻电子显微镜(Cryo-EM)溶液中生物分子高分辨率成像的近期突破已经解锁了用于重建分子体积的新门,从而有望在其他人之间进一步进一步进展。尽管有很大的入脚,但Cryo-EM数据分析中的巨大挑战仍然是军团和错综复杂的自然间学科,需要物理学家,结构生物学家,计算机科学家,统计学家和应用数学家的见解。同时,最近的下一代卷重建算法与端到端无监督的深度学习技术相结合的生成建模已经显示了对模拟数据的有希望的结果,但在应用于实验Cryo-EM图像时仍然面临相当大的障碍。鉴于此类方法的增殖并鉴于任务的跨学科性质,我们提出了对高分辨率低分辨率建模领域的最近进步的批判性审查。目前的审查旨在(i)比较和对比这些新方法,而(ii)将它们从透视和使用科学家熟悉的术语呈现出来,在任何五个上述领域中没有Cryo-Em中没有具体的背景。审查始于引言介绍低温 - EM批量重建的深度生成模型的数学和计算挑战,同时概述了这类算法中共享的基线方法。通过这些不同的模型建立了常见的线程编织,我们提供了这些最先进的算法的实际比较,突出了它们的相对优势和劣势以及它们依赖的假设。这使我们能够识别当前方法和途径的瓶颈,以便将来的研究。
translated by 谷歌翻译
在没有监督信号的情况下学习简洁的数据表示是机器学习的基本挑战。实现此目标的一种突出方法是基于可能性的模型,例如变异自动编码器(VAE),以基于元元素来学习潜在表示,这是对下游任务有益的一般前提(例如,disentanglement)。但是,这种方法通常偏离原始的可能性体系结构,以应用引入的元优势,从而导致他们的培训不良变化。在本文中,我们提出了一种新颖的表示学习方法,Gromov-Wasserstein自动编码器(GWAE),该方法与潜在和数据分布直接匹配。 GWAE模型不是基于可能性的目标,而是通过最小化Gromov-Wasserstein(GW)度量的训练优化。 GW度量测量了在无与伦比的空间上支持的分布之间的面向结构的差异,例如具有不同的维度。通过限制可训练的先验的家庭,我们可以介绍元主题来控制下游任务的潜在表示。与现有基于VAE的方法的经验比较表明,GWAE模型可以通过更改先前的家族而无需进一步修改GW目标来基于元家庭学习表示。
translated by 谷歌翻译
We introduce Embed to Control (E2C), a method for model learning and control of non-linear dynamical systems from raw pixel images. E2C consists of a deep generative model, belonging to the family of variational autoencoders, that learns to generate image trajectories from a latent space in which the dynamics is constrained to be locally linear. Our model is derived directly from an optimal control formulation in latent space, supports long-term prediction of image sequences and exhibits strong performance on a variety of complex control problems.
translated by 谷歌翻译
近年来,由于其对复杂分布进行建模的能力,深层生成模型引起了越来越多的兴趣。在这些模型中,变异自动编码器已被证明是计算有效的,并且在多个领域中产生了令人印象深刻的结果。在这一突破之后,为了改善原始出版物而进行了广泛的研究,从而导致各种不同的VAE模型响应不同的任务。在本文中,我们介绍了Pythae,这是一个多功能的开源Python库,既可以提供统一的实现和专用框架,允许直接,可重现且可靠地使用生成自动编码器模型。然后,我们建议使用此库来执行案例研究基准测试标准,在其中我们介绍并比较了19个生成自动编码器模型,代表了下游任务的一些主要改进,例如图像重建,生成,分类,聚类,聚类和插值。可以在https://github.com/clementchadebec/benchmark_vae上找到开源库。
translated by 谷歌翻译
我们采用变化性AutoEncoders从单粒子Anderson杂质模型谱函数的数据集中提取物理洞察。培训AutoEncoders以查找低维,潜在的空间表示,其忠实地表征培训集的每个元素,通过重建误差测量。变形式自动化器,标准自动化器的概率概括,进一步条件促进了高度可解释的特征。在我们的研究中,我们发现学习的潜在变量与众所周知的众所周知,但非活动的参数强烈关联,这些参数表征了安德森杂质模型中的紧急行为。特别地,一种潜在的可变变量与粒子孔不对称相关,而另一个潜在的变量与杂质模型中动态产生的低能量尺度接近一对一的对应关系。使用符号回归,我们将此变量模拟了该变量作为已知的裸物理输入参数和“重新发现”的kondo温度的非扰动公式。我们开发的机器学习管道表明了一种通用方法,它开启了发现其他物理系统中的新领域知识的机会。
translated by 谷歌翻译
最近提出的一类模型试图使用哈密顿力学所通知的前沿,从高维观察中学习潜在动态的潜在动态。虽然这些模型在机器人或自主驾驶等领域具有重要潜在应用,但目前没有好方法来评估它们的性能:现有方法主要依赖于图像重建质量,这并不总是反映学习潜在动态的质量。在这项工作中,我们经验突出了现有措施的问题,并制定了一套新措施,包括依赖母亲哈密顿动态的二进制指标,我们称之为符号度量或次称。我们的措施利用了汉密尔顿动态的已知属性,并且更符合模型捕获潜在动态的能力而不是重建误差。使用Symetric,我们识别一组架构选择,可以显着提高先前提出的模型的性能,用于从像素,Hamiltonian生成网络(HGN)从像素推断潜在动态。与原始HGN不同,新的HGN ++能够在某些数据集中发现具有物理有意义的潜伏的可解释的相位空间。此外,它在不同范围的13个数据集上的卷展栏上是稳定的,在一个不同的13个数据集上产生基本上无限长度的卷展栏,在数据集的子集上没有质量下降。
translated by 谷歌翻译
带有变异自动编码器(VAE)的学习分解表示通常归因于损失的正则化部分。在这项工作中,我们强调了数据与损失的重建项之间的相互作用,这是VAE中解散的主要贡献者。我们注意到,标准化的基准数据集的构建方式有利于学习似乎是分解的表示形式。我们设计了一个直观的对抗数据集,该数据集利用这种机制破坏了现有的最新分解框架。最后,我们提供了一种解决方案,可以通过修改重建损失来实现分离,从而影响VAES如何感知数据点之间的距离。
translated by 谷歌翻译
标准化流动,扩散归一化流量和变形自动置换器是强大的生成模型。在本文中,我们提供了一个统一的框架来通过马尔可夫链处理这些方法。实际上,我们考虑随机标准化流量作为一对马尔可夫链,满足一些属性,并表明许多用于数据生成的最先进模型适合该框架。马尔可夫链的观点使我们能够将确定性层作为可逆的神经网络和随机层作为大都会加速层,Langevin层和变形自身偏移,以数学上的声音方式。除了具有Langevin层的密度的层,扩散层或变形自身形式,也可以处理与确定性层或大都会加热器层没有密度的层。因此,我们的框架建立了一个有用的数学工具来结合各种方法。
translated by 谷歌翻译
本文通过采取完全几何学的角度引入了对变异自动编码器框架的新解释。我们认为,香草vae自然而然地揭示了其潜在空间中的riemannian结构,并且考虑到这些几何方面可以导致更好的插值和改进的生成程序。这种新提出的采样方法包括从统一分布中的采样组成,该分布本质地从学到的利曼式潜在空间中得出,我们表明,使用此方案可以使香草VAE竞争性且比几个基准数据集中更先进的版本更好。由于已知生成模型对训练样品的数量很敏感,因此我们还强调了该方法在低数据状态下的鲁棒性。
translated by 谷歌翻译
在这项工作中,我们为生成自动编码器的变异培训提供了确切的可能性替代方法。我们表明,可以使用可逆层来构建VAE风格的自动编码器,该层提供了可拖动的精确可能性,而无需任何正则化项。这是在选择编码器,解码器和先前体系结构的全部自由的同时实现的,这使我们的方法成为培训现有VAE和VAE风格模型的替换。我们将结果模型称为流中的自动编码器(AEF),因为编码器,解码器和先验被定义为整体可逆体系结构的单个层。我们表明,在对数可能,样本质量和降低性能的方面,该方法的性能比结构上等效的VAE高得多。从广义上讲,这项工作的主要野心是在共同的可逆性和确切的最大可能性的共同框架下缩小正常化流量和自动编码器文献之间的差距。
translated by 谷歌翻译