我们的目标是恢复时间延迟的潜在因果变量,并确定其与测量的时间数据的关系。由于在最常规情况下潜在的变量并不唯一可恢复,估计来自观察的因果关系差别尤其具有挑战性。在这项工作中,我们考虑潜在过程的非参数,非间断设置和参数设置,并提出了两个可提供的条件,在该可提供条件下,可以从其非线性混合物中识别时间上发生因果潜在过程。我们提出了一系列的理论上接地的架构,通过在原因过程中通过适当的约束来实现我们的条件来扩展变形AutoEncoders(VAES)。各种数据集的实验结果表明,在不同依赖结构下,从观察到的变量可靠地识别了时间的因果关系潜在过程,并且我们的方法显着优于不利用历史记录或非间常信息的基线。这是第一种工作之一,即在不使用稀疏性或最小的假设的情况下成功地从非线性混合物中恢复时间延迟潜在的过程之一。
translated by 谷歌翻译
The framework of variational autoencoders allows us to efficiently learn deep latent-variable models, such that the model's marginal distribution over observed variables fits the data. Often, we're interested in going a step further, and want to approximate the true joint distribution over observed and latent variables, including the true prior and posterior distributions over latent variables. This is known to be generally impossible due to unidentifiability of the model. We address this issue by showing that for a broad family of deep latentvariable models, identification of the true joint distribution over observed and latent variables is actually possible up to very simple transformations, thus achieving a principled and powerful form of disentanglement. Our result requires a factorized prior distribution over the latent variables that is conditioned on an additionally observed variable, such as a class label or almost any other observation. We build on recent developments in nonlinear ICA, which we extend to the case with noisy or undercomplete observations, integrated in a maximum likelihood framework. The result also trivially contains identifiable flow-based generative models as a special case.
translated by 谷歌翻译
因果代表学习揭示了低级观察背后的潜在高级因果变量,这对于一组感兴趣的下游任务具有巨大的潜力。尽管如此,从观察到的数据中确定真正的潜在因果表示是一个巨大的挑战。在这项工作中,我们专注于确定潜在的因果变量。为此,我们分析了潜在空间中的三个固有特性,包括传递性,置换和缩放。我们表明,传递性严重阻碍了潜在因果变量的可识别性,而排列和缩放指导指导了识别潜在因果变量的方向。为了打破传递性,我们假设潜在的潜在因果关系是线性高斯模型,其中高斯噪声的权重,平均值和方差受到额外观察到的变量的调节。在这些假设下,我们从理论上表明,潜在因果变量可以识别为微不足道的置换和缩放。基于这个理论结果,我们提出了一种新型方法,称为结构性因果变异自动编码器,该方法直接学习潜在因果变量,以及从潜在因果变量到观察到的映射。关于合成和实际数据的实验结果证明了可识别的结果以及所提出的学习潜在因果变量的能力。
translated by 谷歌翻译
因果表示学习是识别基本因果变量及其从高维观察(例如图像)中的关系的任务。最近的工作表明,可以从观测的时间序列中重建因果变量,假设它们之间没有瞬时因果关系。但是,在实际应用中,我们的测量或帧速率可能比许多因果效应要慢。这有效地产生了“瞬时”效果,并使以前的可识别性结果无效。为了解决这个问题,我们提出了ICITRI,这是一种因果表示学习方法,当具有已知干预目标的完美干预措施时,可以在时间序列中处理瞬时效应。 Icitris从时间观察中识别因果因素,同时使用可区分的因果发现方法来学习其因果图。在三个视频数据集的实验中,Icitris准确地识别了因果因素及其因果图。
translated by 谷歌翻译
从视觉观察中了解动态系统的潜在因果因素被认为是对复杂环境中推理的推理的关键步骤。在本文中,我们提出了Citris,这是一种变异自动编码器框架,从图像的时间序列中学习因果表示,其中潜在的因果因素可能已被干预。与最近的文献相反,Citris利用了时间性和观察干预目标,以鉴定标量和多维因果因素,例如3D旋转角度。此外,通过引入归一化流,可以轻松扩展柑橘,以利用和删除已验证的自动编码器获得的删除表示形式。在标量因果因素上扩展了先前的结果,我们在更一般的环境中证明了可识别性,其中仅因果因素的某些成分受干预措施影响。在对3D渲染图像序列的实验中,柑橘类似于恢复基本因果变量的先前方法。此外,使用预验证的自动编码器,Citris甚至可以概括为因果因素的实例化,从而在SIM到现实的概括中开放了未来的研究领域,以进行因果关系学习。
translated by 谷歌翻译
这项工作介绍了一种新颖的原则,我们通过机制稀疏正规调用解剖学,基于高级概念的动态往往稀疏的想法。我们提出了一种表示学习方法,可以通过同时学习与它们相关的潜在因子和稀疏因果图形模型来引起解剖学。我们开发了一个严谨的可识别性理论,建立在最近的非线性独立分量分析(ICA)结果中,结果是模拟这一原理,并展示了如何恢复潜在变量,如果一个规则大致潜在机制为稀疏,如果某些图形连接标准通过数据生成过程满足。作为我们框架的特殊情况,我们展示了如何利用未知目标的干预措施来解除潜在因子,从而借鉴ICA和因果关系之间的进一步联系。我们还提出了一种基于VAE的方法,其中通过二进制掩码来学习和正规化潜在机制,并通过表明它学会在模拟中的解散表示来验证我们的理论。
translated by 谷歌翻译
非线性独立组件分析(ICA)旨在从可观察到的非线性混合物中回收基本的独立潜在来源。如何使非线性ICA模型可识别到某些微不足道的不确定性是无监督学习的长期问题。鉴于某些辅助变量(例如,类标签和/或域/时间索引)作为弱监督或归纳偏见,最近的突破将源标准独立性作为条件独立性重新制定为条件独立性。但是,具有无条件先验的非线性ICA不能从此类发展中受益。我们探索替代路径,并仅考虑在混合过程中的假设,例如结构稀疏性或独立影响。我们表明,在此类约束的特定实例下,可以从其非线性混合物到置换和零件转换的独立潜在来源,从而实现非线性ICA无辅助变量的非平地可识别性。我们提供估计方法并通过实验验证理论结果。图像数据的结果表明,我们的条件可能存在于许多实际数据生成过程中。
translated by 谷歌翻译
Linear structural causal models (SCMs)-- in which each observed variable is generated by a subset of the other observed variables as well as a subset of the exogenous sources-- are pervasive in causal inference and casual discovery. However, for the task of causal discovery, existing work almost exclusively focus on the submodel where each observed variable is associated with a distinct source with non-zero variance. This results in the restriction that no observed variable can deterministically depend on other observed variables or latent confounders. In this paper, we extend the results on structure learning by focusing on a subclass of linear SCMs which do not have this property, i.e., models in which observed variables can be causally affected by any subset of the sources, and are allowed to be a deterministic function of other observed variables or latent confounders. This allows for a more realistic modeling of influence or information propagation in systems. We focus on the task of causal discovery form observational data generated from a member of this subclass. We derive a set of necessary and sufficient conditions for unique identifiability of the causal structure. To the best of our knowledge, this is the first work that gives identifiability results for causal discovery under both latent confounding and deterministic relationships. Further, we propose an algorithm for recovering the underlying causal structure when the aforementioned conditions are satisfied. We validate our theoretical results both on synthetic and real datasets.
translated by 谷歌翻译
本文提出了在适当的监督信息下进行分解的生成因果代表(亲爱的)学习方法。与实施潜在变量独立性的现有分解方法不同,我们考虑了一种基本利益因素可以因果关系相关的一般情况。我们表明,即使在监督下,先前具有独立先验的方法也无法解散因果关系。在这一发现的激励下,我们提出了一种称为DEAR的新的解开学习方法,该方法可以使因果可控的产生和因果代表学习。这种新公式的关键要素是使用结构性因果模型(SCM)作为双向生成模型的先验分布。然后,使用合适的GAN算法与发电机和编码器共同训练了先验,并与有关地面真相因子及其基本因果结构的监督信息合并。我们提供了有关该方法的可识别性和渐近收敛性的理论理由。我们对合成和真实数据集进行了广泛的实验,以证明DEAR在因果可控生成中的有效性,以及在样本效率和分布鲁棒性方面,学到的表示表示对下游任务的好处。
translated by 谷歌翻译
因果推断对于跨业务参与,医疗和政策制定等领域的数据驱动决策至关重要。然而,关于因果发现的研究已经与推理方法分开发展,从而阻止了两个领域方法的直接组合。在这项工作中,我们开发了深层端到端因果推理(DECI),这是一种基于流动的非线性添加噪声模型,该模型具有观察数据,并且可以执行因果发现和推理,包括有条件的平均治疗效果(CATE) )估计。我们提供了理论上的保证,即DECI可以根据标准因果发现假设恢复地面真实因果图。受应用影响的激励,我们将该模型扩展到具有缺失值的异质,混合型数据,从而允许连续和离散的治疗决策。我们的结果表明,与因果发现的相关基线相比,DECI的竞争性能和(c)在合成数据集和因果机器学习基准测试基准的一千多个实验中,跨数据类型和缺失水平进行了估计。
translated by 谷歌翻译
作为因果推断中的重要问题,我们讨论了治疗效果(TES)的估计。代表混淆器作为潜在的变量,我们提出了完整的VAE,这是一个变形AutoEncoder(VAE)的新变种,其具有足以识别TES的预后分数的动机。我们的VAE也自然地提供了使用其之前用于治疗组的陈述。(半)合成数据集的实验显示在各种环境下的最先进的性能,包括不观察到的混淆。基于我们模型的可识别性,我们在不协调下证明TES的识别,并讨论(可能)扩展到更难的设置。
translated by 谷歌翻译
我们证明了(a)具有通用近似功能的广泛的深层变量模型的可识别性,并且(b)是通常在实践中使用的变异自动编码器的解码器。与现有工作不同,我们的分析不需要弱监督,辅助信息或潜在空间中的条件。最近,研究了此类模型的可识别性。在这些作品中,主要的假设是,还可以观察到辅助变量$ u $(也称为侧面信息)。同时,几项作品从经验上观察到,这在实践中似乎并不是必需的。在这项工作中,我们通过证明具有通用近似功能的广泛生成(即无监督的)模型来解释这种行为,无需侧面信息$ u $:我们证明了整个生成模型的可识别性$ u $,仅观察数据$ x $。我们考虑的模型与实践中使用的自动编码器体系结构紧密连接,该体系结构利用了潜在空间中的混合先验和编码器中的Relu/Leaky-Relu激活。我们的主要结果是可识别性层次结构,该层次结构显着概括了先前的工作,并揭示了不同的假设如何导致可识别性的“优势”不同。例如,我们最薄弱的结果确定了(无监督的)可识别性,直到仿射转换已经改善了现有工作。众所周知,这些模型具有通用近似功能,而且它们已被广泛用于实践中来学习数据表示。
translated by 谷歌翻译
模拟DAG模型可能表现出属性,也许无意中,使其结构识别和意外地影响结构学习算法。在这里,我们表明边缘方差往往沿着仿制性添加添加剂噪声模型的因果顺序增加。我们将Varsortable介绍为衡量衡量边际差异和因果顺序的秩序之间的协议。对于通常采样的图形和模型参数,我们表明,一些连续结构学习算法的显着性能可以通过高的Varsortable解释,并通过简单的基线方法匹配。然而,这种性能可能不会转移到真实世界的数据,其中VARS使性可能是中等或取决于测量尺度的选择。在标准化数据上,相同的算法无法识别地面真理DAG或其Markov等价类。虽然标准化在边缘方差中删除了模式,但我们表明,数据产生过程,其产生高VILS使性也留下了即使在标准化之后也可以利用不同的协方差模式。我们的调查结果挑战了独立绘制参数的通用基准的重要性。代码可在https://github.com/scriddie/varsortable获得。
translated by 谷歌翻译
Latent variable models such as the Variational Auto-Encoder (VAE) have become a go-to tool for analyzing biological data, especially in the field of single-cell genomics. One remaining challenge is the interpretability of latent variables as biological processes that define a cell's identity. Outside of biological applications, this problem is commonly referred to as learning disentangled representations. Although several disentanglement-promoting variants of the VAE were introduced, and applied to single-cell genomics data, this task has been shown to be infeasible from independent and identically distributed measurements, without additional structure. Instead, recent methods propose to leverage non-stationary data, as well as the sparse mechanism shift assumption in order to learn disentangled representations with a causal semantic. Here, we extend the application of these methodological advances to the analysis of single-cell genomics data with genetic or chemical perturbations. More precisely, we propose a deep generative model of single-cell gene expression data for which each perturbation is treated as a stochastic intervention targeting an unknown, but sparse, subset of latent variables. We benchmark these methods on simulated single-cell data to evaluate their performance at latent units recovery, causal target identification and out-of-domain generalization. Finally, we apply those approaches to two real-world large-scale gene perturbation data sets and find that models that exploit the sparse mechanism shift hypothesis surpass contemporary methods on a transfer learning task. We implement our new model and benchmarks using the scvi-tools library, and release it as open-source software at \url{https://github.com/Genentech/sVAE}.
translated by 谷歌翻译
学习分离旨在寻找低维表示,该表示由观察数据的多个解释性和生成因素组成。变异自动编码器(VAE)的框架通常用于将独立因素从观察中解散。但是,在实际情况下,具有语义的因素不一定是独立的。取而代之的是,可能存在基本的因果结构,从而使这些因素取决于这些因素。因此,我们提出了一个名为Causalvae的新的基于VAE的框架,该框架包括一个因果层,将独立的外源性因子转化为因果内源性因素,这些因子与数据中的因果关系相关概念相对应。我们进一步分析了模型,表明从观测值中学到的拟议模型可以在一定程度上恢复真实的模型。实验是在各种数据集上进行的,包括合成和真实的基准Celeba。结果表明,因果关系学到的因果表示是可以解释的,并且其因果关系作为定向无环形图(DAG)的因果关系良好地鉴定出来。此外,我们证明了所提出的Causalvae模型能够通过因果因素的“操作”来生成反事实数据。
translated by 谷歌翻译
结构方程模型(SEM)是一种有效的框架,其原因是通过定向非循环图(DAG)表示的因果关系。最近的进步使得能够从观察数据中实现了DAG的最大似然点估计。然而,在实际场景中,可以不能准确地捕获在推断下面的底层图中的不确定性,其中真正的DAG是不可识别的并且/或观察到的数据集是有限的。我们提出了贝叶斯因果发现网(BCD网),一个变分推理框架,用于估算表征线性高斯SEM的DAG的分布。由于图形的离散和组合性质,开发一个完整的贝叶斯后面是挑战。我们通过表达变分别家庭分析可扩展VI的可扩展VI的关键设计选择,例如1)表达性变分别家庭,2)连续弛豫,使低方差随机优化和3)在潜在变量上具有合适的前置。我们提供了一系列关于实际和合成数据的实验,显示BCD网在低数据制度中的标准因果发现度量上的最大似然方法,例如结构汉明距离。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
We address the problem of unsupervised domain adaptation when the source domain differs from the target domain because of a shift in the distribution of a latent subgroup. When this subgroup confounds all observed data, neither covariate shift nor label shift assumptions apply. We show that the optimal target predictor can be non-parametrically identified with the help of concept and proxy variables available only in the source domain, and unlabeled data from the target. The identification results are constructive, immediately suggesting an algorithm for estimating the optimal predictor in the target. For continuous observations, when this algorithm becomes impractical, we propose a latent variable model specific to the data generation process at hand. We show how the approach degrades as the size of the shift changes, and verify that it outperforms both covariate and label shift adjustment.
translated by 谷歌翻译
我们介绍了一种从高维时间序列数据学习潜在随机微分方程(SDES)的方法。考虑到从较低维潜在未知IT \ ^ O过程产生的高维时间序列,所提出的方法通过自我监督的学习方法学习从环境到潜在空间的映射和潜在的SDE系数。使用变形AutiaceOders的框架,我们考虑基于SDE解决方案的Euler-Maruyama近似的数据的条件生成模型。此外,我们使用最近的结果对潜在变量模型的可识别性来表明,所提出的模型不仅可以恢复底层的SDE系数,还可以在无限数据的极限中恢复底层的SDE系数,也可以最大潜在潜在变量。我们通过多个模拟视频处理任务验证方法,其中底层SDE是已知的,并通过真实的世界数据集。
translated by 谷歌翻译
当前独立于域的经典计划者需要问题域和实例作为输入的符号模型,从而导致知识采集瓶颈。同时,尽管深度学习在许多领域都取得了重大成功,但知识是在与符号系统(例如计划者)不兼容的亚符号表示中编码的。我们提出了Latplan,这是一种无监督的建筑,结合了深度学习和经典计划。只有一组未标记的图像对,显示了环境中允许的过渡子集(训练输入),Latplan学习了环境的完整命题PDDL动作模型。稍后,当给出代表初始状态和目标状态(计划输入)的一对图像时,Latplan在符号潜在空间中找到了目标状态的计划,并返回可视化的计划执行。我们使用6个计划域的基于图像的版本来评估LATPLAN:8个插头,15个式嘴,Blockworld,Sokoban和两个LightsOut的变体。
translated by 谷歌翻译