Human perception is structured around objects which form the basis for our higher-level cognition and impressive systematic generalization abilities. Yet most work on representation learning focuses on feature learning without even considering multiple objects, or treats segmentation as an (often supervised) preprocessing step. Instead, we argue for the importance of learning to segment and represent objects jointly. We demonstrate that, starting from the simple assumption that a scene is composed of multiple entities, it is possible to learn to segment images into interpretable objects with disentangled representations. Our method learns -without supervision -to inpaint occluded parts, and extrapolates to scenes with more objects and to unseen objects with novel feature combinations. We also show that, due to the use of iterative variational inference, our system is able to learn multi-modal posteriors for ambiguous inputs and extends naturally to sequences.
translated by 谷歌翻译
以对象表示的学习背后的想法是,自然场景可以更好地建模为对象的组成及其关系,而不是分布式表示形式。可以将这种归纳偏置注入神经网络中,以可能改善具有多个对象的场景中下游任务的系统概括和性能。在本文中,我们在五个常见的多对象数据集上训练最先进的无监督模型,并评估细分指标和下游对象属性预测。此外,我们通过调查单个对象不超出分布的设置(例如,具有看不见的颜色,质地或形状或场景的全局属性)来研究概括和鲁棒性,例如,通过闭塞来改变,裁剪或增加对象的数量。从我们的实验研究中,我们发现以对象为中心的表示对下游任务很有用,并且通常对影响对象的大多数分布转移有用。但是,当分布转移以较低结构化的方式影响输入时,在模型和分布转移的情况下,分割和下游任务性能的鲁棒性可能会有很大差异。
translated by 谷歌翻译
学习以上对象的多对象场景表示是对机器智能的有希望的方法,促进了从视觉感觉数据的高级推理和控制。然而,对无监督以上的对象的场景表示的电流方法无法从场景的多个观察中聚合信息。结果,这些“单视图”方法仅基于单个2D观察(视图)形成其3D场景的表示。当然,这导致了几种不准确性,这些方法将受害者下降到单视空间歧义。为了解决此问题,我们提出了多视图和多目标网络(MULMON) - 一种通过利用多个视图学习准确,对象形式的对象场景的表示方法。为了索取跨视图的多对象多视图方案 - 维护对象对象的主要技术难度 - 云母迭代更新多个视图上的场景的潜在对象表示。为了确保这些迭代更新确实汇总空间信息以形成完整的3D场景理解,因此被要求在训练期间从新的观点来预测场景的外观。通过实验,我们表明云母更好地解决了空间歧义,而不是单视图 - 学习更准确和解散的对象表示 - 并且还实现了预测新颖观点的对象分段的新功能。
translated by 谷歌翻译
为了帮助代理在其构建块方面的场景的原因,我们希望提取任何给定场景的组成结构(特别是包括场景的对象的配置和特征)。当需要推断出现在代理的位置/观点的同时需要推断场景结构时,这个问题特别困难,因为两个变量共同引起代理人的观察。我们提出了一个无监督的变分方法来解决这个问题。利用不同场景存在的共享结构,我们的模型学会从RGB视频输入推断出两组潜在表示:一组“对象”潜伏,对应于场景的时间不变,对象级内容,如以及一组“帧”潜伏,对应于全局时变元素,例如视点。这种潜水所的分解允许我们的模型Simone,以单独的方式表示对象属性,其不依赖于视点。此外,它允许我们解解对象动态,并将其轨迹总结为时间抽象的,查看 - 不变,每个对象属性。我们在三个程序生成的视频数据集中展示了这些功能,以及在查看合成和实例分段方面的模型的性能。
translated by 谷歌翻译
Learning object-centric representations of complex scenes is a promising step towards enabling efficient abstract reasoning from low-level perceptual features. Yet, most deep learning approaches learn distributed representations that do not capture the compositional properties of natural scenes. In this paper, we present the Slot Attention module, an architectural component that interfaces with perceptual representations such as the output of a convolutional neural network and produces a set of task-dependent abstract representations which we call slots. These slots are exchangeable and can bind to any object in the input by specializing through a competitive procedure over multiple rounds of attention. We empirically demonstrate that Slot Attention can extract object-centric representations that enable generalization to unseen compositions when trained on unsupervised object discovery and supervised property prediction tasks.
translated by 谷歌翻译
了解哪些归纳偏见可能有助于无监督的自然场景中以对象为中心的表示是具有挑战性的。在本文中,我们系统地研究了两个模型在数据集上的性能,其中使用神经样式转移来获取具有复杂纹理的对象,同时仍保留地面真相注释。我们发现,通过使用单个模块重建每个对象的形状和视觉外观,该模型可以学习更多有用的表示形式,并实现更好的对象分离。此外,我们观察到,调整潜在空间尺寸不足以提高分割性能。最后,与分割质量相比,代表性的下游有用性与分割质量的相关性明显更大。
translated by 谷歌翻译
以对象为中心的表示是通过提供柔性抽象可以在可以建立的灵活性抽象来实现更系统的推广的有希望的途径。最近的简单2D和3D数据集的工作表明,具有对象的归纳偏差的模型可以学习段,并代表单独的数据的统计结构中的有意义对象,而无需任何监督。然而,尽管使用越来越复杂的感应偏差(例如,用于场景的尺寸或3D几何形状),但这种完全无监督的方法仍然无法扩展到不同的现实数据。在本文中,我们采取了弱监督的方法,并专注于如何使用光流的形式的视频数据的时间动态,2)调节在简单的对象位置上的模型可以用于启用分段和跟踪对象在明显更现实的合成数据中。我们介绍了一个顺序扩展,以便引入我们训练的推出,我们训练用于预测现实看的合成场景的光流,并显示调节该模型的初始状态在一小组提示,例如第一帧中的物体的质量中心,是足以显着改善实例分割。这些福利超出了新型对象,新颖背景和更长的视频序列的培训分配。我们还发现,在推论期间可以使用这种初始状态调节作为对特定物体或物体部分的型号查询模型,这可能会为一系列弱监管方法铺平,并允许更有效的互动训练有素的型号。
translated by 谷歌翻译
从物体及其在3D空间中的几何形状方面对世界的组成理解被认为是人类认知的基石。促进神经网络中这种表示形式的学习有望实质上提高标记的数据效率。作为朝着这个方向发展的关键步骤,我们在学习3D一致的复杂场景分解的问题上取得了进展,以无监督的方式将复杂场景分解为单个对象。我们介绍对象场景表示变压器(OSRT),这是一个以3D为中心的模型,其中各个对象表示通过新颖的视图合成自然出现。 OSRT比现有方法更为复杂,具有更大的对象和背景的复杂场景。同时,由于其光场参数化和新型的插槽混合器解码器,它在组成渲染时的多个数量级更快。我们认为,这项工作不仅将加速未来的建筑探索和扩展工作,而且还将成为以对象为中心和神经场景表示社区的有用工具。
translated by 谷歌翻译
我们呈现深度区域竞争(DRC),这是一种旨在以完全无监督的方式从图像中提取前景对象的算法。前景提取可以被视为一种特殊的泛型图像分段的情况,专注于从背景中识别和解开对象。在这项工作中,我们通过以专家(MOE)的混合形式的生成图像建模和生成图像建模来重新思考前景提取,我们进一步介绍了学习的像素重新分配作为捕获规律的基本诱导偏差背景区域。通过这种建模,可以通过期望最大化(EM)自然地发现前景背景分区。我们表明,该方法有效利用了在分区过程中混合成分之间的相互作用,该分区过程紧密地连接到区域竞争,是通用图像分割的一个精细方法。实验表明,与现有方法相比,DRC在复杂的真实数据上表现出更具竞争力的性能和具有挑战性的多对象场景。此外,我们认为,即使在训练期间看不见的类别,DRC也可能概括为新的前景物体。
translated by 谷歌翻译
最近有一个浪涌的方法,旨在以无监督的方式分解和分段场景,即无监督的多对象分段。执行此类任务是计算机愿景的长期目标,提供解锁对象级推理,而无需致密的注释来列车分段模型。尽管取得了重大进展,但在视觉上简单的场景上开发和培训了当前的模型,描绘了纯背景上的单色物体。然而,自然界在视觉上复杂,与多样化的纹理和复杂的照明效果等混杂方面。在这项研究中,我们展示了一个名为Clevrtex的新基准,设计为比较,评估和分析算法的下一个挑战。 CLEVRTEX采用具有不同形状,纹理和光映射材料的合成场景,采用物理基于渲染技术创建。它包括图50k示例,描绘了在背景上布置的3-10个对象,使用60材料的目录创建,以及使用25种不同材料创建的10k图像的另一测试集。我们在CLEVRTEX上基准最近近期无监督的多对象分段模型,并找到所有最先进的方法无法在纹理环境中学习良好的陈述,尽管在更简单的数据上表现令人印象深刻。我们还创建了Clevrtex DataSet的变体,控制了场景复杂性的不同方面,并探讨了各个缺点的当前方法。数据集和代码可在https://www.robots.ox.ac.uk/~vgg/research/clevrtex中获得。
translated by 谷歌翻译
We present a framework for efficient inference in structured image models that explicitly reason about objects. We achieve this by performing probabilistic inference using a recurrent neural network that attends to scene elements and processes them one at a time. Crucially, the model itself learns to choose the appropriate number of inference steps. We use this scheme to learn to perform inference in partially specified 2D models (variable-sized variational auto-encoders) and fully specified 3D models (probabilistic renderers). We show that such models learn to identify multiple objects -counting, locating and classifying the elements of a scenewithout any supervision, e.g., decomposing 3D images with various numbers of objects in a single forward pass of a neural network at unprecedented speed. We further show that the networks produce accurate inferences when compared to supervised counterparts, and that their structure leads to improved generalization.
translated by 谷歌翻译
代表物体粒度的场景是场景理解和决策的先决条件。我们提出PrisMoNet,一种基于先前形状知识的新方法,用于学习多对象3D场景分解和来自单个图像的表示。我们的方法学会在平面曲面上分解具有多个对象的合成场景的图像,进入其组成场景对象,并从单个视图推断它们的3D属性。经常性编码器从输入的RGB图像中回归3D形状,姿势和纹理的潜在表示。通过可差异化的渲染,我们培训我们的模型以自我监督方式从RGB-D图像中分解场景。 3D形状在功能空间中连续表示,作为我们以监督方式从示例形状预先训练的符号距离函数。这些形状的前沿提供弱监管信号,以更好地条件挑战整体学习任务。我们评估我们模型在推断3D场景布局方面的准确性,展示其生成能力,评估其对真实图像的概括,并指出了学习的表示的益处。
translated by 谷歌翻译
我们提出了一个新的视觉数据表示形式,该数据将对象位置从外观上删除。我们的方法称为深潜粒子(DLP),将视觉输入分解为低维的潜在``粒子'',其中每个粒子都用其周围区域的空间位置和特征来描述。为了学习这种表示形式,我们遵循一种基于VAE的方法,并根据空间 - 软构建结构引入了粒子位置的先验位置,并修改了受粒子之间倒角距离启发的证据下限损失。我们证明,我们的DLP表示形式可用于下游任务,例如无监督关键点(KP)检测,图像操纵和针对由多个动态对象组成的场景的视频预测。此外,我们表明,我们对问题的概率解释自然提供了粒子位置的不确定性估计,可用于模型选择以及其他任务。可用视频和代码:https://taldatech.github.io/deep-latent-particles-web/
translated by 谷歌翻译
世界由对象组成:具有独立属性和动态的不同实体。为了使代理人聪明地与世界互动,他们必须将感觉输入转化为描述每个对象的边界特征。这些基于对象的表示形成了计划行为的自然基础。主动推断(AIF)是对感知和行动的影响力的统一说明,但是现有的AIF模型并未利用这种重要的归纳偏见。为了解决这个问题,我们介绍了“基于对象的主动推理”(OBAI),将AIF与最近基于对象的神经网络结合在一起。 Obai代表具有不同变异信念的不同对象,并使用选择性注意来将输入输入到相应的对象插槽中。对象表示具有独立的基于动作的动态。动力学和生成模型是从简单环境(主动的多-DSPRITES)的经验中学到的。我们表明,奥贝(Obai)学会了从视频输入中正确分割动作扰动的对象,并将这些对象操纵到任意目标。
translated by 谷歌翻译
我们解决了点云上以对象学习为中心的问题,这对于高级关系推理和可扩展的机器智能至关重要。特别是,我们引入了一个框架spair3d,将3D点云分解为空间混合模型,其中每个组件对应于一个对象。为了建模点云上的空间混合物模型,我们得出了倒角混合物损失,该混合物损失自然适合我们的变异训练管道。此外,我们采用了一个对象规范方案,该方案描述了每个对象相对于其本地素素网元单元的位置。这样的方案允许SPAIR3D使用任意数量的对象建模场景。我们评估了无监督场景分解任务的方法。实验结果表明,SPAIR3D具有强大的可伸缩性,并且能够以无监督的方式从点云中检测和分割未知数的对象。
translated by 谷歌翻译
组成概括是学习和决策的关键能力。我们专注于在面向对象的环境中进行强化学习的设置,以研究世界建模中的组成概括。我们(1)通过代数方法正式化组成概括问题,(2)研究世界模型如何实现这一目标。我们介绍了一个概念环境,对象库和两个实例,并部署了一条原则的管道来衡量概括能力。通过公式的启发,我们使用我们的框架分析了几种具有精确或没有组成概括能力的方法,并设计了一种可区分的方法,同构对象的世界模型(HOWM),可以实现柔软但更有效的组成概括。
translated by 谷歌翻译
$ \ beta $ -vae是对变形的自身额外转换器的后续技术,提出了在VAE损失中的KL分歧项的特殊加权,以获得解除戒备的表示。即使在玩具数据集和有意义的情况下,甚至在玩具数据集上也是脆弱的学习,难以找到的难以找到的。在这里,我们调查原来的$ \β$ -VAE纸,并向先前获得的结果添加证据表明其缺乏可重复性。我们还进一步扩展了模型的实验,并在分析中包括进一步更复杂的数据集。我们还为$ \β$ -VAE模型实施了FID评分度量,并得出了对所获得的结果的定性分析。我们结束了关于可能进行的未来调查的简要讨论,以增加对索赔的更具稳健性。
translated by 谷歌翻译
以对象为中心的表示是人类感知的基础,并使我们能够对世界进行推理,并系统地推广到新的环境。当前,大多数在无监督的对象发现上的作品集中在基于插槽的方法上,这些方法明确将单个对象的潜在表示分开。尽管结果很容易解释,但通常需要设计相关建筑的设计。与此相反,我们提出了一种相对简单的方法 - 复杂的自动编码器(CAE) - 创建分布式以对象为中心的表示。遵循对生物神经元中对象表示为基础的编码方案,其复杂值激活表示两个消息:它们的幅度表达了特征的存在,而神经元之间的相对相位差异应绑定在一起以创建关节对象表示。 。与以前使用复杂值激活进行对象发现的方法相反,我们提出了一种完全无监督的方法,该方法是端到端训练的 - 导致了性能和效率的显着提高。此外,我们表明,与最新的基于最新的插槽方法相比,CAE在简单的多对象数据集上实现了竞争性或更好的无监督对象发现性能,同时训练的速度要快100倍。
translated by 谷歌翻译
视觉世界可以以稀疏相互作用的不同实体来嘲笑。在动态视觉场景中发现这种组合结构已被证明对端到端的计算机视觉方法有挑战,除非提供明确的实例级别的监督。利用运动提示的基于老虎机的模型最近在学习代表,细分和跟踪对象的情况下没有直接监督显示了巨大的希望,但是它们仍然无法扩展到复杂的现实世界多对象视频。为了弥合这一差距,我们从人类发展中汲取灵感,并假设以深度信号形式的场景几何形状的信息可以促进以对象为中心的学习。我们介绍了一种以对象为中心的视频模型SAVI ++,该模型经过训练,可以预测基于插槽的视频表示的深度信号。通过进一步利用模型缩放的最佳实践,我们能够训练SAVI ++以细分使用移动摄像机记录的复杂动态场景,其中包含在自然主义背景上具有不同外观的静态和移动对象,而无需进行分割监督。最后,我们证明,通过使用从LIDAR获得的稀疏深度信号,Savi ++能够从真实World Waymo Open DataSet中的视频中学习新兴对象细分和跟踪。
translated by 谷歌翻译
迭代精致 - 从随机的猜测开始,然后迭代地改善猜测 - 是表示学习的有用范式,因为它提供了一种在数据中同样合理的解释之间打破对称性的方法。此属性使此类方法的应用可以推断实体集的表示,例如物理场景中的对象,在结构上类似于潜在空间中的聚类算法。但是,大多数先前的工作都通过展开的完善过程进行区分,这可能使优化挑战。我们观察到,可以通过隐式函数定理使此类方法可区分,并开发一种隐性分化方法,从而通过解耦来向前和向后传递来提高训练的稳定性和障碍。该连接使我们能够在优化隐式层时应用进步,不仅可以改善Slate中的插槽注意模块的优化,Slate是一种学习实体表示的最新方法,而且要在反向传播中持续不断的空间和时间复杂性。还有一条另外一行​​的代码。
translated by 谷歌翻译