对于未来的家庭辅助机器人来说,在日常人类环境中了解和操纵不同的3D对象是必不可少的。旨在构建可以在各种3D形状上执行各种操纵任务的可扩展系统,最近的作品提倡并展示了有希望的结果学习视觉可行的负担能力,该结果标记了输入3D几何学上的每个点,并以完成下游任务的可能性(例如,推动下游任务)或接送)。但是,这些作品仅研究了单杆操纵任务,但是许多现实世界的任务需要两只手才能协作。在这项工作中,我们提出了一个新颖的学习框架Dualafford,以学习双手操纵任务的协作负担。该方法的核心设计是将两个抓手的二次问题减少到两个分离但相互联系的子任务中,以进行有效的学习。使用大规模的partnet-Mobility和Shapenet数据集,我们设置了四个基准任务,以进行双拖把操作。实验证明了我们方法比三个基线的有效性和优势。可以在https://hyperplane-lab.github.io/dualafford上找到其他结果和视频。
translated by 谷歌翻译
预测人类运动对于辅助机器人和AR/VR应用至关重要,在这种机器人和AR/VR应用中,与人类的互动需要安全舒适。同时,准确的预测取决于理解场景上下文和人类意图。尽管许多作品研究场景 - 意识到人类的运动预测,但由于缺乏以自我为中心的观点,这些观点揭示了人类意图以及运动和场景的多样性有限,因此后者在很大程度上并没有得到充实的影响。为了减少差距,我们提出了一个大规模的人类运动数据集,该数据集可提供高质量的身体姿势序列,场景扫描以及以自我为中心的视图,目光注视,这是推断人类意图的代孕。通过使用惯性传感器进行运动捕获,我们的数据收集与特定场景无关,这进一步增强了从主题中观察到的运动动力学。我们对利用眼睛目光进行以自我为中心的人类运动预测的优势进行了广泛的研究,并进行了各种最新的架构。此外,为了实现目光的全部潜力,我们提出了一种新型的网络体系结构,该架构可以在目光和运动分支之间进行双向交流。我们的网络在拟议的数据集上实现了人类运动预测的最高性能,这要归功于眼睛凝视的意图信息以及动作调制的DeNocied Ceaze特征。代码和数据可以在https://github.com/y-zheng18/gimo上找到。
translated by 谷歌翻译
部件组件是机器人中的典型但具有挑战性的任务,机器人将一组各个部件组装成完整的形状。在本文中,我们开发了用于家具组件的机器人组装仿真环境。我们将零件装配任务制定为混凝土加固学习问题,并提出了一种机器人的管道,以学习组装多种椅子。实验表明,当使用看不见的椅子进行测试时,我们的方法在以上对象的环境下实现了74.5%的成功率,并在完整环境下实现了50.0%。我们采用RRT-CONNECT算法作为基线,在计算时间明显更长的时间后,只能实现18.8%的成功率。我们的项目网页提供了补充材料和视频。
translated by 谷歌翻译
我们提出了一个框架,以便不断学习以对客观的视觉学习和理解为中心的表示。现有的对象形式依赖于个性化场景中的对象的监督,或者执行无监督的解剖学,这几乎无法处理现实世界中的复杂场景。为了减轻注释负担并放宽对数据统计复杂性的限制,我们的方法利用相互作用,从而有效地在学习以特征对象的表示的同时有效地采样对象和相应的训练信号的不同变化。在整个学习过程中,对象以随机顺序逐一流动,具有未知的身份,并且与可以通过卷积高度合成每个对象的潜在权重的潜在代码相关联。此外,采用了学习对象的重新识别和遗忘预防,以使学习过程有效且坚固。我们对拟议框架的关键特征进行了广泛的研究,并分析了学习的表示的特征。此外,我们展示了所提出的框架在学习表示中可以提高下游任务中的标签效率的能力。我们的代码和培训的型号将公开可用。
translated by 谷歌翻译
建立可以与3D室内环境进行交互的体现智能代理,近年来已收到了越来越多的研究关注。虽然大多数作品专注于单一对象或代理 - 对象视觉功能和可供性,但我们的工作建议研究一种新的视觉关系,对感知和模型 - 对象间功能关系也很重要(例如,开关墙壁打开或关闭光线,遥控器操作电视)。人类常常花费很少或不努力推断这些关系,即使在进入新房时,即使在进入新房时,通过使用我们的强大的先验知识(例如,我们知道该按钮控制电气设备),或者在不确定性的情况下仅使用一些探索性相互作用(例如,多个开关和相同房间的灯)。在本文中,我们在3D室内环境中建立了AI系统学习对象间功能关系的第一步,通过培训大规模场景和设计互动政策,以有效地探索培训场景和快速设计互动政策,以便进行建模的主要技术贡献适应新颖的测试场景。我们根据AI2thor和Portnet数据集创建一个新的基准,并进行广泛的实验,证明了我们提出的方法的有效性。结果表明,我们的模型成功地了解了在复杂3D场景中探索对象内功能关系的前沿和快速交互式的策略。几项消融研究进一步验证了每个提出的模块的有用性。
translated by 谷歌翻译
与3D铰接物体感知和互动,例如橱柜,门和龙头,对未来的家庭助手机器人进行人类环境中的日常任务构成特殊挑战。除了解析铰接部件和联合参数外,研究人员最近倡导学习操纵在输入形状几何形状上,这是更加任务感知和几何细粒度的。然而,只采用​​被动观测作为输入,这些方法忽略了许多隐藏但重要的运动限制(例如,联合位置和限制)和动态因素(例如,关节摩擦和恢复),因此对这种不确定性的测试用例失去了显着的准确性。在本文中,我们提出了一个名为Adaaveword的新颖框架,该框架是学习的,以便在更准确地将可怜的实例特定的后医中迅速调整可怜的地前沿来执行很少的测试时间相互作用。我们使用Partnet-Mobility DataSet进行大规模实验,并证明我们的系统比基线更好。
translated by 谷歌翻译
在本文中,我们探讨了机器人是否可以学会重新应用一组多样的物体以实现各种所需的掌握姿势。只要机器人的当前掌握姿势未能执行所需的操作任务,需要重新扫描。具有这种能力的赋予机器人具有在许多领域中的应用,例如制造或国内服务。然而,由于日常物体中的几何形状和状态和行动空间的高维度,这是一个具有挑战性的任务。在本文中,我们提出了一种机器人系统,用于将物体的部分点云和支持环境作为输入,输出序列和放置操作的序列来转换到所需的对象掌握姿势。关键技术包括神经稳定放置预测器,并通过利用和改变周围环境来引发基于图形的解决方案。我们介绍了一个新的和具有挑战性的合成数据集,用于学习和评估所提出的方法。我们展示了我们提出的系统与模拟器和现实世界实验的有效性。我们的项目网页上有更多视频和可视化示例。
translated by 谷歌翻译
We present PartNet: a consistent, large-scale dataset of 3D objects annotated with fine-grained, instance-level, and hierarchical 3D part information. Our dataset consists of 573,585 part instances over 26,671 3D models covering 24 object categories. This dataset enables and serves as a catalyst for many tasks such as shape analysis, dynamic 3D scene modeling and simulation, affordance analysis, and others. Using our dataset, we establish three benchmarking tasks for evaluating 3D part recognition: fine-grained semantic segmentation, hierarchical semantic segmentation, and instance segmentation. We benchmark four state-ofthe-art 3D deep learning algorithms for fine-grained semantic segmentation and three baseline methods for hierarchical semantic segmentation. We also propose a novel method for part instance segmentation and demonstrate its superior performance over existing methods.
translated by 谷歌翻译
Point cloud is an important type of geometric data structure. Due to its irregular format, most researchers transform such data to regular 3D voxel grids or collections of images. This, however, renders data unnecessarily voluminous and causes issues. In this paper, we design a novel type of neural network that directly consumes point clouds, which well respects the permutation invariance of points in the input. Our network, named PointNet, provides a unified architecture for applications ranging from object classification, part segmentation, to scene semantic parsing. Though simple, PointNet is highly efficient and effective. Empirically, it shows strong performance on par or even better than state of the art. Theoretically, we provide analysis towards understanding of what the network has learnt and why the network is robust with respect to input perturbation and corruption.
translated by 谷歌翻译
Deep learning-based methods have achieved significant performance for image defogging. However, existing methods are mainly developed for land scenes and perform poorly when dealing with overwater foggy images, since overwater scenes typically contain large expanses of sky and water. In this work, we propose a Prior map Guided CycleGAN (PG-CycleGAN) for defogging of images with overwater scenes. To promote the recovery of the objects on water in the image, two loss functions are exploited for the network where a prior map is designed to invert the dark channel and the min-max normalization is used to suppress the sky and emphasize objects. However, due to the unpaired training set, the network may learn an under-constrained domain mapping from foggy to fog-free image, leading to artifacts and loss of details. Thus, we propose an intuitive Upscaling Inception Module (UIM) and a Long-range Residual Coarse-to-fine framework (LRC) to mitigate this issue. Extensive experiments on qualitative and quantitative comparisons demonstrate that the proposed method outperforms the state-of-the-art supervised, semi-supervised, and unsupervised defogging approaches.
translated by 谷歌翻译