机器人任务说明通常涉及机器人必须在环境中定位(地面)的引用对象。尽管任务意图理解是自然语言理解的重要组成部分,但努力却减少了解决任务时可能出现的歧义的努力。现有作品使用基于视觉的任务接地和歧义检测,适用于固定视图和静态机器人。但是,该问题对移动机器人进行了放大,其中未知的理想视图是未知的。此外,单个视图可能不足以定位给定区域中的所有对象实例,从而导致歧义检测不准确。只有机器人能够传达其面临的歧义,人类干预才能有所帮助。在本文中,我们介绍了doro(对对象的歧义),该系统可以帮助体现的代理在需要时提出合适的查询来消除引用对象的歧义。给定预期对象所处的区域,Doro通过在探索和扫描该区域的同时从多个视图中汇总观察结果来找到对象的所有实例。然后,它使用接地对象实例的信息提出合适的查询。使用AI2thor模拟器进行的实验表明,Doro不仅更准确地检测到歧义,而且还通过从视觉语言接地中获得了更准确的信息来提高冗长的查询。
translated by 谷歌翻译
搭配机器人的效用在很大程度上取决于人类的简单和直观的相互作用机制。如果机器人在自然语言中接受任务指令,首先,它必须通过解码指令来了解用户的意图。然而,在执行任务时,由于观察到的场景的变化,机器人可能面临不可预见的情况,因此需要进一步的用户干预。在本文中,我们提出了一个称为谈话的系统,该系统使机器人能够通过在视觉上观察僵局来启动与教师的相干对话交换。通过对话,它要么在原始计划中找到一个提示,它是一个可接受的替代原始计划的替代方案,或者完全肯定地中止任务。为了实现可能的僵局,我们利用观察到的场景的密集标题和给定的指令,共同计算机器人的下一个动作。我们基于初始指令和情境场景对的数据集评估我们的系统。我们的系统可以识别僵局,并以适当的对话交换来解决82%的准确性。此外,与现有技术相比,用户学习表明,我们的系统的问题更自然(4.02平均为1到5的平均值)(平均3.08)。
translated by 谷歌翻译
我们介绍了泰德(Tidee),这是一种体现的代理,它根据学识渊博的常识对象和房间安排先验来整理一个无序场景。泰德(Tidee)探索家庭环境,检测到其自然位置的对象,渗透到它们的合理对象上下文,在当前场景中定位此类上下文,并重新定位对象。常识先验在三个模块中编码:i)检测到现象对象的视觉声音检测器,ii)对象和空间关系的关联神经图记忆,提出了对象重新定位的合理语义插座和表面,以及iii)引导代理商探索的可视搜索网络,以有效地将利益定位在当前场景中以重新定位对象。我们测试了在AI2THOR模拟环境中整理混乱的场景的潮汐。 Tidee直接从像素和原始深度输入中执行任务,而没有事先观察到同一房间,仅依靠从单独的一组培训房屋中学到的先验。人类对由此产生的房间进行重组的评估表明,泰德(Tidee)的表现优于该模型的消融版本,这些版本不使用一个或多个常识性先验。在相关的房间重新安排基准测试中,该基准使代理可以在重新排列前查看目标状态,我们的模型的简化版本大大胜过了最佳的方法,可以通过大幅度的差距。代码和数据可在项目网站上获得:https://tidee-agent.github.io/。
translated by 谷歌翻译
对象接地任务旨在通过口头通信定位图像中的目标对象。了解人类命令是有效人体机器人通信所需的重要过程。然而,这是具有挑战性的,因为人类命令可能是暧昧和错误的。本文旨在消除人类的引用表达式,允许代理基于从场景图获得的语义数据提出相关问题。我们测试如果我们的代理可以从场景图之间使用对象之间的关系,以便询问可以消除原始用户命令的语义相关问题。在本文中,我们使用场景图(IGSG)提出增量接地,消歧模型使用从图像场景图和语言场景图到基于人类命令的地面对象的语义数据的歧义模型。与基线相比,IGSG显示了有希望的成果,在有多个相同的目标对象的复杂现实场景中。 IGSG可以通过要求消除歧义问题回到用户来有效消除歧义或错误的表达式。
translated by 谷歌翻译
服务机器人应该能够与非专家用户自然互动,不仅可以帮助他们完成各种任务,还可以接收指导,以解决指导中可能存在的歧义。我们考虑了视觉接地的任务,在这种情况下,代理将对象从拥挤的场景中分离出自然语言描述。现代的整体视觉接地方法通常忽略语言结构,而努力覆盖通用领域,因此很大程度上依靠大型数据集。此外,由于基准和目标域之间的高视觉差异,它们在RGB-D数据集中的传输性能受到了影响。模块化方法将学习与领域建模结合并利用语言的组成性质,以使视觉表示从语言解析中解脱出来,但由于缺乏强大的监督,要么依靠外部解析或以端到端的方式进行训练。在这项工作中,我们试图通过引入一个完全脱钩的模块化框架来解决这些局限性,以构成实体,属性和空间关系的组成视觉基础。我们利用在合成域中生成的丰富场景图表注释,并独立训练每个模块。我们的方法在模拟和两个真实的RGB-D场景数据集中进行了评估。实验结果表明,我们的框架的解耦性可以轻松地与域适应方法相结合,以实现SIMS到现实的视觉识别,从而为机器人应用中的视觉接地提供了数据效率,健壮且可解释的解决方案。
translated by 谷歌翻译
最近关于3D密集标题和视觉接地的研究取得了令人印象深刻的结果。尽管这两个方面都有发展,但可用的3D视觉语言数据的有限量导致3D视觉接地和3D密度标题方法的过度问题。此外,尚未完全研究如何辨别地描述复杂3D环境中的对象。为了解决这些挑战,我们呈现D3Net,即最终的神经扬声器 - 侦听器架构,可以检测,描述和辨别。我们的D3Net以自我批评方式统一3D密集的标题和视觉接地。D3Net的这种自我关键性质还引入了对象标题生成过程中的可怜性,并且可以通过部分注释的描述启用对Scannet数据的半监督培训。我们的方法在扫描带数据集的两个任务中优于SOTA方法,超越了SOTA 3D密度标题方法,通过显着的余量(23.56%的填充剂@ 0.5iou改进)。
translated by 谷歌翻译
Despite progress in perceptual tasks such as image classification, computers still perform poorly on cognitive tasks such as image description and question answering. Cognition is core to tasks that involve not just recognizing, but reasoning about our visual world. However, models used to tackle the rich content in images for cognitive tasks are still being trained using the same datasets designed for perceptual tasks. To achieve success at cognitive tasks, models need to understand the interactions and relationships between objects in
translated by 谷歌翻译
大型语言模型(LLM)从人类的指示中解开了任务计划的新功能。但是,事先尝试将LLMS应用于现实世界的机器人任务受到周围场景中缺乏接地的限制。在本文中,我们开发了NLMAP,这是一个开放式摄影和可查询场景表示,以解决此问题。 NLMAP是一个框架,可以将上下文信息收集到LLM计划者中,从而在生成上下文条件条件计划之前,可以在场景中查看和查询可用的对象。 NLMAP首先使用视觉语言模型(VLM)建立自然语言可查询场景表示。基于LLM的对象建议模块解析指令并提出涉及的对象,以查询场景表示以获取对象可用性和位置。然后,LLM规划师计划提供有关场景的此类信息。 NLMAP允许机器人在没有固定的对象列表或可执行选项的情况下操作,从而使真实的机器人操作无法通过以前的方法实现。项目网站:https://nlmap-saycan.github.io
translated by 谷歌翻译
最近,3D视觉和语言任务吸引了不断增长的研究兴趣。与其他视觉和语言任务相比,3D视觉问题回答(VQA)任务的利用较小,并且更容易受到语言先验和共同参考的歧义。同时,由于规模和注释方法有限,最近提出的几个3D VQA数据集并不能很好地支持3D VQA任务。在这项工作中,我们通过收集一个新的3D VQA数据集(称为FE-3DGQA),正式定义和解决3D接地的VQA任务,并具有多样化且相对自由形式的提问,以及密集和完全接地的边界框注释。为了获得更多可解释的答案,我们标记了出现在复杂的质量检查对中的对象,该对象具有不同的语义类型,包括答案接地的对象(均出现并未出现在问题中),以及用于答案的对象的上下文对象。我们还提出了一个新的3D VQA框架,以有效地预测完全视觉扎根和可解释的答案。广泛的实验证明,我们新收集的基准数据集可有效地用于评估不同方面的各种3D VQA方法,而我们新提出的框架也可以在新的基准数据集中实现最新的性能。新收集的数据集和我们的代码都将在http://github.com/zlccccc/3dgqa上公开获得。
translated by 谷歌翻译
深度学习技术导致了通用对象检测领域的显着突破,近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解,场景图一直是研究的焦点。场景图生成(SGG)是指自动将图像映射到语义结构场景图中的任务,这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务,但社区已经提出了许多SGG方法并取得了良好的效果。在本文中,我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品,涵盖了不同的输入方式,并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法,概述和解释SGG的机制和策略。最后,我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。
translated by 谷歌翻译
Learning descriptive 3D features is crucial for understanding 3D scenes with diverse objects and complex structures. However, it is usually unknown whether important geometric attributes and scene context obtain enough emphasis in an end-to-end trained 3D scene understanding network. To guide 3D feature learning toward important geometric attributes and scene context, we explore the help of textual scene descriptions. Given some free-form descriptions paired with 3D scenes, we extract the knowledge regarding the object relationships and object attributes. We then inject the knowledge to 3D feature learning through three classification-based auxiliary tasks. This language-assisted training can be combined with modern object detection and instance segmentation methods to promote 3D semantic scene understanding, especially in a label-deficient regime. Moreover, the 3D feature learned with language assistance is better aligned with the language features, which can benefit various 3D-language multimodal tasks. Experiments on several benchmarks of 3D-only and 3D-language tasks demonstrate the effectiveness of our language-assisted 3D feature learning. Code is available at https://github.com/Asterisci/Language-Assisted-3D.
translated by 谷歌翻译
在视觉和语言导航(VLN)中,按照自然语言指令在现实的3D环境中需要具体的代理。现有VLN方法的一个主要瓶颈是缺乏足够的培训数据,从而导致对看不见的环境的概括不令人满意。虽然通常会手动收集VLN数据,但这种方法很昂贵,并且可以防止可扩展性。在这项工作中,我们通过建议从HM3D自动创建900个未标记的3D建筑物的大规模VLN数据集来解决数据稀缺问题。我们为每个建筑物生成一个导航图,并通过交叉视图一致性从2D传输对象预测,从2D传输伪3D对象标签。然后,我们使用伪对象标签来微调一个预处理的语言模型,作为减轻教学生成中跨模式差距的提示。在导航环境和说明方面,我们生成的HM3D-AUTOVLN数据集是比现有VLN数据集大的数量级。我们通过实验表明,HM3D-AUTOVLN显着提高了所得VLN模型的概括能力。在SPL指标上,我们的方法分别在Reverie和DataSet的看不见的验证分裂分别对艺术的状态提高了7.1%和8.1%。
translated by 谷歌翻译
感知,规划,估算和控制的当代方法允许机器人在不确定,非结构化环境中的远程代理中稳健运行。此进度现在创造了机器人不仅在隔离,而且在我们的复杂环境中运行的机器人。意识到这个机会需要一种高效且灵活的媒介,人类可以与协作机器人沟通。自然语言提供了一种这样的媒体,通过对自然语言理解的统计方法的重大进展,现在能够解释各种自由形式命令。然而,大多数当代方法需要机器人环境的详细,现有的空间语义地图,这些环境模拟了话语可能引用的可能引用的空间。因此,当机器人部署在新的,先前未知或部分观察到的环境中时,这些方法发生故障,特别是当环境的心理模型在人类运营商和机器人之间不同时。本文提供了一种新的学习框架的全面描述,允许现场和服务机器人解释并正确执行先验未知,非结构化环境中的自然语言指令。对于我们的方法而不是我们的语言作为“传感器” - 在话语中隐含的“传感器” - 推断的空间,拓扑和语义信息,然后利用这些信息来学习在潜在环境模型上的分布。我们将此分布纳入概率,语言接地模型中,并在机器人的动作空间的象征性表示中推断出分布。我们使用模仿学习来确定对环境和行为分布的原因的信仰空间政策。我们通过各种导航和移动操纵实验评估我们的框架。
translated by 谷歌翻译
场景图是一个场景的结构化表示,可以清楚地表达场景中对象之间的对象,属性和关系。随着计算机视觉技术继续发展,只需检测和识别图像中的对象,人们不再满足。相反,人们期待着对视觉场景更高的理解和推理。例如,给定图像,我们希望不仅检测和识别图像中的对象,还要知道对象之间的关系(视觉关系检测),并基于图像内容生成文本描述(图像标题)。或者,我们可能希望机器告诉我们图像中的小女孩正在做什么(视觉问题应答(VQA)),甚至从图像中移除狗并找到类似的图像(图像编辑和检索)等。这些任务需要更高水平的图像视觉任务的理解和推理。场景图只是场景理解的强大工具。因此,场景图引起了大量研究人员的注意力,相关的研究往往是跨模型,复杂,快速发展的。然而,目前没有对场景图的相对系统的调查。为此,本调查对现行场景图研究进行了全面调查。更具体地说,我们首先总结了场景图的一般定义,随后对场景图(SGG)和SGG的发电方法进行了全面和系统的讨论,借助于先验知识。然后,我们调查了场景图的主要应用,并汇总了最常用的数据集。最后,我们对场景图的未来发展提供了一些见解。我们相信这将是未来研究场景图的一个非常有帮助的基础。
translated by 谷歌翻译
随着未来以数据为中心的决策,对数据库的无缝访问至关重要。关于创建有效的文本到SQL(Text2SQL)模型以访问数据库的数据有广泛的研究。使用自然语言是可以通过有效访问数据库(尤其是对于非技术用户)来弥合数据和结果之间差距的最佳接口之一。它将打开门,并在精通技术技能或不太熟练的查询语言的用户中引起极大的兴趣。即使提出或研究了许多基于深度学习的算法,在现实工作场景中使用自然语言来解决数据查询问题仍然非常具有挑战性。原因是在不同的研究中使用不同的数据集,这带来了其局限性和假设。同时,我们确实缺乏对这些提议的模型及其对其训练的特定数据集的局限性的彻底理解。在本文中,我们试图介绍过去几年研究的24种神经网络模型的整体概述,包括其涉及卷积神经网络,经常性神经网络,指针网络,强化学习,生成模型等的架构。我们还概述11个数据集,这些数据集被广泛用于训练Text2SQL技术的模型。我们还讨论了无缝数据查询中文本2SQL技术的未来应用可能性。
translated by 谷歌翻译
当前的NLP技术已在不同的域中极大地应用。在本文中,我们提出了一个在杂乱无章的场景中机器人抓握的人类框架,调查了掌握过程的语言接口,该框架使用户可以通过自然语言命令进行干预。该框架是在最先进的ras基线基线上构建的,在那里我们使用bert代替场景图表代表场景的文本表示。对模拟和物理机器人的实验表明,所提出的方法在文献中优于基于对象敏捷和场景图的常规方法。此外,我们发现,通过人类干预,绩效可以大大提高。
translated by 谷歌翻译
最近的作品表明,如何将大语言模型(LLM)的推理能力应用于自然语言处理以外的领域,例如机器人的计划和互动。这些具体的问题要求代理商了解世界上许多语义方面:可用技能的曲目,这些技能如何影响世界以及对世界的变化如何映射回该语言。在体现环境中规划的LLMS不仅需要考虑要做什么技能,还需要考虑如何以及何时进行操作 - 答案随着时间的推移而变化,以响应代理商自己的选择。在这项工作中,我们调查了在这种体现的环境中使用的LLM在多大程度上可以推论通过自然语言提供的反馈来源,而无需任何其他培训。我们建议,通过利用环境反馈,LLM能够形成内部独白,使他们能够在机器人控制方案中进行更丰富的处理和计划。我们研究了各种反馈来源,例如成功检测,场景描述和人类互动。我们发现,闭环语言反馈显着改善了三个领域的高级指导完成,包括模拟和真实的桌面顶部重新排列任务以及现实世界中厨房环境中的长途移动操作任务。
translated by 谷歌翻译
当前的自动驾驶汽车技术主要集中于将乘客从A点带到B。但是,已经证明乘客害怕乘坐自动驾驶汽车。减轻此问题的一种方法是允许乘客给汽车提供自然语言命令。但是,汽车可能会误解发布的命令或视觉环境,这可能导致不确定的情况。希望自动驾驶汽车检测到这些情况并与乘客互动以解决它们。本文提出了一个模型,该模型检测到命令时不确定的情况并找到引起该命令的视觉对象。可选地,包括描述不确定对象的系统生成的问题。我们认为,如果汽车可以以人类的方式解释这些物体,乘客就可以对汽车能力获得更多信心。因此,我们研究了如何(1)检测不确定的情况及其根本原因,以及(2)如何为乘客产生澄清的问题。在对Talk2CAR数据集进行评估时,我们表明所提出的模型\ acrfull {pipeline},改善\ gls {m:模棱两可 - absolute-Increse},与$ iou _ {.5} $相比,与不使用\ gls {pipeline {pipeline {pipeline { }。此外,我们设计了一个引用表达生成器(reg)\ acrfull {reg_model}量身定制的自动驾驶汽车设置,该设置可产生\ gls {m:流星伴侣} Meteor的相对改进,\ gls \ gls {m:rouge felative}}与最先进的REG模型相比,Rouge-L的速度快三倍。
translated by 谷歌翻译
The Flickr30k dataset has become a standard benchmark for sentence-based image description. This paper presents Flickr30k Entities, which augments the 158k captions from Flickr30k with 244k coreference chains, linking mentions of the same entities across different captions for the same image, and associating them with 276k manually annotated bounding boxes. Such annotations are essential for continued progress in automatic image description and grounded language understanding. They enable us to define a new benchmark for localization of textual entity mentions in an image. We present a strong baseline for this task that combines an image-text embedding, detectors for common objects, a color classifier, and a bias towards selecting larger objects. While our baseline rivals in accuracy more complex state-of-the-art models, we show that its gains cannot be easily parlayed into improvements on such tasks as image-sentence retrieval, thus underlining the limitations of current methods and the need for further research.
translated by 谷歌翻译
视觉问题回答(VQA)近年来见证了巨大进展。但是,大多数努力只关注2D图像问题应答任务。在本文中,我们介绍了将VQA扩展到3D域的第一次尝试,这可以促进人工智能对3D现实世界情景的看法。与基于图像的VQA不同,3D问题应答(3DQA)将颜色点云作为输入,需要外观和3D几何理解能力来回答3D相关问题。为此,我们提出了一种基于新颖的基于变换器的3DQA框架\ TextBF {“3DQA-TR”},其包括两个编码器,分别用于利用外观和几何信息。外观,几何和的多模码信息语言问题最终可以通过3D语言伯特互相参加,以预测目标答案。要验证我们提出的3DQA框架的有效性,我们还开发了第一个建立的3DQA DataSet \ TextBF {“scanqa”} SCANNet DataSet并包含$ \ SIM $ 6K问题,$ \ SIM $ 30k答案,可满足806美元的场景。在此数据集上的广泛实验展示了我们提出的3DQA框架在现有的VQA框架上的明显优势,以及我们主要设计的有效性。我们的代码和数据集将公开可用于促进此方向的研究。
translated by 谷歌翻译