尽管行为学习近期取得了令人印象深刻的进步,但由于无法利用大型,人类生成的数据集,它落后于计算机视觉和自然语言处理。人类的行为具有较大的差异,多种模式和人类的示范通常不带有奖励标签。这些属性限制了当前方法在离线RL和行为克隆中的适用性,以从大型预收取的数据集中学习。在这项工作中,我们提出了行为变压器(BET),这是一种用多种模式建模未标记的演示数据的新技术。 BET翻新带有动作离散化的标准变压器体系结构,再加上受对象检测中偏移预测启发的多任务动作校正。这使我们能够利用现代变压器的多模式建模能力来预测多模式的连续动作。我们通过实验评估了各种机器人操作和自动驾驶行为数据集的赌注。我们表明,BET可以显着改善以前的最新工作解决方案,同时捕获预采用的数据集中存在的主要模式。最后,通过一项广泛的消融研究,我们分析了BET中每个关键成分的重要性。 BET生成的行为视频可在https://notmahi.github.io/bet上获得
translated by 谷歌翻译