我们提出了Rapid-Learn:学习再次恢复和计划,即一种混合计划和学习方法,以解决适应代理环境中突然和意外变化(即新颖性)的问题。 Rapid-Learn旨在实时制定和求解任务的Markov决策过程(MDPS),并能够利用域知识来学习由环境变化引起的任何新动态。它能够利用域知识来学习行动执行者,这可以进一步用于解决执行智能,从而成功执行了计划。这种新颖信息反映在其更新的域模型中。我们通过在受到Minecraft启发的环境环境中引入各种新颖性来证明其功效,并将我们的算法与文献中的转移学习基线进行比较。我们的方法是(1)即使在存在多个新颖性的情况下,(2)比转移学习RL基准的样本有效,以及(3)与不完整的模型信息相比,与纯净的符号计划方法相反。
translated by 谷歌翻译