部分观察到的马尔可夫决策过程(POMDP)是一种强大的框架,用于捕获涉及状态和转换不确定性的决策问题。然而,大多数目前的POMDP规划者不能有效地处理它们经常在现实世界中遇到的非常高的观测(例如,机器人域中的图像观察)。在这项工作中,我们提出了视觉树搜索(VTS),一个学习和规划过程,将生成模型与基于在线模型的POMDP规划的脱机中学到的。 VTS通过利用一组深入生成观测模型来预测和评估蒙特卡罗树搜索计划员的图像观测的可能性,乘坐脱机模型培训和在线规划。我们展示VTS对不同观察噪声的强大稳健,因为它利用在线,基于模型的规划,可以适应不同的奖励结构,而无需重新列车。这种新方法优于基线最先进的策略计划算法,同时使用显着降低的离线培训时间。
translated by 谷歌翻译