在本文中,我们研究了部分可观察到的动态系统的在线增强学习(RL)。我们专注于预测状态表示(PSRS)模型,该模型是捕获其他知名模型(例如可观察到的马尔可夫决策过程(POMDP))的表达模型。 PSR使用一组未来观察结果的预测表示状态,并完全使用可观察的数量来定义。我们为PSRS开发了一种新型的基于模型的算法,该算法可以在样本复杂性中学习相对于系统的所有相关参数的多项式缩放的近乎最佳策略。我们的算法自然可以与功能近似合作,以扩展到具有较大状态和观察空间的系统。我们表明,给定一个可实现的模型类别,学习近乎最佳策略的样本复杂性仅相对于模型类的统计复杂性,而没有任何明确的多项式依赖性对状态和观察空间的大小依赖。值得注意的是,我们的工作是表明多项式样本复杂性与PSR中全球最佳政策竞争的第一项工作。最后,我们演示了如何直接使用我们的一般定理来得出特殊模型的样本复杂性界限,包括$ m $ $ step弱揭示和$ m $ $ $ - 可解码的表格pomdps,具有低率潜在过渡的POMDP和具有线性pomdps的POMDP排放和潜在过渡。
translated by 谷歌翻译