将规则无缝整合到学习中(LFD)策略是启用AI代理的现实部署的关键要求。最近,信号时间逻辑(STL)已被证明是将规则作为时空约束的有效语言。这项工作使用蒙特卡洛树搜索(MCT)作为将STL规范集成到香草LFD策略中以提高约束满意度的一种手段。我们建议以STL鲁棒性值来增强MCT启发式,以使树的搜索偏向具有更高限制满意度的分支。虽然无域的方法可以应用于将STL规则在线整合到任何预训练的LFD算法中,但我们选择目标条件的生成对抗性模仿学习作为离线LFD策略。我们将提出的方法应用于规划轨迹的领域,用于在非较低机场周围的通用航空飞机。使用对现实世界数据进行训练的模拟器的结果显示了60%的性能比不使用STL启发式方法的基线LFD方法提高了性能。
translated by 谷歌翻译