多智能体增强学习(Marl)问题通常需要代理商之间的合作,以解决任务。集中化和权力下放是用于玛尔合作的两种方法。虽然由于部分可观测性和非间手性,但易于分散的方法易于收敛到次优解决方案,但涉及集中化的方法遭受可扩展性限制和懒惰的代理问题。集中式培训分散执行范式带出了这两种方法中最好的;然而,集中培训仍然具有可扩展性的上限,而不仅适用于获得的协调性能,而且还具有模型大小和培训时间。在这项工作中,我们采用分散执行范例的集中培训,并调查跨越可变数量的训练型模型的泛化和转移能力。通过特定的MARL问题中的可变数量的代理进行评估,然后对每个训练配置进行可变数量的代理进行贪婪评估来评估此容量。因此,我们分析了培训与评估的代理计数的每个组合的评估性能。我们对捕食者猎物和交通连接环境进行实验评估,并证明可以通过较少的药剂训练获得类似或更高的评估性能。我们得出结论,进行培训的最佳代理商可能与目标代理的数量不同,并且争论在大量代理中的转移可以是比在训练期间直接越来越多的药剂缩放更有效的解决方案。
translated by 谷歌翻译