如今,合作多代理系统用于学习如何在大规模动态环境中实现目标。然而,在这些环境中的学习是具有挑战性的:从搜索空间大小对学习时间的影响,代理商之间的低效合作。此外,增强学习算法可能遭受这种环境的长时间的收敛。本文介绍了通信框架。在拟议的沟通框架中,代理商学会有效地合作,同时通过引入新的状态计算方法,状态空间的大小将大大下降。此外,提出了一种知识传输算法以共享不同代理商之间的获得经验,并制定有效的知识融合机制,以融合利用来自其他团队成员所收到的知识的代理商自己的经验。最后,提供了模拟结果以指示所提出的方法在复杂学习任务中的功效。我们已经评估了我们对牧羊化问题的方法,结果表明,通过利用知识转移机制,学习过程加速了,通过基于状态抽象概念产生类似国家的状态空间的大小均下降。
translated by 谷歌翻译
由于能够产生与实际数据的显着统计相似性的高质量数据,生成的对抗性网络(GANS)最近在AI社区中引起了相当大的关注。从根本上,GaN是在训练中以越野方式训练的两个神经网络之间的游戏,以达到零和纳什均衡轮廓。尽管在过去几年中在GAN完成了改进,但仍有几个问题仍有待解决。本文评论了GANS游戏理论方面的文献,并解决了游戏理论模型如何应对生成模型的特殊挑战,提高GAN的表现。我们首先提出一些预备,包括基本GaN模型和一些博弈论背景。然后,我们将分类系统将最先进的解决方案分为三个主要类别:修改的游戏模型,修改的架构和修改的学习方法。分类基于通过文献中提出的游戏理论方法对基本GaN模型进行的修改。然后,我们探讨每个类别的目标,并讨论每个类别的最新作品。最后,我们讨论了这一领域的剩余挑战,并提出了未来的研究方向。
translated by 谷歌翻译