本文介绍了一位深钢筋学习代理(AI),它使用声音作为IEEE COG 2022的DareFightingings竞赛中Darefightingings平台上的输入。尽管最新的AI主要依赖于其环境提供的视觉或结构化观察结果,但学会从Sound玩游戏仍然是新的,因此具有挑战性。我们建议使用不同的方法来处理音频数据,并为盲人AI使用近端策略优化算法。我们还建议利用盲人AI评估提交竞争的声音设计,并为此任务定义两个指标。实验结果不仅显示了我们的盲人AI,而且还提出了两个指标的有效性。
translated by 谷歌翻译
本文在2022年的IEEE游戏会议(COG)上提出了一项新的比赛,称为Darefightinginge比赛。比赛有两个曲目:声音设计轨道和AI轨道。该竞赛的游戏平台也称为格斗游戏平台Darefightinging。 DareFightingIce是一种声音设计的战斗版本,在COG的一场比赛中以前使用,直到2021年,用于促进格斗游戏中的人工智能(AI)研究。在声音设计轨道中,鉴于DareFightingIce的默认声音设计作为​​样本,参与者竞争最佳声音设计,我们将声音设计定义为一组声音效果,并结合了实现其正时控制算法的源代码。要求AI轨道的参与者开发其AI算法,该算法控制角色仅作为输入(Blind AI)与对手作战;我们将提供深度学习的盲人AI。我们还描述了我们最大程度地提高两个轨道之间的协同作用的手段。这项比赛为视觉受损的玩家提供了有效的声音设计,游戏社区中的一个小组大多被忽略了。据我们所知,Darefightingingice竞赛是COG内外的首次此类竞赛。
translated by 谷歌翻译
通过少数院校拥有不懈的努力,最近在设计超人AIS中的重大进展,在无限制的德克萨斯州举行(NLTH)中,是大规模不完美信息游戏研究的主要测试平台。然而,新研究人员对新的研究人员来说仍然有挑战性,因为没有与现有方法相比,这严重阻碍了本研究区域的进一步发展。在这项工作中,我们展示了OpenHoldem,一个用于使用NLTH的大规模不完美信息游戏研究的集成工具包。 OpenHoldem对这一研究方向进行了三个主要贡献:1)用于彻底评估不同NLTH AIS,2)用于NLTH AI的四个公开可用的强大基线的标准化评估方案,以及3)一个在线测试平台,公众易于使用API nlth ai评估。我们在Holdem.Ia.ac.CN发布了OpenHoldem,希望它有助于进一步研究该领域的未解决的理论和计算问题,并培养对手建模和人机互动学习等关键研究问题。
translated by 谷歌翻译
在这项工作中,我们将深度加强施加到导航三维环境的问题,并在唯一可用信息是来自环境的原始声音的情况下推断出人类扬声器音频源的位置,作为模拟的人类侦听器放在环境中会听到它。为此目的,我们使用Unity游戏引擎创建两个虚拟环境,其中一个呈现基于音频的导航问题,一个呈现音频源定位问题。我们还根据PPO在线强化学习算法创建一个自主代理,并试图培训它来解决这些环境。我们的实验表明,即使在有限数量的训练数据或在训练期间没有遇到的方式,也可以通过定量度量来实现这两种环境中的足够性能和泛化能力。我们还表明,在环境之间可以实现一定程度的代理知识转移。
translated by 谷歌翻译
强化学习算法在竞争挑战板和视频游戏时表现良好。越来越多的研究工作侧重于提高加强学习算法的泛化能力。普通视频游戏AI学习竞赛旨在设计能够学习在培训期间出现不同游戏水平的代理商。本文总结了五年的一般视频游戏AI学习竞争。在每个版本,设计了三场新游戏。对于每场比赛,通过扰动或组合两个训练水平来产生三个测试水平。然后,我们提出了一种新颖的加强学习框架,对一般视频游戏的双程观察,在假设中,它更有可能在不同级别而不是全局信息中观察到类似的本地信息。因此,我们所提出的框架而不是直接输入基于目前游戏屏幕的单个原始像素的屏幕截图,而是将游戏屏幕的编码,转换的全局和本地观测视为两个同时输入,旨在学习播放新级别的本地信息。我们提出的框架是用三种最先进的加强学习算法实施,并在2020年普通视频游戏AI学习竞赛的游戏集上进行了测试。消融研究表明,使用编码,转换的全局和本地观察的出色性能。总体上最好的代理商进一步用作2021次竞赛版的基线。
translated by 谷歌翻译
最近的视听导航工作是无噪音音频环境中的单一静态声音,并努力推广到闻名声音。我们介绍了一种新型动态视听导航基准测试,其中一个体现的AI代理必须在存在分散的人和嘈杂的声音存在下在未映射的环境中捕获移动声源。我们提出了一种依赖于多模态架构的端到端增强学习方法,该方法依赖于融合来自双耳音频信号和空间占用映射的空间视听信息,以编码为我们的新的稳健导航策略进行编码所需的功能复杂的任务设置。我们展示了我们的方法优于当前的最先进状态,以更好地推广到闻名声音以及对嘈杂的3D扫描现实世界数据集副本和TASTPORT3D上的嘈杂情景更好地对嘈杂的情景进行了更好的稳健性,以实现静态和动态的视听导航基准。我们的小型基准将在http://dav-nav.cs.uni-freiburg.de提供。
translated by 谷歌翻译
在这项工作中,我们适应了一种受原始Alphago系统启发的训练方法,以扮演不完美的侦察盲目信息游戏。我们仅使用观测值而不是对游戏状态的完整描述,我们首先在公开可用的游戏记录上训练监督代理。接下来,我们通过自我播放来提高代理商的性能,并使用彻底的强化学习算法近端策略优化。我们不使用任何搜索来避免由于游戏状态的部分可观察性引起的问题,而只使用策略网络在播放时生成动作。通过这种方法,我们在RBC排行榜上实现了1330的ELO,该纸板在撰写本文时将我们的经纪人处于27位。我们看到自我戏剧可显着提高性能,并且代理商在没有搜索的情况下可以很好地发挥,而无需对真实游戏状态做出假设。
translated by 谷歌翻译
本文介绍了Kings Arena的荣誉,Kings Arena是基于国王荣誉的强化学习(RL)环境,这是世界上最受欢迎的游戏之一。与以前大多数工作中研究的其他环境相比,我们的人对竞争性强化学习提出了新的概括挑战。与对手竞争的一个代理商是一个多代理的问题;它需要概括能力,因为它具有控制和不同的对手竞争的不同目标。我们描述了国王域名荣誉的观察,动作和奖励规范,并提供了一个基于python的开源界面,以与游戏引擎进行通信。我们为纪念国王竞技场的二十个目标英雄提供了各种任务,并为具有可行的计算资源的基于RL的方法提供了初始基线结果。最后,我们展示了国王竞技场的荣誉和对挑战的可能补救措施所面临的概括挑战。所有软件(包括环境级)均可在https://github.com/tencent-ailab/hok_env上公开获得。该文档可在https://aiarena.tencent.com/hok/doc/上获得。
translated by 谷歌翻译
In fighting games, individual players of the same skill level often exhibit distinct strategies from one another through their gameplay. Despite this, the majority of AI agents for fighting games have only a single strategy for each "level" of difficulty. To make AI opponents more human-like, we'd ideally like to see multiple different strategies at each level of difficulty, a concept we refer to as "multidimensional" difficulty. In this paper, we introduce a diversity-based deep reinforcement learning approach for generating a set of agents of similar difficulty that utilize diverse strategies. We find this approach outperforms a baseline trained with specialized, human-authored reward functions in both diversity and performance.
translated by 谷歌翻译
视听导航将视觉和听觉结合在未映射的环境中导航到声音源。虽然最近的方法已经证明了音频输入的好处,以检测和找到目标,他们专注于干净和静态的声源,并努力推广到闻名声音。在这项工作中,我们提出了新的动态视听导航基准,该基准测试基准测试,该基准要求在具有嘈杂和分散注意力的环境中捕捉环境中的移动声源。我们介绍了一种钢筋学习方法,用于为这些复杂设置学习强大的导航策略。为此,我们提出了一种架构,其融合空间特征空间中的视听信息,以学习本地地图和音频信号中固有的几何信息的相关性。我们展示了我们的方法在两个挑战的3D扫描的真实世界环境中,我们的方法始终如一地占据了所有权力,闻名声音和嘈杂环境的所有任务的大型余量。该基准测试是在http://dav-nav.cs.uni-freiburg.de上获得的。
translated by 谷歌翻译
Starcraft II(SC2)对强化学习(RL)提出了巨大的挑战,其中主要困难包括巨大的状态空间,不同的动作空间和长期的视野。在这项工作中,我们研究了《星际争霸II》全长游戏的一系列RL技术。我们研究了涉及提取的宏观活动和神经网络的层次结构的层次RL方法。我们研究了课程转移培训程序,并在具有4个GPU和48个CPU线的单台计算机上训练代理。在64x64地图并使用限制性单元上,我们对内置AI的获胜率达到99%。通过课程转移学习算法和战斗模型的混合物,我们在最困难的非作战水平内置AI(7级)中获得了93%的胜利率。在本文的扩展版本中,我们改进了架构,以针对作弊水平训练代理商,并在8级,9级和10级AIS上达到胜利率,为96%,97%和94 %, 分别。我们的代码在https://github.com/liuruoze/hiernet-sc2上。为了为我们的工作以及研究和开源社区提供基线,我们将其复制了一个缩放版本的Mini-Alphastar(MAS)。 MAS的最新版本为1.07,可以在具有564个动作的原始动作空间上进行培训。它旨在通过使超参数可调节来在单个普通机器上进行训练。然后,我们使用相同的资源将我们的工作与MAS进行比较,并表明我们的方法更有效。迷你α的代码在https://github.com/liuruoze/mini-alphastar上。我们希望我们的研究能够阐明对SC2和其他大型游戏有效增强学习的未来研究。
translated by 谷歌翻译
随着alphago的突破,人机游戏的AI已经成为一个非常热门的话题,吸引了世界各地的研究人员,这通常是测试人工智能的有效标准。已经开发了各种游戏AI系统(AIS),如Plibratus,Openai Five和AlphaStar,击败了专业人员。在本文中,我们调查了最近的成功游戏AIS,覆盖棋盘游戏AIS,纸牌游戏AIS,第一人称射击游戏AIS和实时战略游戏AIS。通过这项调查,我们1)比较智能决策领域的不同类型游戏之间的主要困难; 2)说明了开发专业水平AIS的主流框架和技术; 3)提高当前AIS中的挑战或缺点,以实现智能决策; 4)试图提出奥运会和智能决策技巧的未来趋势。最后,我们希望这篇简短的审查可以为初学者提供介绍,激发了在游戏中AI提交的研究人员的见解。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
Real-Time Strategy (RTS) game unit generation is an unexplored area of Procedural Content Generation (PCG) research, which leaves the question of how to automatically generate interesting and balanced units unanswered. Creating unique and balanced units can be a difficult task when designing an RTS game, even for humans. Having an automated method of designing units could help developers speed up the creation process as well as find new ideas. In this work we propose a method of generating balanced and useful RTS units. We draw on Search-Based PCG and a fitness function based on Monte Carlo Tree Search (MCTS). We present ten units generated by our system designed to be used in the game microRTS, as well as results demonstrating that these units are unique, useful, and balanced.
translated by 谷歌翻译
我们探索动态声源的主动音频分离,其中体现的代理在3D环境中智能移动,以连续隔离感兴趣的对象发出的随时间变化的音频流。该经纪人听到了多种音频来源的混杂流(例如,在嘈杂的派对上演奏音乐和乐队的乐队)。考虑到有限的时间预算,它需要使用以自我为中心的视听观察来准确地提取目标声音。我们提出了一种配备新型变压器记忆的增强式学习代理,该学习者学习运动策略,以控制其相机和麦克风以恢复动态目标音频,并使用自我意见来对当前时间段进行高质量的估计,并同时改善其过去的估计。使用在现实世界扫描的Matterport3D环境中使用高度现实的声音空间模拟,我们表明我们的模型能够学习有效的行为,以进行动态音频目标的连续分离。项目:https://vision.cs.utexas.edu/projects/active-av-dynamic-separation/。
translated by 谷歌翻译
The ultimate goal of artificial intelligence is to mimic the human brain to perform decision-making and control directly from high-dimensional sensory input. All-optical diffractive neural networks provide a promising solution for realizing artificial intelligence with high-speed and low-power consumption. To date, most of the reported diffractive neural networks focus on single or multiple tasks that do not involve interaction with the environment, such as object recognition and image classification, while the networks that can perform decision-making and control, to our knowledge, have not been developed yet. Here, we propose to use deep reinforcement learning to realize diffractive neural networks that enable imitating the human-level capability of decision-making and control. Such networks allow for finding optimal control policies through interaction with the environment and can be readily realized with the dielectric metasurfaces. The superior performances of these networks are verified by engaging three types of classic games, Tic-Tac-Toe, Super Mario Bros., and Car Racing, and achieving the same or even higher levels comparable to human players. Our work represents a solid step of advancement in diffractive neural networks, which promises a fundamental shift from the target-driven control of a pre-designed state for simple recognition or classification tasks to the high-level sensory capability of artificial intelligence. It may find exciting applications in autonomous driving, intelligent robots, and intelligent manufacturing.
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
深度强化学习(DRL)在自动游戏测试中引起了很多关注。早期尝试依靠游戏内部信息进行游戏空间探索,因此需要与游戏深入集成,这对于实际应用来说是不便的。在这项工作中,我们建议仅使用屏幕截图/像素作为自动游戏测试的输入,并建立了一般游戏测试代理Inspector,可以轻松地将其应用于不同的游戏,而无需与游戏深入集成。除了覆盖所有游戏测试空间外,我们的代理商还试图采取类似人类的行为与游戏中的关键对象进行交互,因为某些错误通常发生在玩家对象的交互中。检查器基于纯粹的像素输入,包括三个关键模块:游戏空间探索器,关键对象检测器和类似人类的对象研究者。 Game Space Explorer旨在通过使用像素输入的基于好奇心的奖励功能来探索整个游戏空间。关键对象检测器的目的是基于少量标记的屏幕快照在游戏中检测关键对象。类似人类的对象研究者的目标是模仿人类的行为,以通过模仿学习来调查关键对象。我们在两个受欢迎的视频游戏中进行实验:射击游戏和动作RPG游戏。实验结果证明了检查员在探索游戏空间,检测关键对象和调查对象方面的有效性。此外,检查员在这两场比赛中成功发现了两个潜在的错误。检查员的演示视频可从https://github.com/inspector-gametesting/inspector-gametesting获得。
translated by 谷歌翻译
2048 is a single-player stochastic puzzle game. This intriguing and addictive game has been popular worldwide and has attracted researchers to develop game-playing programs. Due to its simplicity and complexity, 2048 has become an interesting and challenging platform for evaluating the effectiveness of machine learning methods. This dissertation conducts comprehensive research on reinforcement learning and computer game algorithms for 2048. First, this dissertation proposes optimistic temporal difference learning, which significantly improves the quality of learning by employing optimistic initialization to encourage exploration for 2048. Furthermore, based on this approach, a state-of-the-art program for 2048 is developed, which achieves the highest performance among all learning-based programs, namely an average score of 625377 points and a rate of 72% for reaching 32768-tiles. Second, this dissertation investigates several techniques related to 2048, including the n-tuple network ensemble learning, Monte Carlo tree search, and deep reinforcement learning. These techniques are promising for further improving the performance of the current state-of-the-art program. Finally, this dissertation discusses pedagogical applications related to 2048 by proposing course designs and summarizing the teaching experience. The proposed course designs use 2048-like games as materials for beginners to learn reinforcement learning and computer game algorithms. The courses have been successfully applied to graduate-level students and received well by student feedback.
translated by 谷歌翻译
强化学习(RL)的最新进展使得可以在广泛的应用中开发出擅长的复杂剂。使用这种代理商的模拟可以在难以在现实世界中进行科学实验的情景中提供有价值的信息。在本文中,我们研究了足球RL代理商的游戏风格特征,并揭示了在训练期间可能发展的策略。然后将学习的策略与真正的足球运动员进行比较。我们探索通过使用聚合统计和社交网络分析(SNA)来探索使用模拟环境的学习内容。结果,我们发现(1)代理商的竞争力与各种SNA指标之间存在强烈的相关性,并且(2)RL代理商的各个方面,游戏风格与现实世界足球运动员相似,因为代理人变得更具竞争力。我们讨论了可能有必要的进一步进展,以改善我们必须充分利用RL进行足球的分析所需的理解。
translated by 谷歌翻译