In this paper we revisit endless online level generation with the recently proposed experience-driven procedural content generation via reinforcement learning (EDRL) framework, from an observation that EDRL tends to generate recurrent patterns. Inspired by this phenomenon, we formulate a notion of state space closure, which means that any state that may appear in an infinite-horizon online generation process can be found in a finite horizon. Through theoretical analysis we find that though state space closure arises a concern about diversity, it makes the EDRL trained on a finite-horizon generalised to the infinite-horizon scenario without deterioration of content quality. Moreover, we verify the quality and diversity of contents generated by EDRL via empirical studies on the widely used Super Mario Bros. benchmark. Experimental results reveal that the current EDRL approach's ability of generating diverse game levels is limited due to the state space closure, whereas it does not suffer from reward deterioration given a horizon longer than the one of training. Concluding our findings and analysis, we argue that future works in generating online diverse and high-quality contents via EDRL should address the issue of diversity on the premise of state space closure which ensures the quality.
translated by 谷歌翻译
学习优化是一个快速增长的领域,旨在使用机器学习(ML)来解决优化问题或改善现有的优化算法。特别是,图形神经网络(GNN)被认为是用于优化问题的合适ML模型,其变量和约束是置换的 - 例如线性程序(LP)。尽管文献报道了令人鼓舞的数值结果,但本文确定了将GNN应用于解决LP的理论基础。给定LPS的任何尺寸限制,我们构造了一个GNN,该GNN将不同的LP映射到不同的输出。我们表明,正确构建的GNN可以可靠地预测广泛类别中每个LP的可行性,界限和最佳解决方案。我们的证明是基于最近发现的Weisfeiler-Lehman同构测试与GNN之间的联系。为了验证我们的结果,我们培训了一个简单的GNN,并提出了将LP映射到其可行性和解决方案中的准确性。
translated by 谷歌翻译
虚拟现实(VR)技术通常用于娱乐应用中;但是,它也已在我们生活的更严重方面(例如安全)中部署在实际应用中。为了支持在危险行业工作的人们,VR可以确保操作员操纵标准化的任务并协作以应对潜在的风险。令人惊讶的是,很少的研究重点是人们如何在VR环境中进行协作。很少有研究注意运营商在其协作任务中的认知负荷。一旦任务要求变得复杂,许多研究人员将专注于优化相互作用界面的设计,以减少操作员的认知负载。这种方法可能是有价值的。但是,它实际上可以使操作员承受更重要的认知负担,并可能导致更多的错误和协作失败。在本文中,我们提出了一个新的协作VR系统,以支持在VR环境中工作的两个遥控器,以远程控制未螺旋的地面车辆。我们使用比较的实验来评估协作VR系统,重点是在任务和操作总数上花费的时间。我们的结果表明,在两人组中,操作过程中的过程和操作过程中的认知负荷总数明显低于单人组。我们的研究阐明了设计VR系统的启示,以支持有关远程运营商工作流程的协作工作,而不是简单地优化设计成果。
translated by 谷歌翻译
游戏由多种类型的内容组成,而不同内容类型的和谐在游戏设计中起着至关重要的作用。但是,大多数关于程序内容生成的作品一次仅考虑一种类型的内容。在本文中,我们通过音乐提出并制定了从音乐中的在线水平生成,以实时的方式将级别功能与音乐功能匹配,同时适应玩家的比赛速度。一个通用框架通过强化学习为在线玩家自适应的程序内容生成,oparl for Short是建立在经验驱动的强化学习和可控制的强化学习的基础上的,以从音乐中获得在线水平的生成。此外,提出了基于本地搜索和K-Nearest邻居的新型控制策略,并将其集成到Oparl中,以控制在线收集的播放数据的水平发电机。基于仿真的实验的结果表明,我们实施Oparl有能力在在线方式以``Energy''动态的``能量''动态来生成可玩水平。
translated by 谷歌翻译
在这项工作中,我们以一种充满挑战的自我监督方法研究无监督的领域适应性(UDA)。困难之一是如何在没有目标标签的情况下学习任务歧视。与以前的文献直接使跨域分布或利用反向梯度保持一致,我们建议域混淆对比度学习(DCCL),以通过域难题桥接源和目标域,并在适应后保留歧视性表示。从技术上讲,DCCL搜索了最大的挑战方向,而精美的工艺领域将增强型混淆为正对,然后对比鼓励该模型向其他领域提取陈述,从而学习更稳定和有效的域名。我们还研究对比度学习在执行其他数据增强时是否必然有助于UDA。广泛的实验表明,DCCL明显优于基准。
translated by 谷歌翻译
本文为旋转组开发了旋转不变的阵阵卷积,因此(3)可以提炼球形信号的多尺度信息。球形的阵头变换从$ \ mathbb {s}^2 $推广到SO(3)组,该组通过一组紧密的Framelet操作员将球形信号分解为近似和详细的光谱系数。分解和重建过程中的球形信号实现了旋转不变性。基于阵型变换,我们形成了一个带有多个SO(3)一面卷积层的NEDLET近似均值球形CNN(NES)。该网络建立了一个强大的工具,可以提取球形信号的几何不变特征。该模型允许具有多分辨率表示的足够网络可伸缩性。通过小波收缩激活函数学习了强大的信号嵌入,该函数会过滤冗余高通表示,同时保持近似旋转不变性。 NES实现了量子化学回归和宇宙微波背景(CMB)的最新性能,删除重建,这显示了通过高分辨率和多尺度球形信号表示解决科学挑战的巨大潜力。
translated by 谷歌翻译
收集足够标记的数据以建立人类活动识别(HAR)模型是昂贵且耗时的。对现有数据的培训通常会使模型偏向于培训数据的分布,因此该模型可能会在具有不同分布的测试数据上执行。尽管现有的转移学习和域适应性的努力试图解决上述问题,但他们仍然需要访问目标域上的未标记数据,这在实际情况下可能是不可能的。很少有作品注意训练一个模型,该模型可以很好地概括为HAR看不见的目标域。在本文中,我们提出了一种新的方法,称为可推广跨域HAR的语义歧视混合(SDMIX)。首先,我们介绍了语义感知的混音,该混音考虑了活动语义范围,以克服域差异带来的语义不一致。其次,我们引入了较大的利润损失,以增强混合歧视,以防止虚拟标签带来的错误分类。在五个公共数据集上进行的综合概括实验表明,我们的SDMIX基本上优于最先进的方法,其平均准确度提高了跨人员,交叉数据库和交叉位置HAR的平均准确性6%。
translated by 谷歌翻译
尽管最近的人工智能和机器学习进展,但许多最先进的方法缺乏解释性和透明度。解释机器学习模型的预测能力和准确评估这些模型的能力是至关重要的。在本文中,我们提出了一种互动可视化工具来阐明主动学习的培训过程。该工具使一个人能够选择有趣的数据点的样本,查看他们的预测值如何在不同的查询阶段改变,从而更好地了解活动学习工作的时间和程度。此外,用户可以利用此工具同时比较不同的主动学习策略,并检查为什么某些策略在某些情况下表达他人。通过一些初步实验,我们证明了我们的可视化面板在各种主动学习实验中使用了很大的潜力,并帮助用户适当地评估其模型。
translated by 谷歌翻译
强化学习算法在竞争挑战板和视频游戏时表现良好。越来越多的研究工作侧重于提高加强学习算法的泛化能力。普通视频游戏AI学习竞赛旨在设计能够学习在培训期间出现不同游戏水平的代理商。本文总结了五年的一般视频游戏AI学习竞争。在每个版本,设计了三场新游戏。对于每场比赛,通过扰动或组合两个训练水平来产生三个测试水平。然后,我们提出了一种新颖的加强学习框架,对一般视频游戏的双程观察,在假设中,它更有可能在不同级别而不是全局信息中观察到类似的本地信息。因此,我们所提出的框架而不是直接输入基于目前游戏屏幕的单个原始像素的屏幕截图,而是将游戏屏幕的编码,转换的全局和本地观测视为两个同时输入,旨在学习播放新级别的本地信息。我们提出的框架是用三种最先进的加强学习算法实施,并在2020年普通视频游戏AI学习竞赛的游戏集上进行了测试。消融研究表明,使用编码,转换的全局和本地观察的出色性能。总体上最好的代理商进一步用作2021次竞赛版的基线。
translated by 谷歌翻译
How to learn an effective reinforcement learning-based model for control tasks from high-level visual observations is a practical and challenging problem. A key to solving this problem is to learn low-dimensional state representations from observations, from which an effective policy can be learned. In order to boost the learning of state encoding, recent works are focused on capturing behavioral similarities between state representations or applying data augmentation on visual observations. In this paper, we propose a novel meta-learner-based framework for representation learning regarding behavioral similarities for reinforcement learning. Specifically, our framework encodes the high-dimensional observations into two decomposed embeddings regarding reward and dynamics in a Markov Decision Process (MDP). A pair of meta-learners are developed, one of which quantifies the reward similarity and the other quantifies dynamics similarity over the correspondingly decomposed embeddings. The meta-learners are self-learned to update the state embeddings by approximating two disjoint terms in on-policy bisimulation metric. To incorporate the reward and dynamics terms, we further develop a strategy to adaptively balance their impacts based on different tasks or environments. We empirically demonstrate that our proposed framework outperforms state-of-the-art baselines on several benchmarks, including conventional DM Control Suite, Distracting DM Control Suite and a self-driving task CARLA.
translated by 谷歌翻译