我们在生成模型下研究了固定置信度设置中的折扣线性马尔可夫决策过程中最佳政策识别的问题。我们首先在实例特定的下限上获得了识别$ \ varepsilon $ - 最佳策略所需的预期数量,并具有概率$ 1- \ delta $。下边界将最佳采样规则表征为复杂的非凸优化程序的解决方案,但可以用作设计简单而近乎最佳的采样规则和算法的起点。我们设计了这样的算法。其中之一展示了样本复杂性上限,由$ {\ cal o}({\ frac {d} {(\ varepsilon+\ delta)^2}}}}(\ log(\ frac {1} {\ delta} {\ delta})+d d d}} ))$,其中$ \ delta $表示次优的动作的最小奖励差距和$ d $是功能空间的尺寸。该上限处于中等信心状态(即,对于所有$ \ delta $),并与现有的minimax和Gap依赖的下限匹配。我们将算法扩展到情节线性MDP。
translated by 谷歌翻译
Clustering analysis of sequence data continues to address many applications in engineering design, aided with the rapid growth of machine learning in applied science. This paper presents an unsupervised machine learning algorithm to extract defining characteristics of earthquake ground-motion records, also called latent features, to aid in ground-motion clustering and selection. In this context, a latent feature is a low dimensional machine-discovered spectral characteristic learned through nonlinear relationships of a neural network autoencoder. Clustering can be performed on the latent features and used to select a representative archetypal subgroup from a large ground-motion suite. The objective of efficient ground-motion selection is to choose records representative of what the structure will probabilistically experience in its lifetime. Three examples are presented to validate this approach, including a synthetic spectral dataset and spectra from field recorded ground-motion records. Deep embedding clustering of ground motion spectra improves on the results of static feature extraction, utilizing characteristics that represent the sparse spectral content of ground motions.
translated by 谷歌翻译
Camera images are ubiquitous in machine learning research. They also play a central role in the delivery of important services spanning medicine and environmental surveying. However, the application of machine learning models in these domains has been limited because of robustness concerns. A primary failure mode are performance drops due to differences between the training and deployment data. While there are methods to prospectively validate the robustness of machine learning models to such dataset drifts, existing approaches do not account for explicit models of the primary object of interest: the data. This makes it difficult to create physically faithful drift test cases or to provide specifications of data models that should be avoided when deploying a machine learning model. In this study, we demonstrate how these shortcomings can be overcome by pairing machine learning robustness validation with physical optics. We examine the role raw sensor data and differentiable data models can play in controlling performance risks related to image dataset drift. The findings are distilled into three applications. First, drift synthesis enables the controlled generation of physically faithful drift test cases. The experiments presented here show that the average decrease in model performance is ten to four times less severe than under post-hoc augmentation testing. Second, the gradient connection between task and data models allows for drift forensics that can be used to specify performance-sensitive data models which should be avoided during deployment of a machine learning model. Third, drift adjustment opens up the possibility for processing adjustments in the face of drift. This can lead to speed up and stabilization of classifier training at a margin of up to 20% in validation accuracy. A guide to access the open code and datasets is available at https://github.com/aiaudit-org/raw2logit.
translated by 谷歌翻译
在处理小型数据集上的临床文本分类时,最近的研究证实,经过调整的多层感知器的表现优于其他生成分类器,包括深度学习。为了提高神经网络分类器的性能,可以有效地使用学习表示的功能选择。但是,大多数特征选择方法仅估计变量之间的线性依赖性程度,并根据单变量统计测试选择最佳特征。此外,学习表示所涉及的特征空间的稀疏性被忽略了。目标:因此,我们的目标是通过压缩临床代表性空间来访问一种替代方法来解决稀疏性,在这种情况下,法国临床笔记也可以有效地处理有限的法国临床笔记。方法:本研究提出了一种自动编码器学习算法来利用临床注释表示的稀疏性。动机是通过降低临床音符表示特征空间的维度来确定如何压缩稀疏的高维数据。然后在受过训练和压缩的特征空间中评估分类器的分类性能。结果:建议的方法为每种评估提供了高达3%的总体绩效增长。最后,分类器在检测患者病情时达到了92%的准确性,91%的召回,91%的精度和91%的F1得分。此外,通过应用理论信息瓶颈框架来证明压缩工作机制和自动编码器预测过程。
translated by 谷歌翻译
从教育和研究的角度来看,关于硬件的实验是机器人技术和控制的关键方面。在过去的十年中,已经介绍了许多用于车轮机器人的开源硬件和软件框架,主要采用独轮车和类似汽车的机器人的形式,目的是使更广泛的受众访问机器人并支持控制系统开发。独轮车通常很小且便宜,因此有助于在较大的机队中进行实验,但它们不适合高速运动。类似汽车的机器人更敏捷,但通常更大且更昂贵,因此需要更多的空间和金钱资源。为了弥合这一差距,我们介绍了Chronos,这是一种具有定制开源电子设备的新型汽车的1/28比例机器人,以及CRS是用于控制和机器人技术的开源软件框架。 CRS软件框架包括实施各种最新的算法,以进行控制,估计和多机构协调。通过这项工作,我们旨在更轻松地使用硬件,并减少启动新的教育和研究项目所需的工程时间。
translated by 谷歌翻译
DeepMind的游戏理论与多代理团队研究多学科学习的几个方面,从计算近似值到游戏理论中的基本概念,再到在富裕的空间环境中模拟社会困境,并在困难的团队协调任务中培训3-D类人动物。我们小组的一个签名目的是使用DeepMind在DeepMind中提供的资源和专业知识,以深入强化学习来探索复杂环境中的多代理系统,并使用这些基准来提高我们的理解。在这里,我们总结了我们团队的最新工作,并提出了一种分类法,我们认为这重点介绍了多代理研究中许多重要的开放挑战。
translated by 谷歌翻译
在数学金融文献中,有一个丰富的数学模型目录,用于研究算法交易问题(例如营销和最佳执行)。本文介绍了\ MBTGYM,这是一个Python模块,该模块提供了一套健身环境,用于培训强化学习(RL)代理,以解决此类基于模型的交易问题。该模块以一种可扩展的方式设置,以允许不同模型不同方面的组合。它支持对矢量化环境的高效实现,以更快地训练RL代理。在本文中,我们激发了使用RL解决此类基于模型的限制订单书籍中的挑战,我们解释了我们的健身房环境的设计,然后展示其在解决文献中解决标准和非标准问题中的用途。最后,我们为进一步开发模块的路线图制定了路线图,我们将其作为GitHub上的开源存储库提供,以便它可以作为基于模型算法交易的RL研究的焦点。
translated by 谷歌翻译
构建可靠的AI决策支持系统需要一组强大的数据来培训模型;在数量和多样性方面。在资源有限的设置或在部署的早期阶段中,获取此类数据集可能很困难。样本拒绝是应对这一挑战的一种方法,但是该领域的许多现有工作都不适合这种情况。本文证明了该立场并提出了一个简单的解决方案作为概念基线的证明。
translated by 谷歌翻译
在可能被GPS贬低的环境中准确估计机器人相对于彼此相对的位置的能力对于执行协作任务至关重要。由于超宽带无线电等技术,因此以低成本的价格获得了代理范围测量值。但是,使用多代理系统中的范围测量的三维相对位置估计的任务遭受了未观察到的。该字母为相对位置的可观察性提供了足够的条件,并使用仅具有范围测量的简单框架,加速度计,速率陀螺仪和磁力计满足条件。该框架已在模拟和实验中进行了测试,其中使用便宜的现成硬件实现了40-50 cm的定位精度。
translated by 谷歌翻译
本文为做市商在订单驱动的市场中的行动介绍了新的代表。该代表使用缩放的beta分布,并在人工智能中采用了三种用于市场创作文献的方法:单价选择,梯子策略和“接触市场的市场制作”。梯子策略在连续价格的间隔内放置统一的体积。基于beta分布的缩放策略将这些策略推广,从而使数量在整个价格间隔内偏斜。我们证明,这种灵活性对于库存管理很有用,库存管理是做市商面临的主要挑战之一。在本文中,我们进行了三个主要实验:首先,我们将基于Beta的动作与阶梯策略的特殊情况进行比较;然后,我们研究了简单固定分布的性能;最后,我们设计和评估了一种简单而直观的动态控制政策,该政策以营销商获得的签名库存来连续调整操作。所有经验评估都基于历史数据,每一侧都有50个级别的历史数据。
translated by 谷歌翻译