深度强化学习(DRL)是一种仅从演示和经验中学习机器人控制政策的有前途的方法。为了涵盖机器人的整个动态行为,DRL训练是通常在仿真环境中得出的主动探索过程。尽管这种模拟培训廉价且快速,但将DRL算法应用于现实世界的设置很困难。如果对代理进行训练直到它们在模拟中安全执行,则由于模拟动力学和物理机器人之间的差异引起的SIM到真实差距,将其传输到物理系统很困难。在本文中,我们提出了一种在线培训DRL代理的方法,可以使用基于模型的安全主管在实体车辆上自动驾驶。我们的解决方案使用监督系统检查代理选择的操作是安全还是不安全,并确保在车辆上始终采取安全措施。这样,我们可以在安全,快速,有效地训练DRL算法的同时绕过SIM到现实的问题。我们提供各种现实世界实验,在线培训一辆小型实体车辆,可以自动驾驶,没有事先模拟培训。评估结果表明,我们的方法在未崩溃的同时提高了样品效率的训练代理,并且受过训练的代理比在模拟中训练的代理表现出更好的驾驶性能。
translated by 谷歌翻译
虽然多智能体增强学习被用作学习代理之间的紧急沟通的有效手段,但现有的工作几乎专注于与离散符号的沟通。人类的沟通通常在连续声道上发生(和出现);人类婴儿通过与他们的照顾者连续的信号传导来获得语言。因此,我们问:我们是否能够通过加强学习培训的连续沟通渠道在代理之间观察到的紧急语言?如果是这样,渠道特征对新兴语言的影响是什么?我们提出了一种环境和培训方法,以作为对这些问题进行初步探索的手段。我们使用一个简单的消息环境,其中“扬声器”代理需要将概念传达给“侦听器”。扬声器配备了一个声码器,将符号映射到连续波形,这通过有损的连续通道,听众需要将连续信号映射到概念。使用Deep Q-Learning,我们表明基本的组成性以读取的语言表示出现。我们发现在传送未经证明的概念组合时,噪音在通信渠道中必不可少。我们展示我们可以通过将倾向于“听到”或“口语”英语的护理人员来实现紧急沟通。最后,我们描述了我们的平台是如何作为未来工作的起点,这些工作采用深度加强学习和多种子体系统的组合来研究我们在语言学习和出现中持续信令的问题。
translated by 谷歌翻译
The demonstrated success of transfer learning has popularized approaches that involve pretraining models from massive data sources and subsequent finetuning towards a specific task. While such approaches have become the norm in fields such as natural language processing, implementation and evaluation of transfer learning approaches for chemistry are in the early stages. In this work, we demonstrate finetuning for downstream tasks on a graph neural network (GNN) trained over a molecular database containing 2.7 million water clusters. The use of Graphcore IPUs as an AI accelerator for training molecular GNNs reduces training time from a reported 2.7 days on 0.5M clusters to 1.2 hours on 2.7M clusters. Finetuning the pretrained model for downstream tasks of molecular dynamics and transfer to a different potential energy surface took only 8.3 hours and 28 minutes, respectively, on a single GPU.
translated by 谷歌翻译
我们提出Dave Aquatic Virtual Environals(Dave),这是用于水下机器人,传感器和环境的开源仿真堆栈。传统的机器人模拟器并非旨在应对海洋环境带来的独特挑战,包括但不限于在空间和时间上变化的环境条件,受损或具有挑战性的感知以及在通常未探索的环境中数据的不可用。考虑到各种传感器和平台,对于不可避免地抵制更广泛采用的特定用例,车轮通常会重新发明。在现有模拟器的基础上,我们提供了一个框架,以帮助加快算法的开发和评估,否则这些算法需要在海上需要昂贵且耗时的操作。该框架包括基本的构建块(例如,新车,水跟踪多普勒速度记录仪,基于物理的多微型声纳)以及开发工具(例如,动态测深的产卵,洋流),使用户可以专注于方法论,而不是方法。比软件基础架构。我们通过示例场景,测深数据导入,数据检查的用户界面和操纵运动计划以及可视化来演示用法。
translated by 谷歌翻译
潜在的DIRICHLET分配(LDA)广泛用于一组文档的无监督主题建模。模型中没有使用时间信息。但是,连续令牌的相应主题之间通常存在关系。在本文中,我们向LDA提供了一个扩展,该扩展名使用马尔可夫链来建模时间信息。我们将这种新模型从语音发现进行声学单元发现。作为输入令牌,该模型从具有512个代码的矢量定量(VQ)神经网络中对语音进行了离散的编码。然后,目标是将这512个VQ代码映射到50个类似电话的单元(主题),以使其更加类似于真实的电话。与基本LDA相反,该基础LDA仅考虑VQ代码在发声中的共同发生(文档),Markov链LDA还捕获了连续代码如何相互跟随。与基本LDA相比,这种扩展会导致集群质量和电话分割结果的提高。与最近学习50个单元的媒介量化神经网络方法相比,扩展的LDA模型在电话分割方面的性能较好,但在相互信息中的性能较差。
translated by 谷歌翻译
系列弹性执行器(SEA)具有固有的合规性,可为机器人提供安全的扭矩来源,这些源是与各种环境相互作用的机器人,包括人类。这些应用对海体扭矩控制器有很高的要求,扭矩响应以及与其环境的相互作用行为。为了区分现有技术的扭矩控制器,这项工作正在引入统一的理论和实验框架,其基于它们的扭矩传递行为,表观阻抗行为,特别是表观阻抗的钝化性,即它们的相互作用稳定性,也是如此作为对传感器噪声的敏感性。我们比较经典的海上控制方法,如级联PID控制器和全状态反馈控制器,使用干扰观察者,加速反馈和适应规则,具有先进的控制器。仿真和实验证明了稳定的相互作用,高带宽和低噪声水平之间的折衷。基于这些权衡,可以基于与各个环境的所需交互来设计和调整特定于应用程序特定控制器。
translated by 谷歌翻译
在各种条件下行走期间关节阻抗的知识与临床决策以及机器人步态培训师,腿部假体,腿矫形器和可穿戴外骨骼的发展相关。虽然步行过程中的脚踝阻抗已经通过实验评估,但尚未识别步行期间的膝盖和髋关节阻抗。在这里,我们开发并评估了下肢扰动器,以识别跑步机行走期间髋关节,膝关节和踝关节阻抗。下肢扰动器(Loper)由致动器组成,致动器通过杆连接到大腿。 Loper允许将力扰动施加到自由悬挂的腿上,同时站立在对侧腿上,带宽高达39Hz。在以最小的阻抗模式下行走时,Loper和大腿之间的相互作用力低(<5N),并且对行走图案的效果小于正常行走期间的对象内变异性。使用摆动腿动力学的非线性多体动力学模型,在摆动阶段在速度为0.5米/秒的速度的九个受试者期间估计臀部,膝关节和踝关节阻抗。所识别的模型能够预测实验反应,因为分别占髋部,膝关节和踝部的平均方差为99%,96%和77%。对受试者刚度的平均分别在34-66nm / rad,0-3.5nm / rad,0-3.5nm / rad和2.5-24nm / rad的三个时间点之间变化,分别用于臀部,膝部和踝关节。阻尼分别在1.9-4.6 nms / rad,0.02-0.14 nms / rad和0.2-2.4 nms / rad的0.02-0.14 nms / rad供应到0.2-2.4nms / rad。发达的洛普勒对不受干扰的行走模式具有可忽略的影响,并且允许在摆动阶段识别臀部,膝关节和踝关节阻抗。
translated by 谷歌翻译
考虑到未标记数据的性质,部分标记的培训数据集包含属于新型类别的样本是很常见的。尽管这些所谓的观察到的新类别存在于培训数据中,但它们不属于任何培训标签。相反,开放集将新类别定义为在训练过程中未观察到的类别,但在测试过程中存在。这项研究是第一个通过利用未标记的数据或开放式LACU来概括的新学习政策中观察到的新学习政策和未观察到的新型类别的研究。这项研究对新颖性检测进行了高级综述,以区分涉及观察到的新类别的研究领域以及涉及未观察到的新颖类别的研究领域。然后将Open-Lacu作为相关领域的合成,以维持每个学习策略中每个领域的优势。目前,我们正在敲定第一个开放式LACU网络,该网络将与此预印刷结合使用,以供出版。
translated by 谷歌翻译
Variational inference uses optimization, rather than integration, to approximate the marginal likelihood, and thereby the posterior, in a Bayesian model. Thanks to advances in computational scalability made in the last decade, variational inference is now the preferred choice for many high-dimensional models and large datasets. This tutorial introduces variational inference from the parametric perspective that dominates these recent developments, in contrast to the mean-field perspective commonly found in other introductory texts.
translated by 谷歌翻译
Knowledge graphs (KG) have served as the key component of various natural language processing applications. Commonsense knowledge graphs (CKG) are a special type of KG, where entities and relations are composed of free-form text. However, previous works in KG completion and CKG completion suffer from long-tail relations and newly-added relations which do not have many know triples for training. In light of this, few-shot KG completion (FKGC), which requires the strengths of graph representation learning and few-shot learning, has been proposed to challenge the problem of limited annotated data. In this paper, we comprehensively survey previous attempts on such tasks in the form of a series of methods and applications. Specifically, we first introduce FKGC challenges, commonly used KGs, and CKGs. Then we systematically categorize and summarize existing works in terms of the type of KGs and the methods. Finally, we present applications of FKGC models on prediction tasks in different areas and share our thoughts on future research directions of FKGC.
translated by 谷歌翻译