在未来几十年中部署的高级反应堆将面临放松管制的能源市场,并可能采用灵活的运营来提高盈利能力。为了帮助从基本负载到柔性操作范式的过渡,寻求自动操作。这项工作着重于自主操作的控制方面。具体而言,层次控制系统旨在支持常规操作瞬变期间的约束执法。在系统中,集成了数据驱动的建模,基于物理的状态观察和经典控制算法,以提供适应性和健壮的解决方案。 320 MW氟化物冷却的高温卵石床反应器是证明控制系统的设计基础。分层控制系统由监督层和低级层组成。监督层收到更改系统操作条件的请求,并根据已分配的约束接受或拒绝它们。发出限制条件以使工厂保持最佳操作区域。低级层与系统的执行器接口,以实现要求的更改,同时保持跟踪和调节职责。为了接受监督层的请求,采用了参考调查算法。为了建模反应器的动力学,使用了系统识别算法,动态模式分解。为了估计无法直接测量的过程变量的演变,采用了无味的卡尔曼滤波器,并结合了核动力学的非线性模型。这些算法的组成导致了40%功率降低瞬变期间约束执法的数值证明。通过修改约束值并在瞬态期间执行这些系统来证明所提出系统的适应性。在嘈杂的环境下执行约束也证明了鲁棒性。
translated by 谷歌翻译
This paper is a technical overview of DeepMind and Google's recent work on reinforcement learning for controlling commercial cooling systems. Building on expertise that began with cooling Google's data centers more efficiently, we recently conducted live experiments on two real-world facilities in partnership with Trane Technologies, a building management system provider. These live experiments had a variety of challenges in areas such as evaluation, learning from offline data, and constraint satisfaction. Our paper describes these challenges in the hope that awareness of them will benefit future applied RL work. We also describe the way we adapted our RL system to deal with these challenges, resulting in energy savings of approximately 9% and 13% respectively at the two live experiment sites.
translated by 谷歌翻译
ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列,该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战,这是由于探测器的几何形状,不均匀的散射和冰中光的吸收,并且低于100 GEV的光,每个事件产生的信号光子数量相对较少。为了应对这一挑战,可以将ICECUBE事件表示为点云图形,并将图形神经网络(GNN)作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开,对不同的中微子事件类型进行分类,并重建沉积的能量,方向和相互作用顶点。基于仿真,我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术,包括已知系统不确定性的影响。对于中微子事件分类,与当前的IceCube方法相比,GNN以固定的假阳性速率(FPR)提高了信号效率的18%。另外,GNN在固定信号效率下将FPR的降低超过8(低于半百分比)。对于能源,方向和相互作用顶点的重建,与当前最大似然技术相比,分辨率平均提高了13%-20%。当在GPU上运行时,GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件,这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。
translated by 谷歌翻译
联合学习(FL)是一个分布式学习范式,使相互不信任的客户能够协作培训通用的机器学习模型。客户数据隐私在FL中至关重要。同时,必须保护模型免受对抗客户的中毒攻击。现有解决方案孤立地解决了这两个问题。我们提出了FedPerm,这是一种新的FL算法,它通过结合一种新型的内部模型参数改组技术来解决这两个问题,该技术可以放大数据隐私,并基于私人信息检索(PIR)技术,该技术允许允许对客户模型更新的加密聚合。这些技术的组合进一步有助于联邦服务器约束从客户端的参数更新,从而减少对抗性客户的模型中毒攻击的影响。我们进一步介绍了Fedperm独特的超参数,可以有效地使用Model Utilities进行计算开销。我们对MNIST数据集的经验评估表明,FEDPERM对FL中现有差异隐私(DP)执法解决方案的有效性。
translated by 谷歌翻译
极端分类(XC)试图用最大的标签集中标记标签的子集标记数据点。通过使用稀疏,手工制作的功能的XC方法优越,用密集,学习的数据来进行深度XC,以数据点和标签的形式吸引了很多关注。负挖掘技术已成为所有深XC方法的关键组成部分,使它们可以扩展到数百万个标签。然而,尽管最近进步,但培训具有大型编码器体系结构(例如变形金刚)的深入XC模型仍然具有挑战性。本文确定,流行负面挖掘技术的内存通常迫使小型批量尺寸保持小且缓慢的训练。作为回应,本文介绍了Ngame,这是一种轻巧的迷你批次创建技术,可证明可证明准确的内部负面样品。这使得与现有负面采样技术相比,具有更大的迷你批次培训,提供更快的收敛性和更高的精度。发现Ngame的准确性比各种基准数据集的最先进方法要高16%,以进行极端分类,并且在回答搜索引擎查询以响应用户网页时检索搜索引擎查询更准确3%显示个性化广告。在流行搜索引擎的实时A/B测试中,Ngame在点击率率中的收益最高可达23%。
translated by 谷歌翻译
由于温室环境中的较高变化和遮挡,机器人对番茄植物的视觉重建非常具有挑战性。 Active-Vision的范式通过推理先前获取的信息并系统地计划相机观点来收集有关植物的新信息,从而有助于克服这些挑战。但是,现有的主动视觉算法不能在有针对性的感知目标(例如叶子节点的3D重建)上表现良好,因为它们不能区分需要重建的植物零件和植物的其余部分。在本文中,我们提出了一种注意力驱动的主动视觉算法,该算法仅根据任务进行任务,仅考虑相关的植物零件。在模拟环境中评估了所提出的方法,该方法是针对番茄植物3D重建的任务,即各种关注水平,即整个植物,主茎和叶子节点。与预定义和随机方法相比,我们的方法将3D重建的准确性提高了9.7%和5.3%的整个植物的准确性,主茎的准确性为14.2%和7.9%,叶子源分别为25.9%和17.3%。前3个观点。同样,与预定义和随机方法相比,我们的方法重建了整个植物的80%和主茎,在1个较少的角度和80%的叶子节点中重建了3个较小的观点。我们还证明,尽管植物模型发生了变化,遮挡量,候选观点的数量和重建决议,但注意力驱动的NBV规划师仍有效地工作。通过在活动视觉上添加注意力机制,可以有效地重建整个植物和靶向植物部分。我们得出的结论是,有必要的注意机制对于显着提高复杂农业食品环境中的感知质量是必要的。
translated by 谷歌翻译
在现实世界的强化学习应用中,学习者的观察空间无处不在,有关手头任务的相关信息和无关紧要。从高维观察中学习一直是监督学习和统计数据(例如,通过稀疏性)进行广泛研究的主题,但是即使在有限的状态/行动(表格)领域,也不能很好地理解强化学习中的类似问题。我们引入了一个新的问题设置,用于增强学习,即马尔可夫决策过程(EXOMDP),其中状态空间将(未知)分解成一个小的(或内源性)组件,并且很大的无关(或外源)组件;外源成分独立于学习者的行为,但以任意的,时间相关的方式演变。我们提供了一种新的算法Exorl,该算法学习了一种近乎最佳的政策,其样品复杂性在内源性组件的大小中多项式,几乎独立于外源成分的大小,从而提供了一个双重指数的改进算法。我们的结果首次突出了在存在外源信息的情况下首次可以进行样品高效的增强学习,并为未来的调查提供了简单,用户友好的基准。
translated by 谷歌翻译
我们考虑了离线强化学习问题,其中目的是学习从记录数据的决策策略。离线RL - 特别是当耦合时函数近似时允许在大或连续状态空间中允许泛化 - 在实践中变得越来越相关,因为它避免了昂贵且耗时的在线数据收集,并且非常适合安全 - 关键域名。对于离线值函数近似方法的现有样本复杂性保证通常需要(1)分配假设(即,良好的覆盖率)和(2)代表性假设(即,表示一些或所有$ q $ -value函数的能力)比什么是更强大的受监督学习所必需的。然而,尽管研究了几十年的研究,但仍然无法充分理解这些条件和离线RL的基本限制。这使得陈和江(2019)猜想勇敢地(覆盖范围最大的覆盖率)和可实现性(最弱的代表条件)不足以足以用于样品有效的离线RL。通过证明通常,即使满足勇敢性和可实现性,也要解决这一猜想,即使满足既勇敢性和可实现性,也需要在状态空间的大小中需要采样复杂性多项式以学习非琐碎的政策。我们的研究结果表明,采样高效的离线强化学习需要超越监督学习的限制性覆盖条件或代表条件,并突出显示出称为过度覆盖的现象,该现象用作离线值函数近似方法的基本障碍。通过线性函数近似的加强学习结果的结果是,即使在恒定尺寸,在线和离线RL之间的分离也可以是任意大的。
translated by 谷歌翻译
可扩展性和准确性在深度极端多标签学习中得到了很好的认可挑战,其中目标是培训架构,以便自动注释具有来自极大的标签集的最相关标签子集的数据点。本文通过将深度极端多标签任务分解为四个更简单的子任务,开发了解决这些挑战的DeepXML框架,每个挑战可以准确且有效地培训。为四个子任务选择不同的组件允许DeepXML生成一个算法系列,在准确性和可扩展性之间产生不同的权衡。特别是,DeepXML产生了ASTEC算法,可以比公开可用的短文本数据集上的领先深度极端分类器更准确,5-30倍更快地进行5-30倍。 ASTEC还可以有效地在Bing短文本数据集上培训,该数据集包含多达6200万个标签,同时在商品硬件上进行数十亿用户和数据点的预测。这允许ASTEC部署在Bing搜索引擎上,以获取许多短文本应用程序,范围从匹配用户查询到广告商出价短语,以显示个性化广告,其中它在点击率,覆盖范围,收入和其他在线指标中产生了显着的收益目前在生产中的最先进技术。 Deepxml的代码可在https://github.com/extreme-classification/deepxml上获得
translated by 谷歌翻译
医疗AI通过支持基于证据的医学实践,个性化患者治疗,降低成本以及改善提供者和患者体验,推进医疗保健的巨大潜力。我们认为解锁此潜力需要一种系统的方法来衡量在大规模异构数据上的医疗AI模型的性能。为了满足这种需求,我们正在建立Medperf,这是一个开放的框架,用于在医疗领域的基准测试机器学习。 Medperf将使联合评估能够将模型安全地分配给不同的评估设施,从而赋予医疗组织在高效和人类监督过程中评估和验证AI模型的性能,同时优先考虑隐私。我们描述了当前的挑战医疗保健和AI社区面临,需要开放平台,Medperf的设计理念,其目前的实施状态和我们的路线图。我们呼吁研究人员和组织加入我们创建Medperf开放基准平台。
translated by 谷歌翻译