闭环水库管理(CLRM)在资产的生命中多次进行历史匹配和生产优化,可以为指定目标提供显着改善。由于数据同化和优化所需的大量流量模拟,这些过程在计算上昂贵。现有的CLRM程序是通过资产应用的,而无需利用可能在范围资产中有用的信息。在这里,我们开发了一个CLRM框架,用于多个井数的多个资产。我们使用深度强化学习来培训适用于所有资产的单一全球控制政策。新框架是最近引入的单个资产控制政策方法的扩展。将嵌入层纳入表示形式,以处理针对不同资产出现的不同数量的决策变量。由于全球控制策略从多个资产中学习了有用功能的统一表示,因此构造比逐项培训要便宜(我们在示例中观察到大约3倍加速)。生产优化问题包括对井设置的相对变化约束,这使得适合实际使用的结果。我们将多资产的CLRM框架应用于2D和3D水浸水的示例。在这两种情况下,都考虑了四个具有不同井计数,井配置和地统计描述的资产。数值实验表明,全球控制策略为2D和3D案例提供了客观函数值,这些策略与每个资产单独培训的控制策略中几乎相同。这一有希望的发现表明,多资产的CLRM确实可能代表了可行的实践策略。
translated by 谷歌翻译
我们提出了一个无模型增强学习(RL)框架的案例研究,以解决预定义参数不确定性分布和部分可观察到的随机最佳控制。我们专注于强大的最佳井控制问题,这是地下储层管理领域的密集研究活动的主题。对于此问题,由于数据仅在井位置可用,因此部分观察到系统。此外,由于可用字段数据的稀疏性,模型参数高度不确定。原则上,RL算法能够学习最佳动作策略(从状态到动作的地图),以最大程度地提高数值奖励信号。在Deep RL中,使用深神经网络对从状态到动作进行参数化的映射是参数化的。在强大的最佳井控制问题的RL公式中,状态由井位的饱和度和压力值表示,而动作代表控制通过井流的阀门开口。数值奖励是指总扫描效率,不确定的模型参数是地下渗透率场。通过引入域随机化方案来处理模型参数不确定性,该方案利用群集分析其不确定性分布。我们使用两种最先进的RL算法,近端策略优化(PPO)和Advantage Actor-Critic(A2C)提出数值结果,这些结果是在两个地下流量测试用例上,这些算法代表了两个不同的不确定性分布的渗透率场。根据使用差分进化算法获得的优化结果对结果进行了测试。此外,我们通过评估从训练过程中未使用的参数不确定性分布中得出的看不见的样本中学习的控制策略,证明了对RL的鲁棒性。
translated by 谷歌翻译
增强学习(RL)是解决模型参数高度不确定的强大最佳井控制问题的有前途的工具,并且在实践中可以部分观察到系统。但是,强大的控制策略的RL通常依赖于进行大量模拟。对于具有计算密集型模拟的案例,这很容易成为计算上的棘手。为了解决这个瓶颈,引入了自适应多网格RL框架,该框架的灵感来自迭代数值算法中使用的几何多机方法原理。最初,使用基础偏微分方程(PDE)的粗电网离散化(PDE)的粗网格离散化,使用计算有效的低忠诚度模拟来学习RL控制策略。随后,模拟保真度以适应性的方式增加了对相当于模型域最优秀的最高忠诚度模拟。提出的框架使用最先进的基于策略的RL算法,即近端策略优化(PPO)算法证明。结果显示了两项案例研究的结果,该研究是由SPE-10模型2基准案例研究启发的强大最佳井控制问题。使用所提出的框架节省了其单个细网格对应物的计算成本的60-70%,可以观察到计算效率的显着提高。
translated by 谷歌翻译
具有成本效益的资产管理是多个行业的兴趣领域。具体而言,本文开发了深入的加固学习(DRL)解决方案,以自动确定不断恶化的水管的最佳康复政策。我们在在线和离线DRL设置中处理康复计划的问题。在在线DRL中,代理与具有不同长度,材料和故障率特征的多个管道的模拟环境进行交互。我们使用深Q学习(DQN)训练代理商,以最低限度的平均成本和减少故障概率学习最佳政策。在离线学习中,代理使用静态数据,例如DQN重播数据,通过保守的Q学习算法学习最佳策略,而无需与环境进行进一步的交互。我们证明,基于DRL的政策改善了标准预防,纠正和贪婪的计划替代方案。此外,从固定的DQN重播数据集中学习超过在线DQN设置。结果保证,由大型国家和行动轨迹组成的水管的现有恶化概况为在离线环境中学习康复政策提供了宝贵的途径,而无需模拟器。
translated by 谷歌翻译
Machine learning frameworks such as Genetic Programming (GP) and Reinforcement Learning (RL) are gaining popularity in flow control. This work presents a comparative analysis of the two, bench-marking some of their most representative algorithms against global optimization techniques such as Bayesian Optimization (BO) and Lipschitz global optimization (LIPO). First, we review the general framework of the model-free control problem, bringing together all methods as black-box optimization problems. Then, we test the control algorithms on three test cases. These are (1) the stabilization of a nonlinear dynamical system featuring frequency cross-talk, (2) the wave cancellation from a Burgers' flow and (3) the drag reduction in a cylinder wake flow. We present a comprehensive comparison to illustrate their differences in exploration versus exploitation and their balance between `model capacity' in the control law definition versus `required complexity'. We believe that such a comparison paves the way toward the hybridization of the various methods, and we offer some perspective on their future development in the literature on flow control problems.
translated by 谷歌翻译
在现代环境和社会问题的背景下,人们对能够识别土木工程系统的管理策略的方法的需求越来越大,最大程度地降低了结构性故障风险,同时最好计划检查和维护(I&M)流程。由于与联合系统级状态描述下的全局优化方法相关的计算复杂性,大多数可用方法将I&M决策问题简化为组件级别。在本文中,我们提出了一个有效的算法框架,用于在暴露于恶化环境的工程系统下进行推理和决策制定,从而直接在系统级别提供最佳的管理策略。在我们的方法中,决策问题被提出为部分可观察到的马尔可夫决策过程,其动态是在贝叶斯网络条件结构中编码的。该方法可以通过高斯层次结构和动态贝叶斯网络在组件之间平等或一般,不平等的恶化相关性下处理环境。在政策优化方面,我们采用了深层分散的多代理参与者 - 批评(DDMAC)强化学习方法,其中政策由批评家网络指导的参与者神经网络近似。通过在模拟环境中包括劣化依赖性,并通过在系统级别制定成本模型,DDMAC策略本质上考虑了基本系统效应。通过对疲劳恶化下的9分和钢架进行的数值实验证明了这一点。结果表明,与最先进的启发式方法相比,DDMAC政策可提供可观的好处。 DDMAC策略对系统效应的固有考虑也可以根据学习的政策来解释。
translated by 谷歌翻译
机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件,例如,感知算法感知环境,并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此,通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作,同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中,并通过传感器读数推断位置。在我们的工作中,我们开发了一种深度学习方法,以直接优化信标的放置和位置推断以达到本地化精度。然后,我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中,我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器,有效地直接优化了物理设计和控制参数,以直接优化任务性能。然后,我们对此进行跟进,以允许对离散形态参数(例如四肢的数字和配置)进行优化。最后,我们通过探索优化的软机器人的制造和部署来得出结论。
translated by 谷歌翻译
网络脆弱性管理是网络安全操作中心(CSOC)的关键功能,该中心有助于保护组织免受计算机和网络系统上的网络攻击。对手比CSOC拥有不对称的优势,因为这些系统中的缺陷次数与安全团队的扩展率相比,在资源受限的环境中减轻它们的速度相比,其速度明显更高。当前的方法是确定性和一次性决策方法,在优先考虑和选择缓解漏洞时,这些方法不考虑未来的不确定性。这些方法还受到资源的亚最佳分布的约束,没有灵活性来调整其对脆弱性到达波动的响应的灵活性。我们提出了一个新颖的框架,深深的瓦尔曼,由深入的强化学习代理和整数编程方法组成,以填补网络脆弱性管理过程中的这一空白。我们的顺序决策框架首先确定在给定系统状态下不确定性下为缓解的近乎最佳的资源,然后确定最佳的缓解优先级漏洞实例。我们提出的框架优于当前方法在一年内观察到的模拟和现实世界脆弱性数据优先选择重要的组织特定漏洞。
translated by 谷歌翻译
Reformulating the history matching problem from a least-square mathematical optimization problem into a Markov Decision Process introduces a method in which reinforcement learning can be utilized to solve the problem. This method provides a mechanism where an artificial deep neural network agent can interact with the reservoir simulator and find multiple different solutions to the problem. Such formulation allows for solving the problem in parallel by launching multiple concurrent environments enabling the agent to learn simultaneously from all the environments at once, achieving significant speed up.
translated by 谷歌翻译
石油场和地震成像的储层模拟被称为石油和天然气(O&G)行业中高性能计算(HPC)最苛刻的工作量。模拟器数值参数的优化起着至关重要的作用,因为它可以节省大量的计算工作。最先进的优化技术基于运行大量模拟,特定于该目的,以找到良好的参数候选者。但是,在时间和计算资源方面,使用这种方法的成本高昂。这项工作提出了金枪鱼,这是一种新方法,可增强使用性能模型的储层流仿真的最佳数值参数的搜索。在O&G行业中,通常使用不同工作流程中的模型合奏来减少与预测O&G生产相关的不确定性。我们利用此类工作流程中这些合奏的运行来从每个模拟中提取信息,并在其后续运行中优化数值参数。为了验证该方法,我们在历史匹配(HM)过程中实现了它,该过程使用Kalman滤波器算法来调整储层模型的集合以匹配实际字段中观察到的数据。我们从许多具有不同数值配置的模拟中挖掘了过去的执行日志,并根据数据提取的功能构建机器学习模型。这些功能包括储层模型本身的属性,例如活动单元的数量,即模拟行为的统计数据,例如线性求解器的迭代次数。采样技术用于查询甲骨文以找到可以减少经过的时间的数值参数,而不会显着影响结果的质量。我们的实验表明,预测可以平均将HM工作流程运行时提高31%。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
Energy management systems (EMS) are becoming increasingly important in order to utilize the continuously growing curtailed renewable energy. Promising energy storage systems (ESS), such as batteries and green hydrogen should be employed to maximize the efficiency of energy stakeholders. However, optimal decision-making, i.e., planning the leveraging between different strategies, is confronted with the complexity and uncertainties of large-scale problems. Here, we propose a sophisticated deep reinforcement learning (DRL) methodology with a policy-based algorithm to realize the real-time optimal ESS planning under the curtailed renewable energy uncertainty. A quantitative performance comparison proved that the DRL agent outperforms the scenario-based stochastic optimization (SO) algorithm, even with a wide action and observation space. Owing to the uncertainty rejection capability of the DRL, we could confirm a robust performance, under a large uncertainty of the curtailed renewable energy, with a maximizing net profit and stable system. Action-mapping was performed for visually assessing the action taken by the DRL agent according to the state. The corresponding results confirmed that the DRL agent learns the way like what a human expert would do, suggesting reliable application of the proposed methodology.
translated by 谷歌翻译
通过加强学习解决现实世界的顺序决策问题(RL)通常始于使用模拟真实条件的模拟环境。我们为现实的农作物管理任务提供了一种新颖的开源RL环境。 Gym-DSSAT是高保真作物模拟器的农业技术转移决策支持系统(DSSAT)的健身房界面。在过去的30年中,DSSAT已发展,并被农学家广泛认可。 Gym-DSSAT带有基于现实世界玉米实验的预定义仿真。环境与任何健身房环境一样易于使用。我们使用基本RL算法提供性能基准。我们还简要概述了用Fortran编写的单片DSSAT模拟器如何变成Python RL环境。我们的方法是通用的,可以应用于类似的模拟器。我们报告了非常初步的实验结果,这表明RL可以帮助研究人员改善受精和灌溉实践的可持续性。
translated by 谷歌翻译
实验数据的获取成本很高,这使得很难校准复杂模型。对于许多型号而言,鉴于有限的实验预算,可以产生最佳校准的实验设计并不明显。本文介绍了用于设计实验的深钢筋学习(RL)算法,该算法通过Kalman Filter(KF)获得的Kullback-Leibler(KL)差异测量的信息增益最大化。这种组合实现了传统方法太昂贵的快速在线实验的实验设计。我们将实验的可能配置作为决策树和马尔可夫决策过程(MDP),其中每个增量步骤都有有限的操作选择。一旦采取了动作,就会使用各种测量来更新实验状态。该新数据导致KF对参数进行贝叶斯更新,该参数用于增强状态表示。与NASH-SUTCLIFFE效率(NSE)指数相反,该指数需要额外的抽样来检验前进预测的假设,KF可以通过直接估计通过其他操作获得的新数据值来降低实验的成本。在这项工作中,我们的应用集中在材料的机械测试上。使用复杂的历史依赖模型的数值实验用于验证RL设计实验的性能并基准测试实现。
translated by 谷歌翻译
我们解决了多梯队供应链中生产规划和分布的问题。我们考虑不确定的需求和铅,这使得问题随机和非线性。提出了马尔可夫决策过程配方和非线性编程模型。作为一个顺序决策问题,深度加强学习(RL)是一种可能的解决方案方法。近年来,这种类型的技术从人工智能和优化社区获得了很多关注。考虑到不同领域的深入RL接近获得的良好结果,对在运营研究领域的问题中造成越来越兴趣的兴趣。我们使用了深入的RL技术,即近端政策优化(PPO2),解决了考虑不确定,定期和季节性需求和常数或随机交货时间的问题。实验在不同的场景中进行,以更好地评估算法的适用性。基于线性化模型的代理用作基线。实验结果表明,PPO2是这种类型的问题的竞争力和适当的工具。 PPO2代理在所有情景中的基线都优于基线,随机交货时间(7.3-11.2%),无论需求是否是季节性的。在具有恒定交货时间的情况下,当不确定的需求是非季节性的时,PPO2代理更好(2.2-4.7%)。结果表明,这种情况的不确定性越大,这种方法的可行性就越大。
translated by 谷歌翻译
本文提出了基于深度Q学习的金融投资组合交易深增强学习算法。该算法能够从任何大小的横截面数据集交易高维投资组合,其可以包括资产中的数据间隙和非唯一历史长度。我们通过对每种环境的一个资产进行采样,在每种环境中对所有环境进行投资来顺序设置环境,并通过“资产集合”的平均返回,从而奖励资产的退货和现金预订。这强制执行代理以战略性地将资本分配给其预测以上平均值的资产。我们在采样外部分析中应用我们的方法,以48美国股票的组合设置,在股票中的数量和交易成本水平中,在十辆高达500股的股票数量上变化。平均优势算法通过仅为所有投资组合使用一个超参数设置,通过大型边距所考虑被动和活动基准投资策略。
translated by 谷歌翻译
最近的文学建立了神经网络可以代表供应链和物流中一系列随机动态模型的良好政策。我们提出了一种结合方差减少技术的新算法,以克服通常在文献中使用的算法的限制,以学习此类神经网络策略。对于古典丢失的销售库存模型,该算法了解到使用无模型算法学习的神经网络策略,同时始于最优于数量级的最佳启发式基准。该算法是一个有趣的候选者,适用于供应链和物流中的其他随机动态问题,因为其开发中的思想是通用的。
translated by 谷歌翻译
最佳的井位置和井注射生产对于储层开发至关重要,以最大程度地利用项目寿命。荟萃分析算法在解决复杂,非线性和非连续优化问题方面表现出良好的性能。但是,在优化过程中涉及大量数值模拟运行。在这项工作中,提出了一种新颖,有效的数据驱动的进化算法,称为通用数据驱动的差异进化算法(GDDE),以减少在良好的设置和控制优化问题上运行的模拟数量。概率神经网络(PNN)被用作选择信息性和有前途的候选者的分类器,并且基于欧几里得距离的最不确定的候选者被预先筛选并使用数值模拟器进行评估。随后,局部替代模型是通过径向基函数(RBF)构建的,优化器发现的替代物的最佳构建,由数值模拟器评估以加速收敛。值得注意的是,RBF模型和PNN的形状因子是通过解决高参数次级优化的优化问题来优化的。结果表明,这项研究中提出的优化算法对于二维储层和卵模型的关节优化的良好选择优化问题非常有前途。
translated by 谷歌翻译
An enhanced geothermal system is essential to provide sustainable and long-term geothermal energy supplies and reduce carbon emissions. Optimal well-control scheme for effective heat extraction and improved heat sweep efficiency plays a significant role in geothermal development. However, the optimization performance of most existing optimization algorithms deteriorates as dimension increases. To solve this issue, a novel surrogate-assisted level-based learning evolutionary search algorithm (SLLES) is proposed for heat extraction optimization of enhanced geothermal system. SLLES consists of classifier-assisted level-based learning pre-screen part and local evolutionary search part. The cooperation of the two parts has realized the balance between the exploration and exploitation during the optimization process. After iteratively sampling from the design space, the robustness and effectiveness of the algorithm are proven to be improved significantly. To the best of our knowledge, the proposed algorithm holds state-of-the-art simulation-involved optimization framework. Comparative experiments have been conducted on benchmark functions, a two-dimensional fractured reservoir and a three-dimensional enhanced geothermal system. The proposed algorithm outperforms other five state-of-the-art surrogate-assisted algorithms on all selected benchmark functions. The results on the two heat extraction cases also demonstrate that SLLES can achieve superior optimization performance compared with traditional evolutionary algorithm and other surrogate-assisted algorithms. This work lays a solid basis for efficient geothermal extraction of enhanced geothermal system and sheds light on the model management strategies of data-driven optimization in the areas of energy exploitation.
translated by 谷歌翻译
在地质不确定性下,快速同化监测数据以更新压力累积和压力累积和二氧化碳(CO2)羽流迁移的预测是地质碳储存中的一个具有挑战性的问题。具有高维参数空间的数据同化的高计算成本阻碍了商业规模库管理的快速决策。我们建议利用具有深度学习技术的多孔介质流动行为的物理理解,以开发快速历史匹配 - 水库响应预测工作流程。应用集合更顺畅的多数据同化框架,工作流程更新地质特性,并通过通过地震反转解释的压力历史和二氧化碳羽毛的量化不确定性来预测水库性能。由于这种工作流程中最具计算昂贵的组件是储层模拟,我们开发了代理模型,以在多孔注射下预测动态压力和CO2羽流量。代理模型采用深度卷积神经网络,具体地,宽的剩余网络和残留的U-Net。该工作流程针对代表碎屑货架沉积环境的扁平三维储层模型验证。智能处理应用于真正的3D储层模型中数量与单层储层模型之间的桥梁。工作流程可以在主流个人工作站上不到一小时内完成历史匹配和储库预测,在不到一小时内。
translated by 谷歌翻译