智能论文笔记

Self-Learning Tuning for Post-Silicon Validation

Peter Domanski , Dirk Pflüger , Jochen Rivoir , Raphaël Latty

分类：机器学习 | 人工智能

2021-11-17

越来越多的现代芯片复杂性使设计验证更加困难。现有方法不再能够应对硅后验证中稳健性能调整等任务的复杂性。因此，我们提出了一种基于学习优化和加强学习的新方法，以便以高效且稳健的方式解决复杂和混合式调整任务。

translated by 谷歌翻译

Artificial Intelligence and Machine Learning for Quantum Technologies

Mario Krenn , Jonas Landgraf , Thomas Foesel , Florian Marquardt

分类：人工智能 | 机器学习

2022-08-07

近年来，机器学习的巨大进步已经开始对许多科学和技术的许多领域产生重大影响。在本文的文章中，我们探讨了量子技术如何从这项革命中受益。我们在说明性示例中展示了过去几年的科学家如何开始使用机器学习和更广泛的人工智能方法来分析量子测量，估计量子设备的参数，发现新的量子实验设置，协议和反馈策略，以及反馈策略，以及通常改善量子计算，量子通信和量子模拟的各个方面。我们重点介绍了公开挑战和未来的可能性，并在未来十年的一些投机愿景下得出结论。

translated by 谷歌翻译

ORSA: Outlier Robust Stacked Aggregation for Best- and Worst-Case Approximations of Ensemble Systems\

Peter Domanski , Dirk Pflüger , Jochen Rivoir , Raphaël Latty

分类：机器学习

2021-11-17

近年来，由于增加了计算能力，允许在合理的时间框架中培训大型集合的培训，所应用的集合学习的使用已经显着增加。许多应用，例如恶意软件检测，面部识别或财务决策，使用有限的学习算法，并以比任何其他单独的学习算法获得更好的预测性能的方式聚合它们。在半导体器件（PSV）的硅后验证领域中，通常提供数据集，其包括各种装置，例如，例如不同的制造线的芯片。在PSV中，任务是近似于多学习算法的数据的基础功能，每个数据在设备特定的子集上训练，而不是提高整个数据集上任意分类器的性能。此外，期望是，未知数量的子集描述了显示非常不同特征的函数。相应的集合成员称为异常值，可以严重影响近似值。我们的方法旨在找到对异常值强大的合适近似，并且代表了适用于尽可能多的类型的方式最佳或最坏的情况。使用“软最大”或“软MIN”功能代替最大或最小操作员。培训神经网络（NN）以在两阶段过程中学习此“软功能”。首先，我们选择代表最佳或最坏情况的集合成员的子集。其次，我们组合这些成员并定义使用本地异常因素系数（LOF）属性的加权来增加非异常值的影响并减少异常值。加权可确保对异常值的鲁棒性，并确保近似适用于大多数类型。

translated by 谷歌翻译

Asynchronous Hybrid Reinforcement Learning for Latency and Reliability Optimization in the Metaverse over Wireless Communications

Wenhan Yu , Terence Jie Chua , Jun Zhao

分类：机器学习

2022-12-30

Technology advancements in wireless communications and high-performance Extended Reality (XR) have empowered the developments of the Metaverse. The demand for Metaverse applications and hence, real-time digital twinning of real-world scenes is increasing. Nevertheless, the replication of 2D physical world images into 3D virtual world scenes is computationally intensive and requires computation offloading. The disparity in transmitted scene dimension (2D as opposed to 3D) leads to asymmetric data sizes in uplink (UL) and downlink (DL). To ensure the reliability and low latency of the system, we consider an asynchronous joint UL-DL scenario where in the UL stage, the smaller data size of the physical world scenes captured by multiple extended reality users (XUs) will be uploaded to the Metaverse Console (MC) to be construed and rendered. In the DL stage, the larger-size 3D virtual world scenes need to be transmitted back to the XUs. The decisions pertaining to computation offloading and channel assignment are optimized in the UL stage, and the MC will optimize power allocation for users assigned with a channel in the UL transmission stage. Some problems arise therefrom: (i) interactive multi-process chain, specifically Asynchronous Markov Decision Process (AMDP), (ii) joint optimization in multiple processes, and (iii) high-dimensional objective functions, or hybrid reward scenarios. To ensure the reliability and low latency of the system, we design a novel multi-agent reinforcement learning algorithm structure, namely Asynchronous Actors Hybrid Critic (AAHC). Extensive experiments demonstrate that compared to proposed baselines, AAHC obtains better solutions with preferable training time.

translated by 谷歌翻译

Recent Advances in Reinforcement Learning in Finance

Ben Hambly , Renyuan Xu , Huining Yang

分类：机器学习

2021-12-08

由于数据量增加，金融业的快速变化已经彻底改变了数据处理和数据分析的技术，并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比，解决模型假设的财务决策问题，强化学习（RL）的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程，这是许多常用的RL方法的设置。然后引入各种算法，重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的，以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用，包括最佳执行，投资组合优化，期权定价和对冲，市场制作，智能订单路由和Robo-Awaring。

translated by 谷歌翻译

Machine Learning in Event-Triggered Control: Recent Advances and Open Issues

Leila Sedghi , Zohaib Ijaz , Md. Noor-A-Rahim , Kritchai Witheephanich , Dirk Pesch

分类：机器学习

2020-09-27

在过去的十年中，由于分散控制应用程序的趋势和网络物理系统应用的出现，网络控制系统在过去十年中引起了广泛的关注。但是，由于无线网络的复杂性质，现实世界中无线网络控制系统的通信带宽，可靠性问题以及对网络动态的认识不足。将机器学习和事件触发的控制结合起来有可能减轻其中一些问题。例如，可以使用机器学习来克服缺乏网络模型的问题，通过学习系统行为或通过不断学习模型动态来适应动态变化的模型。事件触发的控制可以通过仅在必要时或可用资源时传输控制信息来帮助保护通信带宽。本文的目的是对有关机器学习的使用与事件触发的控制的使用进行综述。机器学习技术，例如统计学习，神经网络和基于强化的学习方法，例如深入强化学习，并结合事件触发的控制。我们讨论如何根据机器学习使用的目的将这些学习算法用于不同的应用程序。在对文献的审查和讨论之后，我们重点介绍了与基于机器学习的事件触发的控制并提出潜在解决方案相关的开放研究问题和挑战。

translated by 谷歌翻译

Investigation of reinforcement learning for shape optimization of profile extrusion dies

Clemens Fricke , Daniel Wolff , Marco Kemmerling , Stefanie Elgeti

分类：机器学习

2022-12-23

Profile extrusion is a continuous production process for manufacturing plastic profiles from molten polymer. Especially interesting is the design of the die, through which the melt is pressed to attain the desired shape. However, due to an inhomogeneous velocity distribution at the die exit or residual stresses inside the extrudate, the final shape of the manufactured part often deviates from the desired one. To avoid these deviations, the shape of the die can be computationally optimized, which has already been investigated in the literature using classical optimization approaches. A new approach in the field of shape optimization is the utilization of Reinforcement Learning (RL) as a learning-based optimization algorithm. RL is based on trial-and-error interactions of an agent with an environment. For each action, the agent is rewarded and informed about the subsequent state of the environment. While not necessarily superior to classical, e.g., gradient-based or evolutionary, optimization algorithms for one single problem, RL techniques are expected to perform especially well when similar optimization tasks are repeated since the agent learns a more general strategy for generating optimal shapes instead of concentrating on just one single problem. In this work, we investigate this approach by applying it to two 2D test cases. The flow-channel geometry can be modified by the RL agent using so-called Free-Form Deformation, a method where the computational mesh is embedded into a transformation spline, which is then manipulated based on the control-point positions. In particular, we investigate the impact of utilizing different agents on the training progress and the potential of wall time saving by utilizing multiple environments during training.

translated by 谷歌翻译

Generating GPU Compiler Heuristics using Reinforcement Learning

Ian Colbert , Jake Daly , Norm Rubin

分类：机器学习 | 人工智能 | 自然语言处理

2021-11-23

GPU编译器是复杂的软件程序，具有许多特定于目标硬件的优化。这些优化通常由使用时间和资源密集型流程的编译器专家手工设计的启发式。在本文中，我们开发了一种GPU编译器自动调节框架，使用禁止策略的深度加强学习来生成提高图形应用程序帧速率的启发式。此外，我们展示了这些学习的启发式的恢复能力，通过分析他们在没有再培训的代码检查中的一年内的稳定性来频繁编译更新。我们表明，我们的机器基于机器的学习编译器自动调节框架匹配或超过98％的图形基准的帧速率，平均隆起为1.6％，高达15.8％。

translated by 谷歌翻译

Storehouse: a Reinforcement Learning Environment for Optimizing Warehouse Management

Julen Cestero , Marco Quartulli , Alberto Maria Metelli , Marcello Restelli

分类：机器学习 | 人工智能

2022-07-08

由于新的数据智能技术，仓库管理系统一直在不断发展和改进。但是，许多当前的优化已应用于特定情况，或者非常需要手动相互作用。这是强化学习技术发挥作用的地方，提供自动化和适应当前优化政策的能力。在本文中，我们介绍了一个可自定义的环境，它概括了用于强化学习的仓库模拟的定义。我们还验证了这种环境，以防止最新的增强学习算法，并将这些结果与人类和随机政策进行比较。

translated by 谷歌翻译

Automatic tuning of hyper-parameters of reinforcement learning algorithms using Bayesian optimization with behavioral cloning

Juan Cruz Barsce , Jorge A. Palombarini , Ernesto C. Martínez

分类：机器学习

2021-12-15

机器学习算法中多个超参数的最佳设置是发出大多数可用数据的关键。为此目的，已经提出了几种方法，例如进化策略，随机搜索，贝叶斯优化和启发式拇指规则。在钢筋学习（RL）中，学习代理在与其环境交互时收集的数据的信息内容严重依赖于许多超参数的设置。因此，RL算法的用户必须依赖于基于搜索的优化方法，例如网格搜索或Nelder-Mead单简单算法，这对于大多数R1任务来说是非常效率的，显着减慢学习曲线和离开用户的速度有目的地偏见数据收集的负担。在这项工作中，为了使RL算法更加用户独立，提出了一种使用贝叶斯优化的自主超参数设置的新方法。来自过去剧集和不同的超参数值的数据通过执行行为克隆在元学习水平上使用，这有助于提高最大化获取功能的加强学习变体的有效性。此外，通过紧密地整合在加强学习代理设计中的贝叶斯优化，还减少了收敛到给定任务的最佳策略所需的状态转换的数量。与其他手动调整和基于优化的方法相比，计算实验显示了有希望的结果，这突出了改变算法超级参数来增加所生成数据的信息内容的好处。

translated by 谷歌翻译

Functional Optimization Reinforcement Learning for Real-Time Bidding

Yining Lu , Changjie Lu , Naina Bandyopadhyay , Manoj Kumar , Gaurav Gupta

分类：人工智能 | 机器学习

2022-06-25

实时竞标是编程广告的新范式。广告商希望做出使用\ textbf {需求端平台}来提高其广告活动的性能的聪明选择。现有的方法正在努力为由于随机招标行为而为优化提供令人满意的解决方案。在本文中，我们提出了具有功能优化的RTB的多代理增强学习体系结构。我们设计了四个代理商竞标环境：基于三个Lagrange-Multiplier的功能优化代理和一个基线代理（没有功能优化的任何属性）首先，已将许多属性分配给每个代理，包括偏见或无偏的胜利概率，Lagrange乘数，然后单击单击 - 通过率。为了评估拟议的RTB策略的性能，我们证明了十个顺序模拟拍卖活动的结果。结果表明，具有功能性动作和奖励的代理商分别具有偏见和公正的获胜信息，具有最重要的平均获胜率和赢得盈余。实验评估表明，我们的方法显着提高了运动的功效和盈利能力。

translated by 谷歌翻译

Parallel Automatic History Matching Algorithm Using Reinforcement Learning

Omar S. Alolayan , Abdullah O. Alomar , John R. Williams

分类：机器学习 | 人工智能

2022-11-14

Reformulating the history matching problem from a least-square mathematical optimization problem into a Markov Decision Process introduces a method in which reinforcement learning can be utilized to solve the problem. This method provides a mechanism where an artificial deep neural network agent can interact with the reservoir simulator and find multiple different solutions to the problem. Such formulation allows for solving the problem in parallel by launching multiple concurrent environments enabling the agent to learn simultaneously from all the environments at once, achieving significant speed up.

translated by 谷歌翻译

Uncovering Instabilities in Variational-Quantum Deep Q-Networks

Maja Franz , Lucas Wolf , Maniraman Periyasamy , Christian Ufrecht , Daniel D. Scherer , Axel Plinge , Christopher Mutschler , Wolfgang Mauerer

分类：人工智能

2022-02-10

在过去的十年中，深入的强化学习（RL）已经取得了长足的进步。同时，最先进的RL算法在培训时间融合方面需要大量的计算预算。最近的工作已经开始通过量子计算的角度来解决这个问题，这有望为几项传统上的艰巨任务做出理论上的速度。在这项工作中，我们研究了一类混合量子古典RL算法，我们共同称为变异量子Q-NETWORKS（VQ-DQN）。我们表明，VQ-DQN方法受到导致学习政策分歧的不稳定性的约束，研究了基于经典模拟的既定结果的重复性，并执行系统的实验以识别观察到的不稳定性的潜在解释。此外，与大多数现有的量子增强学习中现有工作相反，我们在实际量子处理单元（IBM量子设备）上执行RL算法，并研究模拟和物理量子系统之间因实施不足而进行的行为差异。我们的实验表明，与文献中相反的主张相反，与经典方法相比，即使在没有物理缺陷的情况下进行模拟，也不能最终决定是否已知量子方法，也可以提供优势。最后，我们提供了VQ-DQN作为可再现的测试床的强大，通用且经过充分测试的实现，以实现未来的实验。

translated by 谷歌翻译

Reinforcement Learning based Sequential Batch-sampling for Bayesian Optimal Experimental Design

Yonatan Ashenafi , Piyush Pandita , Sayan Ghosh

分类：机器学习 | (统计)机器学习

2021-12-21

使用复杂的数学方法建模的工程问题或者以昂贵的测试或实验为特征，占用有限预算或有限计算资源。此外，行业的实际情景，基于物流和偏好，对可以进行实验的方式施加限制。例如，材料供应可以仅在单次或计算模型的情况下仅实现少量实验，因此可以基于共享计算资源面临显着的等待时间。在这种情况下，一个人通常以允许最大化一个人的知识的方式进行实验，同时满足上述实际限制。实验顺序设计（Sdoe）是一种流行的方法套件，近年来越来越多的不同工程和实际问题。利用贝叶斯形式主义的普通战略是贝叶斯Sdoe，它通常在一步一步的一步中选择单一实验的一步或近视场景中最好的工作。在这项工作中，我们的目标是扩展SDOE策略，以批量输入查询实验或计算机代码。为此，我们利用基于深度加强学习（RL）的政策梯度方法，提出批次选择的查询，以考虑到整个预算。该算法保留了SDOE中固有的顺序性质，同时基于来自深rl域的任务的奖励元素。所提出的方法的独特能力是其应用于多个任务的能力，例如函数的优化，一旦其培训。我们展示了在合成问题上提出了算法的性能，以及挑战的高维工程问题。

translated by 谷歌翻译

Combinatorial optimization and reasoning with graph neural networks

Quentin Cappart , Didier Chételat , Elias Khalil , Andrea Lodi , Christopher Morris , Petar Veličković

分类：机器学习 | 神经与进化计算 | (统计)机器学习

2021-02-18

组合优化是运营研究和计算机科学领域的一个公认领域。直到最近，它的方法一直集中在孤立地解决问题实例，而忽略了它们通常源于实践中的相关数据分布。但是，近年来，人们对使用机器学习，尤其是图形神经网络（GNN）的兴趣激增，作为组合任务的关键构件，直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入，因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾，旨在优化和机器学习研究人员。

translated by 谷歌翻译

Visual processing in context of reinforcement learning

Hlynur Davíð Hlynsson

分类：机器学习

2022-08-26

尽管深度强化学习（RL）最近取得了许多成功，但其方法仍然效率低下，这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示，以解决这一问题。本文介绍了三种不同的表示算法，可以访问传统RL算法使用的数据源的不同子集使用：（i）GRICA受到独立组件分析（ICA）的启发，并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外，格里卡仅需要未分类的环境状态。（ii）潜在表示预测（LARP）还需要更多的上下文：除了要求状态作为输入外，它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。（iii）重新培训通过训练深层神经网络来学习国家表示，以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL，而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现，每种方法都有其优势和缺点，并从我们的实验中得出结论，包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。

translated by 谷歌翻译

HTML版本

Learning for Robust Combinatorial Optimization: Algorithm and Application

Zhihui Shao , Jianyi Yang , Cong Shen , Shaolei Ren

分类：机器学习

2021-12-20

学习优化（L2O）最近被出现为通过利用神经网络的强预测力来解决优化问题的有希望的方法，并提供比传统求解器更低的运行时复杂性。虽然L2O已经应用于各种问题，但对于Minimax优化形式的一个至关重要的且挑战性的问题 - 稳健的组合优化 - 在很大程度上仍然存在。除了指数大的决策空间之外，对于鲁棒组合优化的关键挑战在于内部优化问题，其通常是非凸出的并且缠绕在外的优化中。在本文中，我们研究了强大的组合优化，并提出了一种新的基于学习的优化器，称为LRCO（用于鲁棒组合优化的学习），其在存在不确定上下文存在下快速输出鲁棒解决方案。 LRCO利用一对基于学习的优化器 - 一个用于最小化器，另一个用于最大化器 - 使用它们各自的目标函数作为损失，并且可以培训而无需标签训练问题实例。为了评估LRCO的性能，我们对车辆边缘计算中的任务卸载问题进行仿真。我们的结果突出显示LRCO可以大大降低最坏情况的成本并提高鲁棒性，同时具有非常低的运行时复杂性。

translated by 谷歌翻译

Federated Deep Reinforcement Learning for the Distributed Control of NextG Wireless Networks

Peyman Tehrani , Francesco Restuccia , Marco Levorato

分类：机器学习

2021-12-07

预计下一代（NEVERG）网络将支持苛刻的触觉互联网应用，例如增强现实和连接的自动车辆。虽然最近的创新带来了更大的联系能力的承诺，它们对环境的敏感性以及不稳定的性能无视基于传统的基于模型的控制理由。零触摸数据驱动的方法可以提高网络适应当前操作条件的能力。诸如强化学习（RL）算法等工具可以仅基于观察历史来构建最佳控制策略。具体而言，使用深神经网络（DNN）作为预测器的深RL（DRL）已经被示出，即使在复杂的环境和高维输入中也能够实现良好的性能。但是，DRL模型的培训需要大量数据，这可能会限制其对潜在环境的不断发展统计数据的适应性。此外，无线网络是固有的分布式系统，其中集中式DRL方法需要过多的数据交换，而完全分布的方法可能导致较慢的收敛速率和性能下降。在本文中，为了解决这些挑战，我们向DRL提出了联合学习（FL）方法，我们指的是联邦DRL（F-DRL），其中基站（BS）通过仅共享模型的重量协作培训嵌入式DNN而不是训练数据。我们评估了两个不同版本的F-DRL，价值和策略，并显示出与分布式和集中式DRL相比实现的卓越性能。

translated by 谷歌翻译

When Bioprocess Engineering Meets Machine Learning: A Survey from the Perspective of Automated Bioprocess Development

Nghia Duong-Trung , Stefan Born , Jong Woo Kim , Marie-Therese Schermeyer , Katharina Paulick , Maxim Borisyak , Ernesto Martinez , Mariano Nicolas Cruz-Bournazou , Thorben Werner , Randolf Scholz

分类：机器学习

2022-09-02

机器学习（ML）为生物处理工程的发展做出了重大贡献，但其应用仍然有限，阻碍了生物过程自动化的巨大潜力。用于模型构建自动化的ML可以看作是引入另一种抽象水平的一种方式，将专家的人类集中在生物过程开发的最认知任务中。首先，概率编程用于预测模型的自动构建。其次，机器学习会通过计划实验来测试假设并进行调查以收集信息性数据来自动评估替代决策，以收集基于模型预测不确定性的模型选择的信息数据。这篇评论提供了有关生物处理开发中基于ML的自动化的全面概述。一方面，生物技术和生物工程社区应意识到现有ML解决方案在生物技术和生物制药中的应用的限制。另一方面，必须确定缺失的链接，以使ML和人工智能（AI）解决方案轻松实施在有价值的生物社区解决方案中。我们总结了几个重要的生物处理系统的ML实施，并提出了两个至关重要的挑战，这些挑战仍然是生物技术自动化的瓶颈，并减少了生物技术开发的不确定性。没有一个合适的程序；但是，这项综述应有助于确定结合生物技术和ML领域的潜在自动化。

translated by 谷歌翻译

HTML版本

Automated Reinforcement Learning (AutoRL): A Survey and Open Problems

Jack Parker-Holder , Raghu Rajan , Xingyou Song , André Biedenkapp , Yingjie Miao , Theresa Eimer , Baohe Zhang , Vu Nguyen , Roberto Calandra , Aleksandra Faust

分类：机器学习

2022-01-11

深入学习的强化学习（RL）的结合导致了一系列令人印象深刻的壮举，许多相信（深）RL提供了一般能力的代理。然而，RL代理商的成功往往对培训过程中的设计选择非常敏感，这可能需要繁琐和易于易于的手动调整。这使得利用RL对新问题充满挑战，同时也限制了其全部潜力。在许多其他机器学习领域，AutomL已经示出了可以自动化这样的设计选择，并且在应用于RL时也会产生有希望的初始结果。然而，自动化强化学习（AutorL）不仅涉及Automl的标准应用，而且还包括RL独特的额外挑战，其自然地产生了不同的方法。因此，Autorl已成为RL中的一个重要研究领域，提供来自RNA设计的各种应用中的承诺，以便玩游戏等游戏。鉴于RL中考虑的方法和环境的多样性，在不同的子领域进行了大部分研究，从Meta学习到进化。在这项调查中，我们寻求统一自动的领域，我们提供常见的分类法，详细讨论每个区域并对研究人员来说是一个兴趣的开放问题。

translated by 谷歌翻译