在数学金融文献中,有一个丰富的数学模型目录,用于研究算法交易问题(例如营销和最佳执行)。本文介绍了\ MBTGYM,这是一个Python模块,该模块提供了一套健身环境,用于培训强化学习(RL)代理,以解决此类基于模型的交易问题。该模块以一种可扩展的方式设置,以允许不同模型不同方面的组合。它支持对矢量化环境的高效实现,以更快地训练RL代理。在本文中,我们激发了使用RL解决此类基于模型的限制订单书籍中的挑战,我们解释了我们的健身房环境的设计,然后展示其在解决文献中解决标准和非标准问题中的用途。最后,我们为进一步开发模块的路线图制定了路线图,我们将其作为GitHub上的开源存储库提供,以便它可以作为基于模型算法交易的RL研究的焦点。
translated by 谷歌翻译
本文为做市商在订单驱动的市场中的行动介绍了新的代表。该代表使用缩放的beta分布,并在人工智能中采用了三种用于市场创作文献的方法:单价选择,梯子策略和“接触市场的市场制作”。梯子策略在连续价格的间隔内放置统一的体积。基于beta分布的缩放策略将这些策略推广,从而使数量在整个价格间隔内偏斜。我们证明,这种灵活性对于库存管理很有用,库存管理是做市商面临的主要挑战之一。在本文中,我们进行了三个主要实验:首先,我们将基于Beta的动作与阶梯策略的特殊情况进行比较;然后,我们研究了简单固定分布的性能;最后,我们设计和评估了一种简单而直观的动态控制政策,该政策以营销商获得的签名库存来连续调整操作。所有经验评估都基于历史数据,每一侧都有50个级别的历史数据。
translated by 谷歌翻译
在本文中,我们开发了一个模块化框架,用于将强化学习应用于最佳贸易执行问题。该框架的设计考虑了灵活性,以便简化不同的仿真设置的实现。我们不关注代理和优化方法,而是专注于环境,并分解必要的要求,以模拟在强化学习框架下的最佳贸易执行,例如数据预处理,观察结果的构建,行动处理,儿童订单执行,模拟,模拟我们给出了每个组件的示例,探索他们的各个实现\&它们之间的相互作用所带来的困难,并讨论每个组件在模拟中引起的不同现象,并突出了模拟与行为之间的分歧,并讨论了不同的现象。真正的市场。我们通过设置展示我们的模块化实施,该设置是按照时间加权的平均价格(TWAP)提交时间表,允许代理人专门放置限制订单,并通过迭代的迭代来模拟限制订单(LOB)(LOB)和根据相同的时间表,将奖励计算为TWAP基准算法所达到的价格的\ $改进。我们还制定了评估程序,以在培训视野的间隔内纳入给定代理的迭代重新训练和评估,并模仿代理在随着新市场数据的可用而连续再培训时的行为,并模拟算法提供者是限制的监测实践在当前的监管框架下执行。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
我们展示了一个新的财务框架,其中两个基于RL的代理商代表流动资金提供者和流动性的代理商同时学习,以满足他们的目标。由于参数化奖励制定和深度RL的使用,每组都会学习一个能够概括和插入广泛行为的共享政策。这是一步迈向全基于RL的市场模拟器复制复杂的市场条件,特别适合在各种情况下研究金融市场的动态。
translated by 谷歌翻译
提出了一个新颖的框架,用于使用模仿的增强学习(RL)解决最佳执行和放置问题。从拟议的框架中训练的RL代理商在执行成本中始终优于行业基准计时加权平均价格(TWAP)策略,并在样本外交易日期和股票方面表现出了巨大的概括。从三个方面实现了令人印象深刻的表现。首先,我们的RL网络架构称为双窗口Denoise PPO在嘈杂的市场环境中启用了有效的学习。其次,设计了模仿学习的奖励计划,并研究了一组全面的市场功能。第三,我们的灵活动作公式使RL代理能够解决最佳执行和放置,从而使性能更好地比分别解决个体问题。 RL代理的性能在我们的多代理现实历史限制顺序模拟器中进行了评估,在该模拟器中,对价格影响进行了准确评估。此外,还进行了消融研究,证实了我们框架的优势。
translated by 谷歌翻译
最佳市场制造的随机控制问题是定量融资的核心问题之一。在本文中,对基于强化的学习控制器进行了培训,该控制器受到弱一致的多元鹰队基于过程的限制订单模拟器的培训,以获得市场制作控制。拟议的方法利用了蒙特卡洛进行了重新测试的优势,并有助于在弱一致的限制订单簿模型下进行市场开发的研究线。随后的深入增强学习控制器与多个市场制作基准进行了比较,结果表明,即使在大量的交易成本下,它在各种风险奖励指标方面都具有出色的性能。
translated by 谷歌翻译
通过提供流动性,市场制造商在金融市场中发挥着关键作用。他们通常填写订单书籍,以购买和出售限额订单,以便为交易员提供替代价格水平来运营。本文精确地侧重于从基于代理人的角度研究这些市场制造商战略的研究。特别是,我们提出了加强学习(RL)在模拟股市中创建智能市场标志的应用。本研究分析了RL市场制造商代理在非竞争性(同时只有一个RL市场制造商学习)和竞争方案(同时学习的多个RL市场标记)以及如何调整其在SIM2REAL范围内的策略有很有趣的结果。此外,它涵盖了不同实验之间的政策转移的应用,描述了竞争环境对RL代理表现的影响。 RL和Deep RL技术被证明是有利可图的市场制造商方法,从而更好地了解他们在股票市场的行为。
translated by 谷歌翻译
最佳执行是算法交易中节省成本的顺序决策问题。研究发现,加强学习(RL)可以帮助确定订单分类的大小。但是,问题尚未解决:如何以适当的限制价格下达限额订单?关键挑战在于动作空间的“连续折叠双重性”。一方面,使用价格变化百分比变化的连续行动空间是概括。另一方面,交易者最终需要离散地选择限制价格,这是由于tick尺寸的存在,这需要对每个具有不同特征(例如流动性和价格范围)的单人进行专业化。因此,我们需要连续控制进行概括和离散控制以进行专业化。为此,我们提出了一种混合RL方法来结合两者的优势。我们首先使用连续的控制代理来范围范围,然后部署细粒代理以选择特定的限制价格。广泛的实验表明,与现有的RL算法相比,我们的方法具有更高的样本效率和更好的训练稳定性,并且显着优于先前基于学习的方法的订单执行方法。
translated by 谷歌翻译
我们考虑单个强化学习与基于事件驱动的代理商金融市场模型相互作用时学习最佳执行代理的学习动力。交易在事件时间内通过匹配引擎进行异步进行。最佳执行代理在不同级别的初始订单尺寸和不同尺寸的状态空间上进行考虑。使用校准方法考虑了对基于代理的模型和市场的影响,该方法探讨了经验性风格化事实和价格影响曲线的变化。收敛,音量轨迹和动作痕迹图用于可视化学习动力学。这表明了最佳执行代理如何在模拟的反应性市场框架内学习最佳交易决策,以及如何通过引入战略订单分类来改变模拟市场的反反应。
translated by 谷歌翻译
定量融资中最基本的问题之一是存在适合给定一组选择的市场价格的连续时间扩散模型。传统上,人们采用直觉,理论和经验分析的组合来找到实现精确或近似拟合的模型。我们的贡献是展示该问题的合适游戏理论表述如何通过利用现代深层多代理强化学习中的现有发展来帮助解决这个问题,以在随机过程的空间中进行搜索。更重要的是,我们希望社区可以利用和扩展我们的技术来解决该领域的重要问题,例如SPX-VIX校准问题。我们的实验表明,我们能够学习局部波动性,以及在波动率过程中所需的路径依赖性,以最大程度地降低百慕大选项的价格。在一句话中,我们的算法可以看作是粒子方法\`{a} la Guyon et henry-labordere,而粒子而不是被设计为确保$ \ sigma_ {loc}}(t,s_t)^2 = \ mathbb { e} [\ sigma_t^2 | s_t] $,正在学习与更通用校准目标合作的RL驱动的代理。这是第一批使用衍生校准问题桥接加固学习的工作。
translated by 谷歌翻译
多代理系统(例如自动驾驶或工厂)作为服务的一些最相关的应用程序显示混合动机方案,代理商可能具有相互矛盾的目标。在这些环境中,代理可能会在独立学习下的合作方面学习不良的结果,例如过度贪婪的行为。在现实世界社会的动机中,在这项工作中,我们建议利用市场力量为代理商成为合作的激励措施。正如囚犯困境的迭代版本所证明的那样,拟议的市场配方可以改变游戏的动力,以始终如一地学习合作政策。此外,我们在空间和时间扩展的设置中评估了不同数量的代理的方法。我们从经验上发现,市场的存在可以通过其交易活动改善总体结果和代理人的回报。
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
我们提出了一种方法,用于寻找任意初始投资组合和市场国家的最佳对冲政策。我们开发了一种新型的参与者评论算法,用于解决一般的规避风险随机控制问题,并使用它同时学习跨多种风险规避水平的对冲策略。我们在随机波动性环境中以数值示例来证明该方法的有效性。
translated by 谷歌翻译
随着可再生能源的延伸升幅,盘中电市场在交易商和电力公用事业中录得不断增长的普及,以应对能源供应的诱导波动。通过其短途交易地平线和持续的性质,盘中市场提供了调整日前市场的交易决策的能力,或者在短期通知中降低交易风险。通过根据当前预测修改其提供的能力,可再生能源的生产者利用盘中市场降低预测风险。然而,由于电网必须保持稳定,电力仅部分可存储,因此市场动态很复杂。因此,需要在盘区市场中运营的强大和智能交易策略。在这项工作中,我们提出了一种基于深度加强学习(DRL)算法的新型自主交易方法作为可能的解决方案。为此目的,我们将盘区贸易塑造为马尔可夫决策问题(MDP),并采用近端策略优化(PPO)算法作为我们的DRL方法。介绍了一种模拟框架,使得连续盘整价格的分辨率提供一分钟步骤。从风园运营商的角度来看,我们在案例研究中测试我们的框架。我们在普通贸易信息旁边包括价格和风险预测。在2018年德国盘区交易结果的测试场景中,我们能够以至少45.24%的改进优于多个基线,显示DRL算法的优势。但是,我们还讨论了DRL代理的局限性和增强功能,以便在未来的工作中提高性能。
translated by 谷歌翻译
在这项工作中,我们应对疏忽目标波动战略(电视)的危险证券(电视),风险资产组合和无风险的资金成本,以便在某种程度上保持投资组合的实现波动性的无风险资产等级。TVS风险投资组合组合的不确定性以及每个组件的对冲成本的差异需要解决控制问题以评估期权价格。我们派生了黑色和斯科尔斯(BS)情景问题的分析解决方案。然后,我们使用强化学习(RL)技术来确定导致局部波动率(LV)模型下最保守价格的基金组合物,其中不可用先验解决方案。我们展示了RL代理商的性能如何与通过对电视电视动态应用PATH-WISE BS分析策略而获得的那些兼容,因此在LV场景中也似乎竞争。
translated by 谷歌翻译
本文介绍了用于交易单一资产的双重Q网络算法,即E-MINI S&P 500连续期货合约。我们使用经过验证的设置作为我们环境的基础,并具有多个扩展。我们的贸易代理商的功能不断扩展,包括其他资产,例如商品,从而产生了四种型号。我们还应对环境条件,包括成本和危机。我们的贸易代理商首先接受了特定时间段的培训,并根据新数据进行了测试,并将其与长期策略(市场)进行了比较。我们分析了各种模型与样本中/样本外性能之间有关环境的差异。实验结果表明,贸易代理人遵循适当的行为。它可以将其政策调整为不同的情况,例如在存在交易成本时更广泛地使用中性位置。此外,净资产价值超过了基准的净值,代理商在测试集中的市场优于市场。我们使用DDQN算法对代理商在金融领域中的行为提供初步见解。这项研究的结果可用于进一步发展。
translated by 谷歌翻译
近年来,许多定量金融领域的从业者试图使用深度强化学习(DRL)来建立更好的定量交易(QT)策略。然而,许多现有研究未能应对几个严重的挑战,例如非平稳财务环境以及在实际金融市场应用DRL时的偏见和差异权衡。在这项工作中,我们提出了Safe-Finrl,这是一种基于DRL的新型高FREQ股票交易策略,该策略通过近部财务环境以及低偏差和差异估算而增强。我们的主要贡献是双重的:首先,我们将漫长的财务时间序列分为近乎固定的短期环境;其次,我们通过将一般反探测器纳入软批评者中,在近部财务环境中实施Trace-SAC。对加密货币市场的广泛实验表明,避风势范围提供了稳定的价值估计,并稳定的政策改善,并在近部财务环境中显着降低了偏见和差异。
translated by 谷歌翻译
深度强化学习(RL)导致了许多最近和开创性的进步。但是,这些进步通常以培训的基础体系结构的规模增加以及用于训练它们的RL算法的复杂性提高,而均以增加规模的成本。这些增长反过来又使研究人员更难迅速原型新想法或复制已发表的RL算法。为了解决这些问题,这项工作描述了ACME,这是一个用于构建新型RL算法的框架,这些框架是专门设计的,用于启用使用简单的模块化组件构建的代理,这些组件可以在各种执行范围内使用。尽管ACME的主要目标是为算法开发提供一个框架,但第二个目标是提供重要或最先进算法的简单参考实现。这些实现既是对我们的设计决策的验证,也是对RL研究中可重复性的重要贡献。在这项工作中,我们描述了ACME内部做出的主要设计决策,并提供了有关如何使用其组件来实施各种算法的进一步详细信息。我们的实验为许多常见和最先进的算法提供了基准,并显示了如何为更大且更复杂的环境扩展这些算法。这突出了ACME的主要优点之一,即它可用于实现大型,分布式的RL算法,这些算法可以以较大的尺度运行,同时仍保持该实现的固有可读性。这项工作提出了第二篇文章的版本,恰好与模块化的增加相吻合,对离线,模仿和从演示算法学习以及作为ACME的一部分实现的各种新代理。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolutionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policybased methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译