When AI Trading Agents Compete: Adverse Selection of Meta-Orders by Reinforcement Learning-Based Market Making
作者: Ali Raza Jafree, Konark Jain, Nick Firoozye
分类: q-fin.TR, cs.LG
发布日期: 2025-10-31
💡 一句话要点
利用强化学习的市场做市商对抗中频交易者,揭示逆向选择机制
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 强化学习 高频交易 市场做市 逆向选择 限价订单簿
📋 核心要点
- 现有模型依赖外生价格影响假设,无法准确捕捉市场动态,本文旨在解决高频交易中市场做市商如何利用中频交易者元订单进行逆向选择的问题。
- 论文采用强化学习方法,在Hawkes限价订单簿模型中训练高频市场做市商代理,使其能够学习利用中频交易者元订单引起的价格漂移。
- 实验表明,强化学习代理能够学会利用中频交易者的元订单,但市场做市商利润的增加不一定导致中频交易者滑点显著增加。
📝 摘要(中文)
本文研究了中频交易者如何被机会主义的高频交易者进行逆向选择的机制。我们使用强化学习(RL)在Hawkes限价订单簿(LOB)模型中复现高频市场做市商的行为。与具有外生价格影响假设的经典模型不同,Hawkes模型考虑了内生价格影响和市场的其他关键属性。考虑到市场做市商为LOB中的每个事件更新策略在现实世界中的不切实际性,我们通过脉冲控制强化学习框架构建了高频市场做市商代理。模拟中使用的强化学习利用了近端策略优化(PPO)和自模仿学习。为了复现逆向选择现象,我们测试了强化学习代理与执行元订单的中频交易者(MFT)的交易,并证明了通过与MFT元订单执行代理的训练,强化学习市场做市商代理学会了利用元订单引起的价格漂移。最近的实证研究表明,中频交易者越来越容易受到高频交易代理的逆向选择。随着高频交易在金融市场持续扩散,中频交易者产生的滑点成本可能会随着时间的推移而增加。然而,我们没有观察到市场做市强化学习代理利润的增加必然会导致MFT代理的滑点显著增加。
🔬 方法详解
问题定义:论文旨在研究高频交易者如何通过逆向选择从执行元订单的中频交易者获利。现有方法通常依赖于外生的价格冲击假设,无法准确捕捉市场微观结构和高频交易的复杂动态。此外,为限价订单簿中的每个事件更新市场做市策略在现实中是不切实际的。
核心思路:论文的核心思路是利用强化学习训练一个高频市场做市商代理,使其能够学习并利用中频交易者元订单执行所引起的价格漂移。通过与中频交易者进行对抗训练,市场做市商代理能够识别并利用中频交易者行为中的模式,从而实现盈利。
技术框架:整体框架包括一个Hawkes限价订单簿(LOB)模型,用于模拟市场动态,以及一个基于强化学习的市场做市商代理和一个中频交易者代理。市场做市商代理通过与LOB交互,观察市场状态,并采取行动(例如,提交或取消订单)。中频交易者代理执行预先设定的元订单。强化学习代理的目标是最大化其累积利润。
关键创新:论文的关键创新在于使用强化学习在高频交易环境中模拟市场做市商的行为,并研究其与中频交易者的交互。与传统的基于规则或模型预测控制的市场做市策略不同,强化学习方法能够自适应地学习市场动态,并根据中频交易者的行为调整其策略。此外,论文使用脉冲控制强化学习框架,解决了市场做市商为LOB中的每个事件更新策略的不切实际性。
关键设计:论文使用近端策略优化(PPO)算法训练强化学习代理。PPO是一种策略梯度方法,通过限制策略更新的幅度来提高训练的稳定性。此外,论文还使用了自模仿学习,鼓励代理模仿其过去的成功行为。Hawkes LOB模型用于模拟市场动态,该模型能够捕捉内生价格影响和市场的其他关键属性。市场做市商代理的状态空间包括LOB的状态信息,例如订单簿深度和价格。动作空间包括提交买入或卖出订单、取消订单或不采取任何行动。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过与中频交易者对抗训练,强化学习市场做市商代理能够学会利用中频交易者元订单引起的价格漂移,从而实现盈利。虽然市场做市商代理的利润增加,但中频交易者的滑点成本并没有显著增加,这表明高频交易者可能通过更精细的策略来利用中频交易者,而不仅仅是简单地增加其滑点成本。
🎯 应用场景
该研究成果可应用于金融市场监管、交易策略设计和风险管理。通过理解高频交易者如何利用中频交易者,监管机构可以制定更有效的市场监管规则,以防止市场操纵和不公平交易行为。交易者可以利用该研究结果设计更鲁棒的交易策略,以减少逆向选择的风险。风险管理人员可以利用该模型评估高频交易对市场稳定性的影响。
📄 摘要(原文)
We investigate the mechanisms by which medium-frequency trading agents are adversely selected by opportunistic high-frequency traders. We use reinforcement learning (RL) within a Hawkes Limit Order Book (LOB) model in order to replicate the behaviours of high-frequency market makers. In contrast to the classical models with exogenous price impact assumptions, the Hawkes model accounts for endogenous price impact and other key properties of the market (Jain et al. 2024a). Given the real-world impracticalities of the market maker updating strategies for every event in the LOB, we formulate the high-frequency market making agent via an impulse control reinforcement learning framework (Jain et al. 2025). The RL used in the simulation utilises Proximal Policy Optimisation (PPO) and self-imitation learning. To replicate the adverse selection phenomenon, we test the RL agent trading against a medium frequency trader (MFT) executing a meta-order and demonstrate that, with training against the MFT meta-order execution agent, the RL market making agent learns to capitalise on the price drift induced by the meta-order. Recent empirical studies have shown that medium-frequency traders are increasingly subject to adverse selection by high-frequency trading agents. As high-frequency trading continues to proliferate across financial markets, the slippage costs incurred by medium-frequency traders are likely to increase over time. However, we do not observe that increased profits for the market making RL agent necessarily cause significantly increased slippages for the MFT agent.