Realistic Market Impact Modeling for Reinforcement Learning Trading Environments

📄 arXiv: 2603.29086 📥 PDF

作者: Lucas Riera Abbade, Anna Helena Reali Costa

分类: cs.LG, cs.CE

发布日期: 2026-04-07


💡 一句话要点

提出MACE环境,解决强化学习交易中市场冲击成本建模不足问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 量化交易 市场冲击 交易环境 Almgren-Chriss模型 非线性成本模型 超参数优化

📋 核心要点

  1. 现有强化学习交易环境忽略或简化交易成本,导致智能体学到的策略在真实市场中表现不佳。
  2. MACE环境通过集成基于Almgren-Chriss框架的非线性市场冲击模型,更真实地模拟交易成本。
  3. 实验表明,MACE环境显著改变了算法性能和交易行为,超参数优化可有效降低交易成本。

📝 摘要(中文)

强化学习在交易领域展现潜力,但多数开源回测环境假设交易成本可忽略或固定,导致智能体学习到的交易行为在实际执行中失效。本文提出了三个兼容Gymnasium的交易环境——MACE(市场调整成本执行)股票交易、保证金交易和投资组合优化——集成了基于Almgren-Chriss框架和经验证实的平方根冲击定律的非线性市场冲击模型。每个环境提供可插拔的成本模型、具有指数衰减的永久冲击跟踪以及全面的交易级别日志记录。我们在NASDAQ-100上评估了五种DRL算法(A2C、PPO、DDPG、SAC、TD3),将固定的10个基点基线与使用Optuna调整超参数的AC模型进行比较。结果表明:(i)成本模型实质性地改变了所有三个环境中的绝对性能和算法的相对排名;(ii)AC模型产生截然不同的交易行为,例如,每日成本从20万美元降至8千美元,换手率从19%降至1%;(iii)超参数优化对于约束病态交易至关重要,成本最多可降低82%;(iv)算法-成本模型交互作用在很大程度上是环境特定的,例如,DDPG在保证金交易中,在AC模型下,样本外夏普比率从-2.1跃升至0.3,而SAC的夏普比率从-0.5降至-1.2。我们将整个套件作为FinRL-Meta的开源扩展发布。

🔬 方法详解

问题定义:现有强化学习交易环境通常假设交易成本是固定的或可以忽略不计的,这与真实市场情况不符。这种简化导致智能体学习到的交易策略在实际执行中会产生远高于预期的交易成本,甚至导致策略失效。因此,需要一个更真实的交易环境,能够准确地模拟市场冲击成本,以便训练出更稳健的交易策略。

核心思路:论文的核心思路是将市场冲击模型集成到强化学习交易环境中,从而更真实地模拟交易成本。具体来说,论文采用了基于Almgren-Chriss框架和经验证实的平方根冲击定律的非线性市场冲击模型。这种模型能够根据交易量动态地调整交易成本,从而更准确地反映市场对交易行为的反应。

技术框架:MACE环境是基于Gymnasium构建的,提供了股票交易、保证金交易和投资组合优化三个环境。每个环境都包含以下主要模块:1) 可插拔的成本模型:允许用户选择不同的市场冲击模型;2) 永久冲击跟踪:使用指数衰减来模拟交易对市场的长期影响;3) 交易级别日志记录:记录每次交易的详细信息,以便进行分析和调试。

关键创新:MACE环境的关键创新在于将非线性市场冲击模型集成到强化学习交易环境中。与传统的固定成本模型相比,MACE环境能够更真实地模拟交易成本,从而使智能体能够学习到更稳健的交易策略。此外,MACE环境还提供了可插拔的成本模型和永久冲击跟踪功能,从而为研究人员提供了更大的灵活性。

关键设计:MACE环境的关键设计包括:1) 市场冲击模型的选择:论文采用了基于Almgren-Chriss框架和平方根冲击定律的模型。2) 超参数优化:使用Optuna对DRL算法的超参数进行优化,以约束病态交易行为。3) 成本模型的校准:使用历史数据对成本模型进行校准,以确保其准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用MACE环境训练的智能体在真实市场中的表现显著优于使用固定成本模型训练的智能体。例如,在保证金交易中,使用AC模型后,DDPG算法的样本外夏普比率从-2.1跃升至0.3,而每日交易成本也从20万美元降至8千美元,换手率从19%降至1%。超参数优化可以将交易成本降低高达82%。

🎯 应用场景

该研究成果可应用于量化交易策略的开发和评估,帮助交易员设计出更稳健、更能适应真实市场环境的交易策略。此外,该环境也可用于研究市场冲击对交易行为的影响,为市场微观结构研究提供新的工具。

📄 摘要(原文)

Reinforcement learning (RL) has shown promise for trading, yet most open-source backtesting environments assume negligible or fixed transaction costs, causing agents to learn trading behaviors that fail under realistic execution. We introduce three Gymnasium-compatible trading environments -- MACE (Market-Adjusted Cost Execution) stock trading, margin trading, and portfolio optimization -- that integrate nonlinear market impact models grounded in the Almgren-Chriss framework and the empirically validated square-root impact law. Each environment provides pluggable cost models, permanent impact tracking with exponential decay, and comprehensive trade-level logging. We evaluate five DRL algorithms (A2C, PPO, DDPG, SAC, TD3) on the NASDAQ-100, comparing a fixed 10 bps baseline against the AC model with Optuna-tuned hyperparameters. Our results show that (i) the cost model materially changes both absolute performance and the relative ranking of algorithms across all three environments; (ii) the AC model produces dramatically different trading behavior, e.g., daily costs dropping from $200k to $8k with turnover falling from 19% to 1%; (iii) hyperparameter optimization is essential for constraining pathological trading, with costs dropping up to 82%; and (iv) algorithm-cost model interactions are strongly environment-specific, e.g., DDPG's OOS Sharpe jumps from -2.1 to 0.3 under AC in margin trading while SAC's drops from -0.5 to -1.2. We release the full suite as an open-source extension to FinRL-Meta.