Learning from Expert Factors: Trajectory-level Reward Shaping for Formulaic Alpha Mining

📄 arXiv: 2507.20263v1 📥 PDF

作者: Junjie Zhao, Chengxi Zhang, Chenkai Wang, Peng Yang

分类: cs.LG, cs.AI, q-fin.PM

发布日期: 2025-07-27


💡 一句话要点

提出轨迹级奖励塑造方法TLRS,提升公式化Alpha挖掘的效率与预测能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 奖励塑造 公式化Alpha挖掘 量化金融 时间序列分析

📋 核心要点

  1. 现有公式化Alpha挖掘方法面临奖励稀疏问题,限制了对庞大符号搜索空间的探索,并导致训练过程不稳定。
  2. TLRS通过计算部分生成表达式与专家公式的子序列相似度,提供密集的中间奖励,并采用奖励中心化机制降低方差。
  3. 实验表明,TLRS显著提升了挖掘因子的预测能力,Rank Information Coefficient提升9.29%,并将时间复杂度从线性降至常数。

📝 摘要(中文)

本文提出了一种轨迹级奖励塑造(TLRS)方法,旨在解决强化学习在公式化Alpha挖掘中因奖励稀疏而导致的探索效率低和训练不稳定问题。TLRS通过衡量部分生成的表达式与专家设计的公式之间的子序列级相似性,提供密集的中间奖励。此外,引入奖励中心化机制以降低训练方差。在六个主要中国和美国股票指数上的大量实验表明,TLRS显著提高了挖掘因子的预测能力,相比现有的基于势函数的塑造算法,Rank Information Coefficient提升了9.29%。值得注意的是,TLRS在计算效率上实现了重大飞跃,将特征维度的时间复杂度从线性降低到常数,这比基于距离的基线方法有了显著改进。

🔬 方法详解

问题定义:公式化Alpha挖掘旨在通过强化学习自动生成可解释且盈利的投资策略。然而,由于底层马尔可夫决策过程的奖励稀疏性,现有方法在探索广阔的表达式空间时效率低下,且训练过程容易不稳定。奖励的稀疏性使得智能体难以学习到有效的策略,从而限制了最终挖掘出的Alpha因子的质量。

核心思路:TLRS的核心思路是通过引入专家知识,对强化学习过程中的轨迹进行奖励塑造。具体来说,它衡量部分生成的表达式(即轨迹的子序列)与一组专家设计的公式之间的相似性,并根据相似度提供密集的中间奖励。这种方式为智能体提供了更频繁的反馈,引导其朝着更有希望的方向探索,从而加速学习过程。

技术框架:TLRS方法主要包含以下几个关键模块:1) 表达式生成器:负责生成公式表达式,作为强化学习智能体的动作。2) 专家公式库:包含一组预先定义的、由领域专家设计的公式,作为奖励塑造的参考。3) 子序列相似度计算模块:计算部分生成的表达式与专家公式之间的子序列相似度,作为奖励塑造的基础。4) 奖励中心化模块:对奖励进行中心化处理,以降低训练方差,提高训练稳定性。5) 强化学习智能体:利用塑造后的奖励进行学习,优化表达式生成策略。

关键创新:TLRS的关键创新在于轨迹级别的奖励塑造和奖励中心化机制。传统的奖励塑造方法通常基于状态或动作的即时奖励,而TLRS则考虑了整个轨迹的上下文信息,通过子序列相似度来评估表达式的质量。此外,奖励中心化机制能够有效地降低训练方差,提高训练的稳定性。另一个重要的创新是计算效率的提升,TLRS将特征维度的时间复杂度从线性降低到常数,显著优于基于距离的基线方法。

关键设计:TLRS的关键设计包括:1) 子序列相似度度量方式的选择,例如可以使用编辑距离或动态时间规整(DTW)等方法。2) 专家公式库的构建,需要选择具有代表性和信息量的专家公式。3) 奖励函数的具体形式,需要平衡探索和利用,避免智能体过度拟合专家公式。4) 奖励中心化机制的参数设置,例如中心化窗口的大小和中心化系数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TLRS在六个主要中国和美国股票指数上显著提高了挖掘因子的预测能力,Rank Information Coefficient相比现有基于势函数的塑造算法提升了9.29%。更重要的是,TLRS将特征维度的时间复杂度从线性降低到常数,在计算效率上实现了重大突破,优于基于距离的基线方法。

🎯 应用场景

TLRS可应用于量化金融领域,用于自动挖掘高质量的公式化Alpha因子,辅助投资决策。该方法能够提高投资策略的盈利能力和可解释性,降低人工设计策略的成本。此外,TLRS的思路也可以推广到其他需要符号搜索的领域,例如程序合成、药物发现等。

📄 摘要(原文)

Reinforcement learning (RL) has successfully automated the complex process of mining formulaic alpha factors, for creating interpretable and profitable investment strategies. However, existing methods are hampered by the sparse rewards given the underlying Markov Decision Process. This inefficiency limits the exploration of the vast symbolic search space and destabilizes the training process. To address this, Trajectory-level Reward Shaping (TLRS), a novel reward shaping method, is proposed. TLRS provides dense, intermediate rewards by measuring the subsequence-level similarity between partially generated expressions and a set of expert-designed formulas. Furthermore, a reward centering mechanism is introduced to reduce training variance. Extensive experiments on six major Chinese and U.S. stock indices show that TLRS significantly improves the predictive power of mined factors, boosting the Rank Information Coefficient by 9.29% over existing potential-based shaping algorithms. Notably, TLRS achieves a major leap in computational efficiency by reducing its time complexity with respect to the feature dimension from linear to constant, which is a significant improvement over distance-based baselines.