When Valid Signals Fail: Regime Boundaries Between LLM Features and RL Trading Policies

📄 arXiv: 2604.10996v1 📥 PDF

作者: Zhengzhe Yang

分类: cs.CL, cs.AI, cs.CE

发布日期: 2026-04-13


💡 一句话要点

利用LLM生成金融特征,但宏观冲击下RL交易策略表现欠佳,揭示特征有效性与策略鲁棒性间的差距

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 量化交易 特征工程 提示优化

📋 核心要点

  1. 现有方法难以有效利用LLM提取的金融特征提升RL交易策略在复杂市场环境下的鲁棒性。
  2. 提出一种基于提示优化的方法,利用LLM将非结构化数据转化为预测性特征,并集成到RL交易代理中。
  3. 实验表明,LLM特征在特定市场环境下有效,但在宏观冲击下会降低策略性能,凸显鲁棒性问题。

📝 摘要(中文)

本文研究了大型语言模型(LLM)能否生成连续数值特征,以改进强化学习(RL)交易代理。构建了一个模块化流程,其中冻结的LLM作为无状态特征提取器,将非结构化的每日新闻和文件转换为固定维度的向量,供下游PPO代理使用。引入了一个自动提示优化循环,将提取提示视为离散超参数,并直接针对信息系数(Information Coefficient,预测收益与实际收益之间的Spearman秩相关性)进行调整,而不是NLP损失。优化后的提示发现了真正具有预测性的特征(在保留数据上的IC高于0.15)。然而,这些有效的中间表示并不能自动转化为下游任务的性能:在宏观经济冲击引起的分布偏移期间,LLM衍生的特征增加了噪声,增强的代理表现不如仅使用价格的基线。在较平静的测试环境中,代理恢复了性能,但宏观经济状态变量仍然是策略改进的最稳健驱动因素。研究结果强调了特征层面的有效性与策略层面的鲁棒性之间的差距,这与分布偏移下迁移学习中已知的挑战相似。

🔬 方法详解

问题定义:论文旨在解决如何利用大型语言模型(LLM)从非结构化数据(如新闻和文件)中提取有效的金融特征,并将其应用于强化学习(RL)交易代理,以提升交易策略的性能。现有方法的痛点在于,LLM提取的特征可能在特定市场环境下有效,但在面对宏观经济冲击等分布偏移时,会导致策略性能下降,缺乏鲁棒性。

核心思路:论文的核心解决思路是构建一个模块化的pipeline,利用LLM作为特征提取器,将非结构化数据转化为数值特征,并将其输入到RL代理中。通过自动提示优化循环,直接针对信息系数(IC)优化LLM的提示,以发现真正具有预测性的特征。同时,研究在不同市场环境下的策略表现,分析LLM特征的鲁棒性。

技术框架:整体框架包含以下几个主要模块:1) 数据预处理模块:收集和清洗每日新闻和文件等非结构化数据。2) LLM特征提取模块:使用冻结的LLM,通过优化的提示,将非结构化数据转换为固定维度的向量。3) RL代理模块:使用PPO算法训练交易代理,将LLM提取的特征作为输入。4) 提示优化模块:通过自动提示优化循环,针对信息系数(IC)优化LLM的提示。

关键创新:论文最重要的技术创新点在于:1) 提出了一种自动提示优化循环,直接针对信息系数(IC)优化LLM的提示,而不是传统的NLP损失函数,从而更好地发现具有预测性的金融特征。2) 揭示了LLM提取的特征在特定市场环境下有效,但在宏观经济冲击等分布偏移下,会导致策略性能下降,凸显了特征有效性与策略鲁棒性之间的差距。

关键设计:1) 提示优化:将提取提示视为离散超参数,使用优化算法(具体算法未知)搜索最佳提示。2) 信息系数(IC):使用Spearman秩相关性衡量预测收益与实际收益之间的相关性,作为提示优化的目标函数。3) RL代理:使用PPO算法训练交易代理,具体网络结构和参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过自动提示优化,LLM可以生成具有预测性的金融特征(在保留数据上的IC高于0.15)。然而,在宏观经济冲击下,LLM衍生的特征会降低RL交易策略的性能,使其不如仅使用价格的基线。在较平静的市场环境下,策略性能有所恢复,但宏观经济状态变量仍然是策略改进的最稳健驱动因素。

🎯 应用场景

该研究成果可应用于量化交易、风险管理和投资组合优化等领域。通过利用LLM提取的金融特征,可以构建更智能、更高效的交易策略。然而,需要注意LLM特征的鲁棒性问题,并采取相应的措施来应对市场环境的变化。未来的研究可以探索如何提高LLM特征的鲁棒性,以及如何将LLM与其他机器学习方法相结合,以构建更强大的交易系统。

📄 摘要(原文)

Can large language models (LLMs) generate continuous numerical features that improve reinforcement learning (RL) trading agents? We build a modular pipeline where a frozen LLM serves as a stateless feature extractor, transforming unstructured daily news and filings into a fixed-dimensional vector consumed by a downstream PPO agent. We introduce an automated prompt-optimization loop that treats the extraction prompt as a discrete hyperparameter and tunes it directly against the Information Coefficient - the Spearman rank correlation between predicted and realized returns - rather than NLP losses. The optimized prompt discovers genuinely predictive features (IC above 0.15 on held-out data). However, these valid intermediate representations do not automatically translate into downstream task performance: during a distribution shift caused by a macroeconomic shock, LLM-derived features add noise, and the augmented agent under-performs a price-only baseline. In a calmer test regime the agent recovers, yet macroeconomic state variables remain the most robust driver of policy improvement. Our findings highlight a gap between feature-level validity and policy-level robustness that parallels known challenges in transfer learning under distribution shift.