When Valid Signals Fail: Regime Boundaries Between LLM Features and RL Trading Policies

作者: Zhengzhe Yang

分类: cs.CL, cs.AI, cs.CE

发布日期: 2026-04-13

💡 一句话要点

利用LLM生成金融特征，但宏观冲击下RL交易策略表现欠佳，揭示特征有效性与策略鲁棒性间的差距

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 量化交易 特征工程 提示优化

📋 核心要点

现有方法难以有效利用LLM提取的金融特征提升RL交易策略在复杂市场环境下的鲁棒性。
提出一种基于提示优化的方法，利用LLM将非结构化数据转化为预测性特征，并集成到RL交易代理中。
实验表明，LLM特征在特定市场环境下有效，但在宏观冲击下会降低策略性能，凸显鲁棒性问题。

📝 摘要（中文）

本文研究了大型语言模型（LLM）能否生成连续数值特征，以改进强化学习（RL）交易代理。构建了一个模块化流程，其中冻结的LLM作为无状态特征提取器，将非结构化的每日新闻和文件转换为固定维度的向量，供下游PPO代理使用。引入了一个自动提示优化循环，将提取提示视为离散超参数，并直接针对信息系数（Information Coefficient，预测收益与实际收益之间的Spearman秩相关性）进行调整，而不是NLP损失。优化后的提示发现了真正具有预测性的特征（在保留数据上的IC高于0.15）。然而，这些有效的中间表示并不能自动转化为下游任务的性能：在宏观经济冲击引起的分布偏移期间，LLM衍生的特征增加了噪声，增强的代理表现不如仅使用价格的基线。在较平静的测试环境中，代理恢复了性能，但宏观经济状态变量仍然是策略改进的最稳健驱动因素。研究结果强调了特征层面的有效性与策略层面的鲁棒性之间的差距，这与分布偏移下迁移学习中已知的挑战相似。

🔬 方法详解

问题定义：论文旨在解决如何利用大型语言模型（LLM）从非结构化数据（如新闻和文件）中提取有效的金融特征，并将其应用于强化学习（RL）交易代理，以提升交易策略的性能。现有方法的痛点在于，LLM提取的特征可能在特定市场环境下有效，但在面对宏观经济冲击等分布偏移时，会导致策略性能下降，缺乏鲁棒性。

核心思路：论文的核心解决思路是构建一个模块化的pipeline，利用LLM作为特征提取器，将非结构化数据转化为数值特征，并将其输入到RL代理中。通过自动提示优化循环，直接针对信息系数（IC）优化LLM的提示，以发现真正具有预测性的特征。同时，研究在不同市场环境下的策略表现，分析LLM特征的鲁棒性。

技术框架：整体框架包含以下几个主要模块：1) 数据预处理模块：收集和清洗每日新闻和文件等非结构化数据。2) LLM特征提取模块：使用冻结的LLM，通过优化的提示，将非结构化数据转换为固定维度的向量。3) RL代理模块：使用PPO算法训练交易代理，将LLM提取的特征作为输入。4) 提示优化模块：通过自动提示优化循环，针对信息系数（IC）优化LLM的提示。

关键创新：论文最重要的技术创新点在于：1) 提出了一种自动提示优化循环，直接针对信息系数（IC）优化LLM的提示，而不是传统的NLP损失函数，从而更好地发现具有预测性的金融特征。2) 揭示了LLM提取的特征在特定市场环境下有效，但在宏观经济冲击等分布偏移下，会导致策略性能下降，凸显了特征有效性与策略鲁棒性之间的差距。

关键设计：1) 提示优化：将提取提示视为离散超参数，使用优化算法（具体算法未知）搜索最佳提示。2) 信息系数（IC）：使用Spearman秩相关性衡量预测收益与实际收益之间的相关性，作为提示优化的目标函数。3) RL代理：使用PPO算法训练交易代理，具体网络结构和参数设置未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过自动提示优化，LLM可以生成具有预测性的金融特征（在保留数据上的IC高于0.15）。然而，在宏观经济冲击下，LLM衍生的特征会降低RL交易策略的性能，使其不如仅使用价格的基线。在较平静的市场环境下，策略性能有所恢复，但宏观经济状态变量仍然是策略改进的最稳健驱动因素。

🎯 应用场景

该研究成果可应用于量化交易、风险管理和投资组合优化等领域。通过利用LLM提取的金融特征，可以构建更智能、更高效的交易策略。然而，需要注意LLM特征的鲁棒性问题，并采取相应的措施来应对市场环境的变化。未来的研究可以探索如何提高LLM特征的鲁棒性，以及如何将LLM与其他机器学习方法相结合，以构建更强大的交易系统。

📄 摘要（原文）

Can large language models (LLMs) generate continuous numerical features that improve reinforcement learning (RL) trading agents? We build a modular pipeline where a frozen LLM serves as a stateless feature extractor, transforming unstructured daily news and filings into a fixed-dimensional vector consumed by a downstream PPO agent. We introduce an automated prompt-optimization loop that treats the extraction prompt as a discrete hyperparameter and tunes it directly against the Information Coefficient - the Spearman rank correlation between predicted and realized returns - rather than NLP losses. The optimized prompt discovers genuinely predictive features (IC above 0.15 on held-out data). However, these valid intermediate representations do not automatically translate into downstream task performance: during a distribution shift caused by a macroeconomic shock, LLM-derived features add noise, and the augmented agent under-performs a price-only baseline. In a calmer test regime the agent recovers, yet macroeconomic state variables remain the most robust driver of policy improvement. Our findings highlight a gap between feature-level validity and policy-level robustness that parallels known challenges in transfer learning under distribution shift.

When Valid Signals Fail: Regime Boundaries Between LLM Features and RL Trading Policies

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理