Trading-R1: Financial Trading with LLM Reasoning via Reinforcement Learning

作者: Yijia Xiao, Edward Sun, Tong Chen, Fang Wu, Di Luo, Wei Wang

分类: q-fin.TR, cs.AI, cs.CE, cs.CL, cs.LG

发布日期: 2025-09-14

备注: Tauric Research: https://github.com/TauricResearch

🔗 代码/项目: GITHUB

💡 一句话要点

提出Trading-R1，利用强化学习提升LLM在金融交易中的推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 金融交易 大型语言模型 强化学习 风险管理 投资组合 可解释性 金融推理

📋 核心要点

现有金融AI模型缺乏可解释性，大型语言模型(LLM)难以将自然语言分析转化为可执行的交易。
Trading-R1通过监督微调和强化学习，将推理与交易原则对齐，提升LLM在金融决策中的风险意识。
实验表明，Trading-R1在风险调整回报和降低回撤方面优于现有模型，并生成可解释的投资理论。

📝 摘要（中文）

本文提出Trading-R1，一个具备金融意识的模型，它融合了战略思考和规划，用于构建全面的投资理论、基于事实的分析以及波动率调整的决策。Trading-R1通过监督式微调和强化学习，采用三阶段由易到难的课程学习，将推理与交易原则对齐。训练使用Tauric-TR1-DB，一个包含10万个样本的语料库，涵盖18个月、14种股票和五个异构金融数据源。在六种主要股票和ETF上的评估表明，与开源和专有的指令跟随模型以及推理模型相比，Trading-R1表现出更高的风险调整回报和更低的跌幅。该系统生成结构化的、基于证据的投资理论，支持有纪律且可解释的交易决策。Trading-R1终端将在https://github.com/TauricResearch/Trading-R1发布。

🔬 方法详解

问题定义：现有时间序列模型缺乏可解释性，难以满足金融市场对透明度和信任的需求。虽然大型语言模型在逐步规划和验证方面取得了进展，但它们在风险敏感型金融决策中的应用仍未得到充分探索。因此，如何让LLM进行专业、结构化的金融推理，并将其转化为可执行的交易策略，是一个核心问题。

核心思路：Trading-R1的核心思路是将战略思维和规划融入到LLM中，使其能够构建全面的投资理论，进行基于事实的分析，并根据市场波动性调整交易决策。通过将推理与交易原则对齐，Trading-R1旨在提高LLM在金融交易中的风险意识和决策能力。

技术框架：Trading-R1的训练过程包括三个阶段：首先，通过监督式微调使模型具备基本的金融知识和推理能力；然后，利用强化学习，根据市场反馈优化模型的交易策略；最后，采用由易到难的课程学习，逐步提高模型的复杂推理能力。该框架使用Tauric-TR1-DB数据集进行训练，该数据集包含丰富的金融数据，涵盖多种股票和ETF。

关键创新：Trading-R1的关键创新在于其将LLM的推理能力与强化学习相结合，从而使模型能够根据市场环境动态调整交易策略。此外，该模型还引入了战略思维和规划，使其能够构建全面的投资理论，并进行基于事实的分析，从而提高交易决策的可解释性和可靠性。

关键设计：Trading-R1使用三阶段课程学习策略，从简单的金融概念入手，逐步过渡到复杂的交易策略。强化学习部分，奖励函数的设计至关重要，需要平衡收益和风险，避免模型过度追求短期利益。此外，模型还采用了波动率调整的决策机制，以降低市场波动对交易的影响。

🖼️ 关键图片

📊 实验亮点

Trading-R1在六种主要股票和ETF上的评估中，表现出更高的风险调整回报和更低的跌幅，优于开源和专有的指令跟随模型以及推理模型。这表明Trading-R1在金融交易中具有显著的优势，能够有效提升投资绩效。

🎯 应用场景

Trading-R1可应用于自动化交易系统、投资组合管理、风险评估和金融咨询等领域。该模型能够生成可解释的投资理论，有助于提高交易决策的透明度和可信度。未来，Trading-R1有望成为金融分析师和交易员的有力助手，提升投资效率和回报。

📄 摘要（原文）

Developing professional, structured reasoning on par with human financial analysts and traders remains a central challenge in AI for finance, where markets demand interpretability and trust. Traditional time-series models lack explainability, while LLMs face challenges in turning natural-language analysis into disciplined, executable trades. Although reasoning LLMs have advanced in step-by-step planning and verification, their application to risk-sensitive financial decisions is underexplored. We present Trading-R1, a financially-aware model that incorporates strategic thinking and planning for comprehensive thesis composition, facts-grounded analysis, and volatility-adjusted decision making. Trading-R1 aligns reasoning with trading principles through supervised fine-tuning and reinforcement learning with a three-stage easy-to-hard curriculum. Training uses Tauric-TR1-DB, a 100k-sample corpus spanning 18 months, 14 equities, and five heterogeneous financial data sources. Evaluated on six major equities and ETFs, Trading-R1 demonstrates improved risk-adjusted returns and lower drawdowns compared to both open-source and proprietary instruction-following models as well as reasoning models. The system generates structured, evidence-based investment theses that support disciplined and interpretable trading decisions. Trading-R1 Terminal will be released at https://github.com/TauricResearch/Trading-R1.

Trading-R1: Financial Trading with LLM Reasoning via Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理