Fino1: On the Transferability of Reasoning-Enhanced LLMs and Reinforcement Learning to Finance
作者: Lingfei Qian, Weipeng Zhou, Yan Wang, Xueqing Peng, Han Yi, Yilun Zhao, Jimin Huang, Qianqian Xie, Jian-yun Nie
分类: cs.CL
发布日期: 2025-02-12 (更新: 2025-06-14)
备注: 13 pages, 2 figures, 3 Tables
💡 一句话要点
提出Fin-o1:通过金融CoT语料和强化学习提升LLM在金融领域的推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 金融推理 大语言模型 思维链 强化学习 金融语料库 GRPO FinCoT
📋 核心要点
- 现有LLM在金融决策推理方面存在不足,缺乏有效的金融CoT语料库,且缺乏对不同强化学习方法的系统比较和全面的基准。
- 论文提出FinCoT语料库,并通过监督微调和GRPO强化学习训练Fin-o1模型,以提升LLM在金融领域的推理能力。
- 实验结果表明,Fin-o1模型优于现有金融推理模型和SOTA通用模型,且GRPO强化学习方法能带来可靠的性能提升。
📝 摘要(中文)
本文针对LLM在金融推理方面面临的挑战,提出了FinCoT,这是首个开源的高保真金融思维链(CoT)语料库,该语料库通过一个新颖的三阶段流程从七个QA数据集中提炼而来,该流程结合了领域监督、迭代LLM细化和难度感知过滤。基于FinCoT,开发了Fin-o1,这是首个通过监督微调和GRPO强化学习训练的开源金融推理模型。Fin-o1模型优于现有的金融推理模型和SOTA通用模型,如GPT-o1、DeepSeek-R1和GPT-4.5。此外,还研究了三种不同的强化学习方法在提高领域特定推理方面的有效性,并提出了FinReason,这是首个金融推理基准,涵盖多表分析、长文本推理和基于公式的任务,并评估了29个LLM。实验表明,通用推理模型在标准基准上表现出色,但在金融环境中性能明显下降;即使是像Dianjin-R1和FinR1这样的金融微调模型在处理长文档时也会退化。相比之下,Fin-o1模型始终优于其backbone模型以及更大的GPT-o1和DeepSeek-R1,证实了数据构建和模型训练策略的有效性。研究还表明,GRPO产生了可靠的收益,而PPO和DPO则没有,突出了需要有针对性的数据和优化,而不仅仅是规模。
🔬 方法详解
问题定义:现有的大语言模型在金融领域的推理能力不足,尤其是在处理复杂金融问题时,缺乏高质量的金融领域思维链(Chain-of-Thought, CoT)数据进行训练,并且缺乏针对金融领域推理的系统性强化学习方法研究。现有方法在处理长文本、多表格数据以及公式计算时表现不佳。
核心思路:论文的核心思路是构建高质量的金融领域CoT语料库FinCoT,并利用该语料库对LLM进行监督微调和强化学习,从而提升模型在金融领域的推理能力。通过领域监督、迭代LLM细化和难度感知过滤三个阶段构建FinCoT,保证数据质量。
技术框架:整体框架包含三个主要阶段:1) FinCoT语料库构建:通过领域监督、迭代LLM细化和难度感知过滤从QA数据集中提炼金融CoT数据。2) 监督微调:使用FinCoT语料库对LLM进行监督微调,得到初始的金融推理模型。3) 强化学习:使用GRPO等强化学习方法对微调后的模型进行进一步优化,提升推理能力。
关键创新:论文的关键创新在于:1) 提出了FinCoT,这是首个开源的高保真金融CoT语料库。2) 提出了基于GRPO的强化学习方法,用于提升LLM在金融领域的推理能力。3) 构建了FinReason,这是首个金融推理基准,涵盖多表分析、长文本推理和基于公式的任务。
关键设计:FinCoT语料库构建过程中,领域监督阶段利用专家知识对数据进行筛选和标注;迭代LLM细化阶段利用LLM生成CoT推理过程,并进行人工审核;难度感知过滤阶段根据问题的难度对数据进行加权。强化学习阶段,采用GRPO算法,并设计合适的奖励函数,以鼓励模型生成正确的推理过程和答案。
🖼️ 关键图片
📊 实验亮点
Fin-o1模型在FinReason基准测试中,优于现有的金融推理模型和SOTA通用模型,如GPT-o1、DeepSeek-R1和GPT-4.5。实验结果表明,Fin-o1模型始终优于其backbone模型以及更大的GPT-o1和DeepSeek-R1,证实了数据构建和模型训练策略的有效性。GRPO强化学习方法能带来可靠的性能提升,而PPO和DPO则效果不明显。
🎯 应用场景
该研究成果可应用于智能投顾、风险评估、金融监管等领域。通过提升LLM在金融领域的推理能力,可以帮助金融从业者更高效地进行决策,提高金融服务的智能化水平,并为金融监管提供更有效的工具。
📄 摘要(原文)
As the fundamental capability behind decision-making in finance, financial reasoning poses distinct challenges for LLMs. Although reinforcement learning (RL) have boosted generic reasoning, the progress in finance is hindered by the absence of empirical study of building effective financial chain-of-thought (CoT) corpus, a systematic comparison of different RL methods, and comprehensive benchmarks. To address these gaps, we introduce FinCoT, the first open high-fidelity CoT corpus for finance, distilled from seven QA datasets by a novel three-stage pipeline that incorporates domain supervision, iterative LLM refinement, and difficulty-aware filtering. Based on FinCoT, we develop Fin-o1, the first open financial reasoning models trained via supervised fine-tuning and GRPO-based RL. Our models outperform existing financial reasoning models and SOTA general models such as GPT-o1, DeepSeek-R1, and GPT-4.5. We also investigate the effectiveness of three different RL methods in improving domain-specific reasoning, offering the first such empirical study. We finally propose FinReason, the first financial reasoning benchmark covering multi-table analysis, long-context reasoning, and equation-based tasks, and evaluate 29 LLMs. Our extensive experiments reveal general reasoning models excel on standard benchmarks yet exhibit obvious performance degradation in financial contexts; even finance-tuned models like Dianjin-R1 and FinR1 degrade on lengthy documents. In contrast, our Fin-o1 models consistently outperform their backbones and larger GPT-o1 and DeepSeek-R1, confirming the effectiveness of our data building and model training strategy. Our study further shows that GRPO yields reliable gains whereas PPO and DPO do not, highlighting the need for targeted data and optimisation rather than scale alone.