RETuning: Upgrading Inference-Time Scaling for Stock Movement Prediction with Large Language Models
作者: Xueyuan Lin, Cehao Yang, Ye Ma, Ming Li, Rongjunchen Zhang, Yang Ni, Xiaojun Wu, Chengjin Xu, Jian Guo, Hui Xiong
分类: cs.CL
发布日期: 2025-10-24
💡 一句话要点
提出RETuning方法,提升大语言模型在股票预测中的推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 股票预测 金融科技 推理能力 证据评估
📋 核心要点
- 现有大语言模型在股票预测中表现出对分析师意见的依赖,缺乏独立分析能力,且未能有效权衡证据。
- 提出RETuning方法,通过动态构建分析框架和证据评估,提升模型独立推理能力,减少上下文偏差。
- 构建大规模股票数据集,实验表明RETuning能有效提升模型在股票预测中的推理能力,并具有泛化性。
📝 摘要(中文)
本文研究了大语言模型(LLM)在股票价格变动预测这一金融任务中的应用,这是一个三分类问题(上涨、持有、下跌)。通过分析LLM的推理过程,发现其倾向于跟随分析师的观点,缺乏独立的分析逻辑,并且未能有效权衡不同来源的证据。针对这些问题,本文提出了一种名为反思证据调整(RETuning)的冷启动方法,旨在增强模型的预测能力。RETuning鼓励模型从不同信息源动态构建分析框架,组织并评估价格上涨或下跌的证据,并基于此进行预测,从而确保独立的逻辑推理,减少上下文的影响。此外,本文构建了一个包含5123支A股、长上下文(32K tokens)和超过20万样本的大规模数据集。实验结果表明,RETuning成功地激发了模型在金融领域的推理能力,即使在6个月后或对分布外的股票进行预测时,依然有效。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLM)在股票价格变动预测任务中表现出的推理能力不足的问题。现有方法,即直接使用LLM进行预测,存在两个主要痛点:一是LLM倾向于模仿分析师的观点,缺乏独立的分析逻辑;二是LLM无法有效权衡来自不同来源的证据,特别是相互矛盾的证据,导致预测结果不稳定。
核心思路:论文的核心思路是提出一种名为反思证据调整(RETuning)的方法,通过引导LLM构建一个动态的分析框架,并基于该框架对各种证据进行组织和评估,从而增强模型的独立推理能力。这种方法旨在减少上下文信息对模型判断的影响,使其能够更加客观地分析股票价格变动的潜在因素。
技术框架:RETuning方法是一个冷启动过程,先于强化学习。其主要流程包括:首先,从多个信息源(如新闻、分析师报告、基本面数据等)收集信息;然后,引导LLM基于这些信息构建一个分析框架,该框架定义了影响股票价格变动的关键因素;接着,LLM根据该框架对收集到的证据进行组织和评分,区分支持价格上涨和下跌的证据;最后,LLM基于证据的权重进行反思,得出最终的预测结果。
关键创新:RETuning的关键创新在于其动态构建分析框架和证据评估的机制。与现有方法不同,RETuning不依赖于预定义的规则或模板,而是允许LLM根据具体情况自主构建分析框架。此外,RETuning强调对证据的权重进行评估,从而使模型能够更加理性地处理相互矛盾的信息。
关键设计:RETuning的关键设计包括:(1) 分析框架的构建方式,需要设计合适的prompt引导LLM生成有效的分析框架;(2) 证据评分机制,需要设计合理的评分标准,以准确反映证据对价格变动的影响;(3) 反思过程的设计,需要确保LLM能够基于证据的权重进行客观的判断,避免受到上下文信息的影响。论文中构建了一个大规模数据集,包含长上下文(32K tokens),这对于训练和评估RETuning方法至关重要。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RETuning方法能够显著提升大语言模型在股票预测任务中的性能。即使在经过6个月的时间跨度后,或者对分布外的股票进行预测时,RETuning依然有效,表明该方法能够使模型获得关于股票价格变动预测的宝贵洞察。这验证了RETuning方法在提升模型推理能力和泛化性方面的有效性。
🎯 应用场景
该研究成果可应用于智能投顾、量化交易等金融领域,帮助投资者更准确地预测股票价格变动,降低投资风险。通过提升大语言模型在金融领域的推理能力,可以为金融决策提供更可靠的依据,并推动金融科技的发展。未来,该方法还可以扩展到其他金融资产的预测和风险评估中。
📄 摘要(原文)
Recently, large language models (LLMs) have demonstrated outstanding reasoning capabilities on mathematical and coding tasks. However, their application to financial tasks-especially the most fundamental task of stock movement prediction-remains underexplored. We study a three-class classification problem (up, hold, down) and, by analyzing existing reasoning responses, observe that: (1) LLMs follow analysts' opinions rather than exhibit a systematic, independent analytical logic (CoTs). (2) LLMs list summaries from different sources without weighing adversarial evidence, yet such counterevidence is crucial for reliable prediction. It shows that the model does not make good use of its reasoning ability to complete the task. To address this, we propose Reflective Evidence Tuning (RETuning), a cold-start method prior to reinforcement learning, to enhance prediction ability. While generating CoT, RETuning encourages dynamically constructing an analytical framework from diverse information sources, organizing and scoring evidence for price up or down based on that framework-rather than on contextual viewpoints-and finally reflecting to derive the prediction. This approach maximally aligns the model with its learned analytical framework, ensuring independent logical reasoning and reducing undue influence from context. We also build a large-scale dataset spanning all of 2024 for 5,123 A-share stocks, with long contexts (32K tokens) and over 200K samples. In addition to price and news, it incorporates analysts' opinions, quantitative reports, fundamental data, macroeconomic indicators, and similar stocks. Experiments show that RETuning successfully unlocks the model's reasoning ability in the financial domain. Inference-time scaling still works even after 6 months or on out-of-distribution stocks, since the models gain valuable insights about stock movement prediction.