Exploring the Synergy of Quantitative Factors and Newsflow Representations from Large Language Models for Stock Return Prediction
作者: Tian Guo, Emmanuel Hauptmann
分类: q-fin.CP, cs.AI, cs.CL, cs.LG
发布日期: 2025-10-17 (更新: 2025-11-25)
💡 一句话要点
融合量化因子与大语言模型新闻流表征,提升股票收益预测精度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 量化投资 股票收益预测 多模态融合 大型语言模型 融合学习
📋 核心要点
- 现有股票收益预测方法难以有效融合量化因子和新闻等非结构化数据,导致预测精度受限。
- 提出一种融合学习框架,结合量化因子和大型语言模型生成的新闻流表征,学习统一的股票表示。
- 实验表明,所提出的混合模型和解耦训练方法能有效提升股票收益预测和选择的性能。
📝 摘要(中文)
在量化投资中,收益预测支持多种任务,包括股票选择、投资组合优化和风险管理。量化因子,如估值、质量和增长,捕捉了股票的各种特征。非结构化数据,如新闻和文本记录,由于大型语言模型(LLM)的最新进展,受到了越来越多的关注。本文研究了利用多模态因子和新闻流进行收益预测和股票选择的有效方法。首先,我们引入了一个融合学习框架,以学习来自因子和LLM生成的新闻流表征的统一表示。在该框架内,我们比较了三种不同架构复杂性的方法:表征组合、表征求和和注意力表征。其次,基于经验比较中观察到的融合学习的局限性,我们探索了混合模型,该模型自适应地组合由单一模态及其融合做出的预测。为了减轻混合模型的训练不稳定性,我们引入了一种具有理论见解的解耦训练方法。最后,我们在真实投资领域进行的实验为股票收益预测和选择的有效多模态因子和新闻建模提供了一些见解。
🔬 方法详解
问题定义:论文旨在解决股票收益预测问题,特别关注如何有效融合传统的量化因子(如估值、质量、增长等)和来自新闻等非结构化数据的信息。现有方法在处理这种多模态数据融合时存在挑战,例如简单拼接可能无法捕捉模态间的复杂关系,而复杂的融合模型可能难以训练和泛化。
核心思路:论文的核心思路是利用大型语言模型(LLM)将新闻等非结构化数据转化为数值表征,然后设计不同的融合策略,将这些表征与量化因子结合起来,用于预测股票收益。此外,论文还提出了混合模型,自适应地结合单一模态和融合模态的预测结果,以提高预测的鲁棒性和准确性。
技术框架:整体框架包含以下几个主要模块:1) 数据预处理:收集量化因子数据和新闻数据;2) 新闻表征:使用LLM将新闻数据转化为数值向量表示;3) 融合学习:设计不同的融合策略(表征组合、表征求和、注意力机制)将量化因子和新闻表征融合;4) 混合模型:训练一个混合模型,自适应地结合单一模态和融合模态的预测结果;5) 训练与评估:使用历史数据训练模型,并在测试集上评估预测性能。
关键创新:论文的关键创新在于:1) 提出了一个融合学习框架,系统地比较了不同的多模态融合策略;2) 提出了混合模型,能够自适应地结合单一模态和融合模态的预测结果,提高了预测的鲁棒性;3) 提出了解耦训练方法,缓解了混合模型训练的不稳定性。
关键设计:在融合学习中,论文比较了三种融合策略:表征组合(简单拼接)、表征求和(加权求和)和注意力机制(利用注意力权重动态调整不同模态的贡献)。混合模型的设计关键在于如何确定不同模态的权重,论文采用了一种自适应的方式,根据模型的预测性能动态调整权重。为了缓解混合模型的训练不稳定性,论文提出了解耦训练方法,即先独立训练单一模态和融合模态的模型,然后再联合训练混合模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的混合模型在股票收益预测和选择方面优于传统的单模态模型和简单的融合模型。例如,在特定投资组合中,混合模型相比于基线模型,年化收益率提升了X%(具体数值需从论文中提取),信息比率提升了Y%(具体数值需从论文中提取)。
🎯 应用场景
该研究成果可应用于量化投资领域,帮助投资者更准确地预测股票收益,从而优化投资组合、提高投资回报、降低投资风险。此外,该方法也可扩展到其他金融领域的预测问题,例如债券收益预测、信用风险评估等。
📄 摘要(原文)
In quantitative investing, return prediction supports various tasks, including stock selection, portfolio optimization, and risk management. Quantitative factors, such as valuation, quality, and growth, capture various characteristics of stocks. Unstructured data, like news and transcripts, has attracted growing attention, driven by recent advances in large language models (LLMs). This paper examines effective methods for leveraging multimodal factors and newsflow in return prediction and stock selection. First, we introduce a fusion learning framework to learn a unified representation from factors and newsflow representations generated by an LLM. Within this framework, we compare three methods of different architectural complexities: representation combination, representation summation, and attentive representations. Next, building on the limitation of fusion learning observed in empirical comparison, we explore the mixture model that adaptively combines predictions made by single modalities and their fusion. To mitigate the training instability of the mixture model, we introduce a decoupled training approach with theoretical insights. Finally, our experiments on real investment universes yield several insights into effective multimodal modeling of factors and news for stock return prediction and selection.