Sentiment trading with large language models

作者: Kemal Kirtac, Guido Germano

分类: q-fin.CP, cs.LG, econ.EM, q-fin.PM, q-fin.TR

发布日期: 2024-12-26

期刊: Finance Research Letters, 62, p.105227 (2024)

DOI: 10.1016/j.frl.2024.105227

💡 一句话要点

利用大型语言模型进行情感交易，显著提升股票市场预测与投资组合管理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 情感分析 大型语言模型 金融市场预测 投资组合管理 量化交易

📋 核心要点

传统金融情感分析方法（如Loughran-McDonald词典）在捕捉复杂金融新闻情感方面存在局限性，导致预测准确率较低。
论文提出利用大型语言模型（LLM），特别是OPT模型，进行金融新闻情感分析，以更准确地预测股票市场回报。
实验结果表明，OPT模型在情感预测准确率和投资组合夏普比率方面均优于传统方法和其它LLM模型，具有显著优势。

📝 摘要（中文）

本文研究了大型语言模型（LLM）在美国金融新闻情感分析中的有效性及其在预测股票市场回报方面的潜力。我们分析了一个包含2010年1月1日至2023年6月30日期间965,375篇新闻文章的数据集；我们重点关注各种LLM的性能，包括BERT、OPT、FINBERT以及传统的Loughran-McDonald词典模型，后者一直是金融文献中的主要方法。研究表明，LLM评分与随后的每日股票回报之间存在显著关联。具体而言，基于GPT-3的LLM——OPT在情感预测中表现出最高的准确率，达到74.4%，略高于BERT（72.5%）和FINBERT（72.2%）。相比之下，Loughran-McDonald词典模型的有效性明显较低，准确率仅为50.1%。回归分析强调了OPT模型评分对次日股票回报的稳健正向影响，在不同的模型规范中，系数分别为0.274和0.254。BERT和FINBERT也表现出预测相关性，尽管程度较小。值得注意的是，我们没有观察到Loughran-McDonald词典模型评分与股票回报之间存在显著关系，这挑战了该传统方法在当前金融环境中的有效性。在投资组合表现方面，多空OPT策略表现出色，夏普比率为3.05，而BERT和FINBERT多空策略的夏普比率分别为2.11和2.07。基于Loughran-McDonald词典的策略产生的夏普比率最低，为1.23。我们的研究结果强调了先进LLM（尤其是OPT）在金融市场预测和投资组合管理方面的卓越性能，标志着金融分析工具领域发生了重大转变，对金融监管和政策分析具有重要意义。

🔬 方法详解

问题定义：论文旨在解决金融市场中情感分析的准确性问题，现有方法，特别是Loughran-McDonald词典模型，无法有效捕捉金融新闻中的细微情感变化，导致股票市场预测的准确性较低。传统方法依赖于预定义的词汇表，缺乏对上下文的理解，无法适应金融新闻中不断变化的语言模式。

核心思路：论文的核心思路是利用大型语言模型（LLM）强大的自然语言理解能力，对金融新闻进行情感分析。LLM能够学习文本中的上下文信息，从而更准确地判断情感极性。特别是，论文发现基于GPT-3的OPT模型在金融情感分析方面表现出色，能够更有效地预测股票市场回报。

技术框架：论文的技术框架主要包括以下几个步骤：1) 数据收集：收集2010年至2023年期间的美国金融新闻文章；2) 情感分析：使用BERT、OPT、FINBERT和Loughran-McDonald词典模型对新闻文章进行情感分析，生成情感评分；3) 回归分析：使用回归模型分析情感评分与次日股票回报之间的关系；4) 投资组合构建：基于情感评分构建多空投资组合，评估不同模型在实际交易中的表现。

关键创新：论文最重要的技术创新点在于证明了大型语言模型（特别是OPT模型）在金融情感分析方面的优越性。与传统的词典模型相比，LLM能够更准确地捕捉金融新闻中的情感信息，从而提高股票市场预测的准确性。此外，论文还发现OPT模型在投资组合管理方面表现出色，能够产生更高的夏普比率。

关键设计：论文的关键设计包括：1) 使用多种LLM模型进行对比，包括BERT、OPT和FINBERT；2) 使用回归分析评估情感评分与股票回报之间的关系，并控制了其他可能影响股票回报的因素；3) 构建多空投资组合，通过实际交易模拟评估不同模型在投资组合管理方面的表现。论文没有详细说明LLM模型的具体参数设置或损失函数，这些细节可能参考了原始模型的论文。

📊 实验亮点

OPT模型在情感预测中表现出最高的准确率，达到74.4%，显著优于传统的Loughran-McDonald词典模型（50.1%）。基于OPT模型的多空策略的夏普比率达到3.05，高于BERT（2.11）和FINBERT（2.07）策略，也远高于Loughran-McDonald词典模型策略（1.23）。回归分析表明，OPT模型评分对次日股票回报具有显著的正向影响。

🎯 应用场景

该研究成果可应用于量化交易、风险管理、投资组合优化等金融领域。通过更准确的情感分析，可以辅助投资者做出更明智的投资决策，提高投资回报。此外，该研究对金融监管和政策分析也具有重要意义，可以帮助监管机构更好地了解市场情绪，防范金融风险。

📄 摘要（原文）

We investigate the efficacy of large language models (LLMs) in sentiment analysis of U.S. financial news and their potential in predicting stock market returns. We analyze a dataset comprising 965,375 news articles that span from January 1, 2010, to June 30, 2023; we focus on the performance of various LLMs, including BERT, OPT, FINBERT, and the traditional Loughran-McDonald dictionary model, which has been a dominant methodology in the finance literature. The study documents a significant association between LLM scores and subsequent daily stock returns. Specifically, OPT, which is a GPT-3 based LLM, shows the highest accuracy in sentiment prediction with an accuracy of 74.4%, slightly ahead of BERT (72.5%) and FINBERT (72.2%). In contrast, the Loughran-McDonald dictionary model demonstrates considerably lower effectiveness with only 50.1% accuracy. Regression analyses highlight a robust positive impact of OPT model scores on next-day stock returns, with coefficients of 0.274 and 0.254 in different model specifications. BERT and FINBERT also exhibit predictive relevance, though to a lesser extent. Notably, we do not observe a significant relationship between the Loughran-McDonald dictionary model scores and stock returns, challenging the efficacy of this traditional method in the current financial context. In portfolio performance, the long-short OPT strategy excels with a Sharpe ratio of 3.05, compared to 2.11 for BERT and 2.07 for FINBERT long-short strategies. Strategies based on the Loughran-McDonald dictionary yield the lowest Sharpe ratio of 1.23. Our findings emphasize the superior performance of advanced LLMs, especially OPT, in financial market prediction and portfolio management, marking a significant shift in the landscape of financial analysis tools with implications to financial regulation and policy analysis.

Sentiment trading with large language models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理