FinDPO: Financial Sentiment Analysis for Algorithmic Trading through Preference Optimization of LLMs

📄 arXiv: 2507.18417v1 📥 PDF

作者: Giorgos Iacovides, Wuyang Zhou, Danilo Mandic

分类: cs.CL, cs.LG, q-fin.ST, q-fin.TR

发布日期: 2025-07-24


💡 一句话要点

FinDPO:通过偏好优化LLM进行金融情感分析,提升算法交易收益。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 金融情感分析 大型语言模型 直接偏好优化 算法交易 投资组合优化

📋 核心要点

  1. 现有金融情感分析的SFT模型易于记忆训练数据,泛化能力差,难以适应金融领域的新事件和专业术语。
  2. FinDPO通过直接偏好优化(DPO)对LLM进行后训练,使其与人类偏好对齐,从而提升模型在金融情感分析中的性能。
  3. FinDPO在情感分类基准测试中超越现有SFT模型11%,并在实际交易中实现了67%的年回报率和2.0的夏普比率。

📝 摘要(中文)

在线金融文本数据的情感对交易决策和市场波动的影响日益显著。情感分析作为量化这些观点性质和强度的工具,其作用至关重要。随着生成式AI (GenAI) 的快速发展,监督微调 (SFT) 的大型语言模型 (LLM) 已成为金融情感分析的事实标准。然而,SFT范式可能导致训练数据的记忆,并且常常无法泛化到未见过的样本。这在金融领域是一个关键限制,因为模型必须适应先前未观察到的事件以及金融领域细致入微的特定语言。为此,我们引入了FinDPO,这是第一个基于直接偏好优化 (DPO) 的后训练人类偏好对齐的金融专用LLM框架。所提出的FinDPO在标准情感分类基准测试中实现了最先进的性能,平均优于现有的监督微调模型11%。FinDPO框架通过一种新颖的“logit-to-score”转换,将微调的因果LLM集成到实际的投资组合策略中,该转换将离散的情感预测转换为连续的、可排序的情感分数(概率)。通过这种方式,模拟表明,即使在5个基点 (bps) 的实际交易成本下,FinDPO是第一个基于情感的方法,能够保持67%的显著年度正回报和2.0的夏普比率所显示的强大的风险调整后表现。

🔬 方法详解

问题定义:论文旨在解决金融领域情感分析模型泛化能力不足的问题。现有基于监督微调(SFT)的LLM容易过拟合训练数据,无法有效处理金融领域中不断涌现的新事件和专业术语,导致在实际交易中表现不佳。

核心思路:论文的核心思路是利用直接偏好优化(DPO)对LLM进行后训练,使其与人类偏好对齐。DPO方法避免了传统的强化学习方法中复杂的奖励函数设计,直接优化模型输出的偏好概率,从而提高模型的泛化能力和在实际金融场景中的表现。

技术框架:FinDPO框架主要包含以下几个阶段:1) 使用金融领域的数据集对LLM进行预训练或微调,得到一个因果语言模型。2) 构建人类偏好数据集,包含对不同情感倾向的文本的偏好排序。3) 使用DPO算法,基于偏好数据集对LLM进行后训练,使其输出与人类偏好一致的情感预测。4) 将模型输出的logits转换为可排序的情感分数,用于指导投资组合策略。

关键创新:FinDPO的关键创新在于将DPO方法应用于金融情感分析,并提出了一种新颖的“logit-to-score”转换方法,将离散的情感预测转换为连续的情感分数。这使得模型能够更好地融入实际的交易策略中,并获得更高的收益。与现有方法的本质区别在于,FinDPO不是直接预测情感标签,而是学习人类对不同情感倾向的偏好。

关键设计:论文中使用了标准的DPO损失函数,该损失函数基于Bradley-Terry模型,用于优化模型输出的偏好概率。此外,论文还设计了一种“logit-to-score”转换方法,将模型输出的logits转换为0到1之间的情感分数,该分数可以用于计算投资组合的权重。具体的参数设置和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FinDPO在标准情感分类基准测试中,平均优于现有的监督微调模型11%。在实际交易模拟中,即使考虑了5个基点的交易成本,FinDPO仍然能够实现67%的年回报率和2.0的夏普比率,表明其在实际金融场景中具有显著的优势。

🎯 应用场景

FinDPO可应用于算法交易、风险管理、投资组合优化等金融领域。通过准确捕捉市场情绪,帮助投资者做出更明智的决策,提高投资回报并降低风险。未来,该技术可扩展到其他金融文本分析任务,如新闻事件影响评估、公司财务报告解读等,为金融行业的智能化发展提供有力支持。

📄 摘要(原文)

Opinions expressed in online finance-related textual data are having an increasingly profound impact on trading decisions and market movements. This trend highlights the vital role of sentiment analysis as a tool for quantifying the nature and strength of such opinions. With the rapid development of Generative AI (GenAI), supervised fine-tuned (SFT) large language models (LLMs) have become the de facto standard for financial sentiment analysis. However, the SFT paradigm can lead to memorization of the training data and often fails to generalize to unseen samples. This is a critical limitation in financial domains, where models must adapt to previously unobserved events and the nuanced, domain-specific language of finance. To this end, we introduce FinDPO, the first finance-specific LLM framework based on post-training human preference alignment via Direct Preference Optimization (DPO). The proposed FinDPO achieves state-of-the-art performance on standard sentiment classification benchmarks, outperforming existing supervised fine-tuned models by 11% on the average. Uniquely, the FinDPO framework enables the integration of a fine-tuned causal LLM into realistic portfolio strategies through a novel 'logit-to-score' conversion, which transforms discrete sentiment predictions into continuous, rankable sentiment scores (probabilities). In this way, simulations demonstrate that FinDPO is the first sentiment-based approach to maintain substantial positive returns of 67% annually and strong risk-adjusted performance, as indicated by a Sharpe ratio of 2.0, even under realistic transaction costs of 5 basis points (bps).