Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

📄 arXiv: 2408.11878v3 📥 PDF

作者: Jimin Huang, Mengxi Xiao, Dong Li, Zihao Jiang, Yuzhe Yang, Yifei Zhang, Lingfei Qian, Yan Wang, Xueqing Peng, Yang Ren, Ruoyu Xiang, Zhengyu Chen, Xiao Zhang, Yueru He, Weiguang Han, Shunian Chen, Lihang Shen, Daniel Kim, Yangyang Yu, Yupeng Cao, Zhiyang Deng, Haohang Li, Duanyu Feng, Yongfu Dai, VijayaSai Somasundaram, Peng Lu, Guojun Xiong, Zhiwei Liu, Zheheng Luo, Zhiyuan Yao, Ruey-Ling Weng, Meikang Qiu, Kaleb E Smith, Honghai Yu, Yanzhao Lai, Min Peng, Jian-Yun Nie, Jordan W. Suchow, Xiao-Yang Liu, Benyou Wang, Alejandro Lopez-Lira, Qianqian Xie, Sophia Ananiadou, Junichi Tsujii

分类: cs.CL, cs.CE, q-fin.CP

发布日期: 2024-08-20 (更新: 2025-06-07)

备注: 33 pages, 13 figures


💡 一句话要点

提出Open-FinLLMs,首个开源多模态金融大语言模型,提升金融任务性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 金融大语言模型 多模态学习 开源模型 金融NLP 指令微调

📋 核心要点

  1. 现有金融LLM面临语料稀缺、多模态能力弱、评估不足等问题,限制了其在实际金融场景中的应用。
  2. Open-FinLLMs通过预训练、指令微调和多模态调优,构建了能够处理多种金融数据类型的开源模型。
  3. 实验表明,Open-FinLLMs在金融NLP、决策和多模态任务上超越了GPT-4等模型,展现了优越的性能。

📝 摘要(中文)

金融大语言模型在金融任务和领域特定应用中展现出潜力。然而,它们受到语料库稀缺、多模态能力薄弱和评估范围狭窄的限制,不太适合实际应用。为了解决这个问题,我们推出了Open-FinLLMs,这是首个开源多模态金融LLM,旨在处理文本、表格、时间序列和图表数据等多种任务,并在零样本、少样本和微调设置中表现出色。该套件包括FinLLaMA(在包含520亿token的综合语料库上预训练)、FinLLaMA-Instruct(使用57.3万条金融指令进行微调)和FinLLaVA(通过143万个多模态调优对进行增强,以实现强大的跨模态推理)。我们在14个金融任务、30个数据集和4个多模态任务中,在零样本、少样本和监督微调设置下,对Open-FinLLMs进行了全面评估,并引入了两个新的多模态评估数据集。结果表明,Open-FinLLMs在金融NLP、决策和多模态任务方面优于GPT-4等先进的金融和通用LLM,突显了它们应对现实世界挑战的潜力。为了促进学术界和工业界的创新与合作,我们根据OSI批准的许可发布了所有代码和模型。

🔬 方法详解

问题定义:现有金融大语言模型在处理实际金融任务时,面临着数据匮乏、缺乏有效处理多模态金融数据的能力(如表格、时间序列、图表)以及缺乏全面评估的挑战。这些问题限制了它们在实际金融场景中的应用,例如智能投顾、风险评估等。

核心思路:Open-FinLLMs的核心思路是构建一个开源、多模态、高性能的金融领域大语言模型。通过大规模金融语料的预训练、金融指令的微调以及多模态数据的对齐训练,提升模型在金融领域的知识储备、指令理解能力和跨模态推理能力。这样设计的目的是为了弥补现有金融LLM的不足,使其更适用于实际金融应用。

技术框架:Open-FinLLMs包含三个主要模块:FinLLaMA(预训练模型)、FinLLaMA-Instruct(指令微调模型)和FinLLaVA(多模态模型)。FinLLaMA首先在大规模金融语料库上进行预训练,学习金融领域的知识。然后,FinLLaMA-Instruct使用金融指令数据进行微调,提升模型对金融任务的理解和执行能力。最后,FinLLaVA通过多模态数据对齐训练,使模型能够处理和理解文本、表格、时间序列和图表等多种金融数据。

关键创新:Open-FinLLMs的关键创新在于其多模态能力和开源性。它是首个开源的多模态金融大语言模型,能够处理多种金融数据类型,并提供了完整的代码和模型,促进了学术界和工业界的合作与创新。此外,该模型在多个金融任务上超越了现有模型,证明了其有效性。

关键设计:在预训练阶段,使用了包含520亿token的金融语料库。在指令微调阶段,使用了57.3万条金融指令数据。在多模态调优阶段,使用了143万个多模态调优对。具体模型结构和损失函数等细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Open-FinLLMs在14个金融任务、30个数据集和4个多模态任务上进行了全面评估,结果表明其性能优于GPT-4等先进的金融和通用LLM。尤其是在金融NLP、决策和多模态任务方面,Open-FinLLMs展现出显著的优势,证明了其在处理复杂金融问题方面的潜力。

🎯 应用场景

Open-FinLLMs具有广泛的应用前景,包括智能投顾、风险评估、量化交易、金融报告生成、金融数据分析等。该模型能够帮助金融机构提高效率、降低成本,并为投资者提供更智能化的服务。开源特性也促进了金融科技领域的创新和发展,加速了金融行业的数字化转型。

📄 摘要(原文)

Financial LLMs hold promise for advancing financial tasks and domain-specific applications. However, they are limited by scarce corpora, weak multimodal capabilities, and narrow evaluations, making them less suited for real-world application. To address this, we introduce \textit{Open-FinLLMs}, the first open-source multimodal financial LLMs designed to handle diverse tasks across text, tabular, time-series, and chart data, excelling in zero-shot, few-shot, and fine-tuning settings. The suite includes FinLLaMA, pre-trained on a comprehensive 52-billion-token corpus; FinLLaMA-Instruct, fine-tuned with 573K financial instructions; and FinLLaVA, enhanced with 1.43M multimodal tuning pairs for strong cross-modal reasoning. We comprehensively evaluate Open-FinLLMs across 14 financial tasks, 30 datasets, and 4 multimodal tasks in zero-shot, few-shot, and supervised fine-tuning settings, introducing two new multimodal evaluation datasets. Our results show that Open-FinLLMs outperforms afvanced financial and general LLMs such as GPT-4, across financial NLP, decision-making, and multi-modal tasks, highlighting their potential to tackle real-world challenges. To foster innovation and collaboration across academia and industry, we release all codes (https://anonymous.4open.science/r/PIXIU2-0D70/B1D7/LICENSE) and models under OSI-approved licenses.