FinSage: A Multi-aspect RAG System for Financial Filings Question Answering

📄 arXiv: 2504.14493v4 📥 PDF

作者: Xinyu Wang, Jijun Chi, Zhenghan Tai, Tung Sum Thomas Kwok, Muzhi Li, Zhuhong Li, Hailin He, Yuchen Hua, Peng Lu, Suyuchen Wang, Yihong Wu, Jerry Huang, Jingrui Tian, Fengran Mo, Yufei Cui, Ling Zhou

分类: cs.IR, cs.AI, cs.LG

发布日期: 2025-04-20 (更新: 2025-08-13)

备注: Accepted at the 34th ACM International Conference on Information and Knowledge Management (CIKM2025)


💡 一句话要点

FinSage:一种用于金融文档问答的多方面RAG系统,提升合规分析准确性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: RAG系统 金融文档问答 多模态学习 合规分析 信息检索 直接偏好优化 元数据感知

📋 核心要点

  1. 现有金融文档问答系统难以处理数据异构性与监管标准演变,导致信息提取准确率降低。
  2. FinSage提出多方面RAG框架,包含多模态预处理、多路径检索和领域重排序三个创新组件。
  3. 实验表明,FinSage在金融问答任务上显著优于现有方法,并在实际场景中成功部署。

📝 摘要(中文)

本文提出FinSage框架,旨在解决金融领域中利用大型语言模型时,对领域特定数据和工具的需求,以及遵循复杂法规的问题。现代企业日益依赖RAG系统来应对金融文档工作流程中复杂的合规要求。然而,现有解决方案难以处理数据的异构性(例如,文本、表格、图表)和监管标准的演变,导致关键信息提取的准确性降低。FinSage采用多方面RAG框架,专为多模态金融文档中的监管合规分析而设计。FinSage引入了三个创新组件:(1)多模态预处理流程,统一各种数据格式并生成块级元数据摘要;(2)多路径稀疏-密集检索系统,通过查询扩展(HyDE)和元数据感知语义搜索进行增强;(3)领域专业化的重排序模块,通过直接偏好优化(DPO)进行微调,以优先考虑合规关键内容。实验表明,FinSage在75个专家策划的问题上实现了92.51%的召回率,并且在FinanceBench问答数据集上的准确率超过最佳基线方法24.06%。FinSage已成功部署为在线会议中的金融问答代理,服务超过1200人。

🔬 方法详解

问题定义:论文旨在解决金融领域中,现有RAG系统在处理多模态金融文档时,由于数据异构性和监管标准不断变化,导致信息提取准确率低的问题。现有方法难以有效整合文本、表格、图表等多种数据形式,并且无法充分利用文档的元数据信息,从而影响检索和问答的性能。

核心思路:FinSage的核心思路是构建一个多方面的RAG系统,通过多模态预处理统一数据格式,利用多路径检索系统提高检索效率,并采用领域专业化的重排序模块来优先考虑合规关键内容。这种设计旨在充分利用金融文档的各种信息,提高问答系统的准确性和可靠性。

技术框架:FinSage框架包含三个主要模块:(1)多模态预处理:统一各种数据格式,并生成块级元数据摘要,为后续检索提供更丰富的信息。(2)多路径检索:结合稀疏检索和密集检索,并使用查询扩展(HyDE)和元数据感知语义搜索来提高检索的召回率。(3)领域重排序:通过直接偏好优化(DPO)微调重排序模型,以优先考虑合规关键内容。整体流程是先对文档进行预处理,然后使用多路径检索系统检索相关文档块,最后使用重排序模型对检索结果进行排序,并生成答案。

关键创新:FinSage的关键创新在于其多方面的RAG框架,它能够有效地处理多模态金融文档,并充分利用文档的元数据信息。与传统的RAG系统相比,FinSage能够更好地适应金融领域的复杂性和特殊性,从而提高问答系统的性能。此外,使用DPO进行重排序模型的微调也是一个创新点,它可以更好地对齐模型的偏好,从而提高重排序的准确性。

关键设计:在多模态预处理阶段,需要设计有效的数据转换和摘要方法,以统一不同数据格式,并提取有用的元数据信息。在多路径检索阶段,需要平衡稀疏检索和密集检索的权重,并设计有效的查询扩展策略。在使用DPO进行重排序模型微调时,需要选择合适的奖励函数和训练数据,以确保模型能够学习到正确的偏好。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FinSage在75个专家策划的问题上实现了92.51%的召回率。在FinanceBench问答数据集上,FinSage的准确率超过最佳基线方法24.06%。此外,FinSage已成功部署为在线会议中的金融问答代理,服务超过1200人,证明了其在实际应用中的有效性。

🎯 应用场景

FinSage可应用于金融机构的合规审查、风险管理、客户服务等领域。它可以帮助金融从业人员快速准确地从海量金融文档中提取关键信息,提高工作效率,降低合规风险。未来,FinSage可以进一步扩展到其他需要处理复杂文档的领域,例如法律、医疗等。

📄 摘要(原文)

Leveraging large language models in real-world settings often entails a need to utilize domain-specific data and tools in order to follow the complex regulations that need to be followed for acceptable use. Within financial sectors, modern enterprises increasingly rely on Retrieval-Augmented Generation (RAG) systems to address complex compliance requirements in financial document workflows. However, existing solutions struggle to account for the inherent heterogeneity of data (e.g., text, tables, diagrams) and evolving nature of regulatory standards used in financial filings, leading to compromised accuracy in critical information extraction. We propose the FinSage framework as a solution, utilizing a multi-aspect RAG framework tailored for regulatory compliance analysis in multi-modal financial documents. FinSage introduces three innovative components: (1) a multi-modal pre-processing pipeline that unifies diverse data formats and generates chunk-level metadata summaries, (2) a multi-path sparse-dense retrieval system augmented with query expansion (HyDE) and metadata-aware semantic search, and (3) a domain-specialized re-ranking module fine-tuned via Direct Preference Optimization (DPO) to prioritize compliance-critical content. Extensive experiments demonstrate that FinSage achieves an impressive recall of 92.51% on 75 expert-curated questions derived from surpasses the best baseline method on the FinanceBench question answering datasets by 24.06% in accuracy. Moreover, FinSage has been successfully deployed as financial question-answering agent in online meetings, where it has already served more than 1,200 people.