Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning

📄 arXiv: 2507.16802v4 📥 PDF

作者: Yanjun Zheng, Xiyang Du, Longfei Liao, Xiaoke Zhao, Zhaowen Zhou, Jingze Song, Bo Zhang, Jiawei Liu, Xiang Qi, Zhe Li, Zhiqiang Zhang, Wei Wang, Peng Zhang

分类: cs.CL, cs.LG

发布日期: 2025-07-22 (更新: 2025-07-27)

🔗 代码/项目: GITHUB


💡 一句话要点

Agentar-Fin-R1:通过领域知识、高效训练和高级推理增强金融智能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 金融大语言模型 可信AI 领域知识 高效训练 智能推理 合规性验证 Finova基准

📋 核心要点

  1. 现有大型语言模型在金融领域应用中,面临着复杂推理能力不足、可信度不高以及领域适应性差等挑战。
  2. Agentar-Fin-R1通过高质量金融任务标签系统和多层可信度保证框架,提升模型在金融领域的推理能力和可靠性。
  3. 实验结果表明,Agentar-Fin-R1在金融任务和通用推理任务上均取得了优异的性能,验证了其有效性。

📝 摘要(中文)

大型语言模型(LLMs)在金融应用中展现出巨大的潜力。然而,现有模型在面对需要复杂推理能力、严格可信度标准以及高效适应领域特定需求的场景时,常常表现出局限性。我们推出了Agentar-Fin-R1系列金融大型语言模型(8B和32B参数),该模型基于Qwen3基础模型构建,旨在增强金融应用的推理能力、可靠性和领域专业性。我们的优化方法整合了高质量、系统的金融任务标签系统以及全面的多层可信度保证框架。该框架包括高质量的可信知识工程、多智能体可信数据合成以及严格的数据验证治理。通过标签引导的自动化难度感知优化、两阶段训练流程和动态归因系统,我们在训练效率方面取得了显著提升。我们的模型在主流金融基准(包括Fineva、FinEval和FinanceIQ)以及通用推理数据集(如MATH-500和GPQA-diamond)上进行了全面评估。为了彻底评估实际部署能力,我们创新性地提出了Finova评估基准,该基准侧重于智能体级别的金融推理和合规性验证。实验结果表明,Agentar-Fin-R1不仅在金融任务上实现了最先进的性能,而且表现出卓越的通用推理能力,验证了其作为高风险金融应用的可信解决方案的有效性。Finova基准可在https://github.com/antgroup/Finova获取。

🔬 方法详解

问题定义:现有的大型语言模型在金融领域的应用中,面临着需要复杂推理能力、严格可信度标准以及高效适应领域特定需求等挑战。现有的模型在处理金融领域的问题时,往往表现出推理能力不足,可信度不高,并且难以快速适应新的金融场景和数据。

核心思路:Agentar-Fin-R1的核心思路是基于Qwen3,通过高质量的金融任务标签系统和多层可信度保证框架,来提升模型在金融领域的推理能力、可靠性和领域专业性。通过标签引导的自动化难度感知优化和两阶段训练流程,提高训练效率。这样设计的目的是为了使模型能够更好地理解和处理金融领域的问题,并且能够更加可靠地应用于实际的金融场景。

技术框架:Agentar-Fin-R1的整体框架包括以下几个主要模块: 1. 高质量金融任务标签系统:用于指导模型的训练,使其能够更好地理解金融领域的问题。 2. 多层可信度保证框架:包括高质量的可信知识工程、多智能体可信数据合成以及严格的数据验证治理,用于提高模型的可信度。 3. 标签引导的自动化难度感知优化:用于提高模型的训练效率。 4. 两阶段训练流程:用于进一步提高模型的性能。 5. 动态归因系统:用于提高模型的可解释性。

关键创新:Agentar-Fin-R1的关键创新在于其多层可信度保证框架和标签引导的自动化难度感知优化。多层可信度保证框架通过高质量的可信知识工程、多智能体可信数据合成以及严格的数据验证治理,有效地提高了模型的可信度。标签引导的自动化难度感知优化则通过标签引导的自动化难度感知优化和两阶段训练流程,显著提高了模型的训练效率。与现有方法相比,Agentar-Fin-R1更加注重模型的可信度和训练效率。

关键设计:Agentar-Fin-R1的关键设计包括: 1. 高质量金融任务标签系统:该系统包含了大量的金融任务标签,用于指导模型的训练。 2. 多层可信度保证框架:该框架包含了高质量的可信知识工程、多智能体可信数据合成以及严格的数据验证治理。 3. 标签引导的自动化难度感知优化:该优化方法根据标签的难度自动调整训练的难度。 4. 两阶段训练流程:第一阶段使用大量的通用数据进行预训练,第二阶段使用金融领域的数据进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Agentar-Fin-R1在Fineva、FinEval和FinanceIQ等主流金融基准测试中取得了最先进的性能。此外,在通用推理数据集MATH-500和GPQA-diamond上也表现出卓越的性能。特别地,该论文还提出了Finova评估基准,用于评估智能体级别的金融推理和合规性验证,并在此基准上验证了Agentar-Fin-R1的有效性。

🎯 应用场景

Agentar-Fin-R1在金融领域具有广泛的应用前景,例如智能投顾、风险管理、合规性检查、金融信息抽取和金融报告生成等。该研究的实际价值在于提供了一个更可靠、更高效的金融智能解决方案,可以帮助金融机构提高效率、降低成本、提升服务质量。未来,Agentar-Fin-R1有望成为金融行业智能化转型的重要推动力。

📄 摘要(原文)

Large Language Models (LLMs) exhibit considerable promise in financial applications; however, prevailing models frequently demonstrate limitations when confronted with scenarios that necessitate sophisticated reasoning capabilities, stringent trustworthiness criteria, and efficient adaptation to domain-specific requirements. We introduce the Agentar-Fin-R1 series of financial large language models (8B and 32B parameters), specifically engineered based on the Qwen3 foundation model to enhance reasoning capabilities, reliability, and domain specialization for financial applications. Our optimization approach integrates a high-quality, systematic financial task label system with a comprehensive multi-layered trustworthiness assurance framework. This framework encompasses high-quality trustworthy knowledge engineering, multi-agent trustworthy data synthesis, and rigorous data validation governance. Through label-guided automated difficulty-aware optimization, tow-stage training pipeline, and dynamic attribution systems, we achieve substantial improvements in training efficiency. Our models undergo comprehensive evaluation on mainstream financial benchmarks including Fineva, FinEval, and FinanceIQ, as well as general reasoning datasets such as MATH-500 and GPQA-diamond. To thoroughly assess real-world deployment capabilities, we innovatively propose the Finova evaluation benchmark, which focuses on agent-level financial reasoning and compliance verification. Experimental results demonstrate that Agentar-Fin-R1 not only achieves state-of-the-art performance on financial tasks but also exhibits exceptional general reasoning capabilities, validating its effectiveness as a trustworthy solution for high-stakes financial applications. The Finova bench is available at https://github.com/antgroup/Finova.