What Factors Affect LLMs and RLLMs in Financial Question Answering?

作者: Peng Wang, Xuesi Hu, Jiageng Wu, Yuntao Zou, Qiancheng Zhang, Dagang Li

分类: cs.CL

发布日期: 2025-07-11 (更新: 2025-09-26)

备注: Preprint

💡 一句话要点

探究影响LLMs和RLLMs在金融问答中表现的关键因素

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理大型语言模型 金融问答 提示工程 代理框架 多语言对齐 长链思考

📋 核心要点

现有方法难以充分挖掘LLMs和RLLMs在金融领域的潜力，缺乏系统性的性能提升策略研究。
通过评估提示方法、代理框架和多语言对齐对LLMs和RLLMs在金融问答任务中的影响，揭示关键因素。
实验表明，传统方法对RLLMs的提升有限，多语言对齐主要通过扩展推理长度提升LLMs性能。

📝 摘要（中文）

近年来，大型语言模型（LLMs）和推理大型语言模型（RLLMs）的发展受到了广泛关注。RLLMs通过长链思考（Long CoT）过程增强了LLMs的推理能力，显著提高了LLMs解决复杂问题的性能。然而，很少有研究系统地探索在金融领域内，哪些方法可以充分发挥LLMs和RLLMs的性能。为了研究各种方法对LLMs和RLLMs的影响，我们利用五个LLMs和三个RLLMs来评估提示方法、代理框架和多语言对齐方法对金融问答任务的影响。我们的研究结果表明：（1）当前的提示方法和代理框架通过模拟Long CoT来增强LLMs在金融问答中的性能；（2）RLLMs具有固有的Long CoT能力，这限制了传统方法进一步提高其性能的有效性；（3）当前先进的多语言对齐方法主要通过扩展推理长度来提高LLMs的多语言性能，这对RLLMs的益处甚微。此外，我们讨论了提高LLMs和RLLMs在金融问答中性能的策略，这可能为未来的改进提供灵感。我们希望这项研究可以为金融问答领域的LLMs和RLLMs提供重要的参考。

🔬 方法详解

问题定义：论文旨在解决如何充分发挥LLMs和RLLMs在金融问答任务中的性能这一问题。现有方法，如提示工程和代理框架，虽然能提升LLMs的性能，但对具有内在推理能力的RLLMs效果不佳。此外，多语言对齐方法对RLLMs的增益也有限。因此，需要系统性地研究哪些因素真正影响LLMs和RLLMs在金融领域的表现，并提出针对性的优化策略。

核心思路：论文的核心思路是通过对比实验，分析不同方法（提示方法、代理框架、多语言对齐）对LLMs和RLLMs在金融问答任务中的影响。通过观察这些方法在不同模型上的表现差异，从而揭示LLMs和RLLMs的内在特性，并为未来的优化提供指导。

技术框架：论文的技术框架主要包括以下几个部分：1) 选择五个LLMs和三个RLLMs作为研究对象；2) 设计金融问答任务作为评估基准；3) 应用不同的提示方法、代理框架和多语言对齐方法；4) 对比分析不同方法在不同模型上的性能表现；5) 总结影响LLMs和RLLMs性能的关键因素，并提出优化建议。

关键创新：论文的关键创新在于系统性地研究了多种方法对LLMs和RLLMs在金融领域的影响，并揭示了RLLMs具有内在推理能力，使得传统方法对其提升有限。此外，论文还指出了多语言对齐方法对RLLMs的增益不明显，为未来的研究方向提供了新的视角。

关键设计：论文的关键设计在于选择了具有代表性的LLMs和RLLMs，并设计了具有挑战性的金融问答任务。此外，论文还选择了常用的提示方法、代理框架和多语言对齐方法，保证了实验结果的可靠性和可推广性。具体的参数设置和损失函数等技术细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

研究表明，提示方法和代理框架主要通过模拟长链思考（Long CoT）来提升LLMs的金融问答性能。RLLMs由于其固有的Long CoT能力，使得传统方法对其性能提升有限。多语言对齐方法主要通过扩展推理长度来提升LLMs的多语言性能，对RLLMs的增益不明显。具体的性能数据和提升幅度在摘要中未提及，属于未知信息。

🎯 应用场景

该研究成果可应用于智能金融助手、金融风险评估、投资决策支持等领域。通过优化LLMs和RLLMs在金融领域的性能，可以提高金融服务的效率和智能化水平，为投资者和金融机构提供更准确、更可靠的信息支持，并降低金融风险。

📄 摘要（原文）

Recently, the development of large language models (LLMs) and reasoning large language models (RLLMs) have gained considerable attention from many researchers. RLLMs enhance the reasoning capabilities of LLMs through Long Chain-of-Thought (Long CoT) processes, significantly improving the performance of LLMs in addressing complex problems. However, there are few works that systematically explore what methods can fully unlock the performance of LLMs and RLLMs within the financial domain. To investigate the impact of various methods on LLMs and RLLMs, we utilize five LLMs and three RLLMs to assess the effects of prompting methods, agentic frameworks, and multilingual alignment methods on financial question-answering tasks. Our research findings indicate: (1) Current prompting methods and agent frameworks enhance the performance of LLMs in financial question answering by simulating Long CoT; (2) RLLMs possess inherent Long CoT capabilities, which limits the effectiveness of conventional methods in further enhancing their performance; (3) Current advanced multilingual alignment methods primarily improve the multilingual performance of LLMs by extending the reasoning length, which yields minimal benefits for RLLMs. Additionally, we discuss strategies for enhancing the performance of LLMs and RLLMs in financial question answering, which may serve as a inspiration for future improvements. We hope that this study can serve as an important reference for LLMs and RLLMs in the field of financial question answering.