Retrieval-Augmented Reasoning for Chartered Accountancy

📄 arXiv: 2605.00257v1 📥 PDF

作者: Jatin Gupta, Akhil Sharma, Saransh Singhania, Ali Imam Abidi

分类: cs.CL, cs.AI, cs.IR

发布日期: 2026-04-30

备注: 9 pages, 2 figures, and 3 tables


💡 一句话要点

CA-ThinkFlow:面向印度特许会计的检索增强推理框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大型语言模型 特许会计 思维链 知识库 量化模型 领域知识

📋 核心要点

  1. 现有大型语言模型在处理印度特许会计等复杂、特定领域的任务时,面临可靠性和数值计算能力的挑战。
  2. CA-ThinkFlow采用检索增强生成框架,结合14B量化模型和布局感知文档提取,提升模型在专业领域的推理能力。
  3. 实验表明,CA-ThinkFlow在CA-Ben基准测试中取得了与GPT-4o和Claude 3.5 Sonnet相近的性能,验证了其有效性。

📝 摘要(中文)

大型语言模型(LLMs)的出现加速了人工智能在金融领域的应用,但它们在复杂、特定管辖区域的任务(如印度特许会计(CA))中的可靠性仍然有限。这些模型在执行需要多个步骤的数值任务时表现出困难,同时需要关于法律法规的深入知识,并且在资源有限的环境中扩展其操作的方法是不可行的。我们提出了CA-ThinkFlow,这是一个参数高效的检索增强生成(RAG)框架,它使用一个14B、4-bit量化的推理模型14B-DeepSeek-R1和一个布局感知的Docling提取系统,该系统在提取过程中保持文档结构。CA-ThinkFlow使用基本的RAG方法,自动将检索到的信息添加到提示中,同时依赖于模型内置的思维链(CoT)功能来创建上下文并产生正确的答案。我们开发的系统在多级CA-Ben基准测试中达到了与大型专有模型相匹配的性能水平,实现了相当于GPT-4o和Claude 3.5 Sonnet的68.75%的学术可靠性系数(SRC)结果。该框架在处理参数方面表现出很高的效率和强度,但基本的推理能力无法处理税务等领域中存在的复杂监管文本。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在印度特许会计(CA)领域应用中的局限性。现有方法难以处理复杂的法律法规和多步骤数值计算,且在资源受限环境下难以扩展。现有方法的痛点在于缺乏领域知识和有效的推理能力,导致在专业任务中表现不佳。

核心思路:论文的核心思路是利用检索增强生成(RAG)框架,将外部知识库的信息融入到模型的推理过程中。通过检索相关文档,为模型提供必要的上下文信息,从而提高其在CA领域的推理准确性和可靠性。同时,采用思维链(CoT)方法,引导模型逐步推理,提升复杂问题的解决能力。

技术框架:CA-ThinkFlow框架主要包含三个模块:布局感知文档提取系统(Docling)、检索模块和推理模型。Docling负责从文档中提取结构化信息,检索模块根据用户查询检索相关文档片段,推理模型(14B-DeepSeek-R1)结合检索到的信息和思维链提示,生成最终答案。整体流程为:用户输入问题 -> Docling提取文档信息 -> 检索模块检索相关文档 -> 推理模型结合检索结果和CoT进行推理 -> 输出答案。

关键创新:该论文的关键创新在于将布局感知的文档提取与检索增强生成相结合,并针对印度特许会计领域进行了优化。Docling能够保留文档的结构信息,这对于理解法律法规等复杂文本至关重要。此外,采用参数高效的量化模型,降低了计算资源的需求,使其更易于在资源受限的环境中部署。

关键设计:论文采用14B参数的DeepSeek-R1模型,并进行4-bit量化,以降低计算成本。Docling提取系统采用布局感知技术,保留文档的结构信息。检索模块采用基本的RAG方法,自动将检索到的信息添加到提示中。推理模型依赖于内置的思维链(CoT)功能,引导模型逐步推理。具体参数设置和损失函数等细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

CA-ThinkFlow在CA-Ben基准测试中取得了显著成果,其学术可靠性系数(SRC)达到了GPT-4o和Claude 3.5 Sonnet的68.75%。这表明,在特定领域,该框架能够以较低的计算成本达到与大型专有模型相近的性能水平。该框架在处理参数方面表现出很高的效率和强度。

🎯 应用场景

CA-ThinkFlow框架可应用于金融、法律等专业领域,辅助专业人士进行决策和问题解决。例如,可以帮助会计师快速查找相关法规,进行税务计算和审计分析。该研究的实际价值在于提高专业人士的工作效率和准确性,降低错误率。未来,该框架可以扩展到其他专业领域,并与其他AI技术相结合,实现更智能化的应用。

📄 摘要(原文)

The inception of Large Language Models (LLMs) has catalyzed AI adoption in the finance sector, yet their reliability in complex, jurisdiction-specific tasks like Indian Chartered Accountancy (CA) remains limited. The models display difficulty in executing numerical tasks which require multiple steps while also needing advanced knowledge about legal regulations and the method of scaling their operations is not feasible in settings which have limited access to resources. We present CA-ThinkFlow as a parameter-efficient Retrieval-Augmented Generation (RAG) framework which operates with a 14B, 4-bit-quantized reasoning model, 14B-DeepSeek-R1, and a layout-aware Docling extraction system which maintains document structure during extraction. CA-ThinkFlow uses a basic RAG method which automatically adds retrieved information into the prompt, while it depends on the model's built-in Chain-of-Thought (CoT) functions to create context and produce correct answers. The system we developed system operates at performance levels which match large proprietary models when we tested it on the multi-level CA-Ben benchmark, achieving Scholastic Reliability Coefficient (SRC) results which equal 68.75\% of GPT-4o and Claude 3.5 Sonnet. The framework shows high efficiency and strength in handling parameters, but essential reasoning abilities fail to process complex regulatory texts which exist in fields such as Taxation.