KemenkeuGPT: Leveraging a Large Language Model on Indonesia's Government Financial Data and Regulations to Enhance Decision Making
作者: Gilang Fajar Febrian, Grazziela Figueredo
分类: cs.AI
发布日期: 2024-07-31
备注: 14 pages, 7 figures, 10 tables
💡 一句话要点
KemenkeuGPT:利用大语言模型增强印尼政府金融数据决策
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 检索增强生成 印尼财政部 金融数据 法规 决策支持 LangChain
📋 核心要点
- 印尼政府金融数据复杂且动态,现有决策方法面临挑战,难以有效利用数据。
- 利用LangChain和RAG,结合提示工程与微调,迭代开发KemenkeuGPT模型。
- 实验结果表明,KemenkeuGPT在准确率和正确率上均有显著提升,RAGAS评估也优于其他模型。
📝 摘要(中文)
数据对于循证决策和提升公共服务至关重要,包括印度尼西亚财政部。然而,政府金融数据和法规的复杂性和动态性可能会阻碍决策。本研究探讨了大型语言模型(LLM)应对这些挑战的潜力,重点关注印尼的金融数据和法规。虽然LLM在金融领域有效,但其在印尼公共部门的应用尚未被探索。本研究采用迭代过程,利用LangChain与检索增强生成(RAG)、提示工程和微调来开发KemenkeuGPT。数据集来自2003年至2023年,由财政部、印尼统计局和国际货币基金组织(IMF)收集。与财政部官员的调查和访谈为模型提供了信息、增强和微调。我们使用人工反馈、基于LLM的评估和基准测试来评估模型。模型的准确率从35%提高到61%,正确率从48%提高到64%。检索增强生成评估(RAGAS)框架显示,KemenkeuGPT实现了44%的正确率、73%的忠实度、40%的精确率和60%的召回率,优于其他几个基础模型。与财政部专家的访谈表明,KemenkeuGPT有潜力成为决策的重要工具。预计这些结果将随着持续的人工反馈而提高。
🔬 方法详解
问题定义:论文旨在解决印尼财政部在利用复杂和动态的政府金融数据和法规进行决策时遇到的困难。现有方法难以有效处理这些数据,阻碍了循证决策和公共服务提升。
核心思路:核心思路是利用大型语言模型(LLM)的强大能力,结合检索增强生成(RAG)技术,构建一个专门针对印尼政府金融数据和法规的智能助手KemenkeuGPT。通过RAG,模型可以检索相关信息并生成更准确、可靠的答案。
技术框架:整体框架包括数据收集与预处理、模型构建与训练、评估与优化三个主要阶段。数据来自印尼财政部、印尼统计局和国际货币基金组织(IMF)。模型构建采用LangChain框架,结合RAG技术,并进行提示工程和微调。评估采用人工反馈、基于LLM的评估和基准测试。
关键创新:关键创新在于将LLM应用于印尼公共部门的金融数据和法规领域,这是一个尚未被充分探索的领域。此外,通过迭代的开发过程,结合人工反馈和RAGAS评估框架,不断优化模型性能。
关键设计:模型使用了LangChain框架,方便集成RAG流程。提示工程用于优化模型生成答案的质量。微调过程使用了从财政部官员处收集的反馈数据。RAGAS评估框架用于量化评估RAG流程的各个方面,如正确性、忠实度、精确率和召回率。
🖼️ 关键图片
📊 实验亮点
KemenkeuGPT的准确率从35%提升至61%,正确率从48%提升至64%。RAGAS评估显示,KemenkeuGPT实现了44%的正确率、73%的忠实度、40%的精确率和60%的召回率,优于其他基础模型。财政部专家的访谈也表明,KemenkeuGPT具有成为重要决策工具的潜力。
🎯 应用场景
KemenkeuGPT具有广泛的应用前景,可以作为印尼财政部决策的重要辅助工具,帮助官员快速准确地获取所需信息,提高决策效率和质量。此外,该研究的思路和方法也可以推广到其他政府部门和公共服务领域,为提升政府治理能力提供借鉴。
📄 摘要(原文)
Data is crucial for evidence-based policymaking and enhancing public services, including those at the Ministry of Finance of the Republic of Indonesia. However, the complexity and dynamic nature of governmental financial data and regulations can hinder decision-making. This study investigates the potential of Large Language Models (LLMs) to address these challenges, focusing on Indonesia's financial data and regulations. While LLMs are effective in the financial sector, their use in the public sector in Indonesia is unexplored. This study undertakes an iterative process to develop KemenkeuGPT using the LangChain with Retrieval-Augmented Generation (RAG), prompt engineering and fine-tuning. The dataset from 2003 to 2023 was collected from the Ministry of Finance, Statistics Indonesia and the International Monetary Fund (IMF). Surveys and interviews with Ministry officials informed, enhanced and fine-tuned the model. We evaluated the model using human feedback, LLM-based evaluation and benchmarking. The model's accuracy improved from 35% to 61%, with correctness increasing from 48% to 64%. The Retrieval-Augmented Generation Assessment (RAGAS) framework showed that KemenkeuGPT achieved 44% correctness with 73% faithfulness, 40% precision and 60% recall, outperforming several other base models. An interview with an expert from the Ministry of Finance indicated that KemenkeuGPT has the potential to become an essential tool for decision-making. These results are expected to improve with continuous human feedback.