KodeXv0.1: A Family of State-of-the-Art Financial Large Language Models
作者: Neel Rajani, Lilli Kiessling, Aleksandr Ogaltsov, Claus Lang
分类: cs.CL, cs.AI, q-fin.CP
发布日期: 2024-09-13
备注: 11 pages, 8 figures
💡 一句话要点
KodeXv0.1:金融领域专用大语言模型,超越GPT-4金融问答能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 金融大语言模型 指令调优 RAG LoRA 金融问答 合成数据 Llama 3.1
📋 核心要点
- 现有通用大语言模型在高度专业化的金融领域表现不足,无法满足特定需求。
- KodeXv0.1通过收集金融文档并生成高质量合成数据集,进行RAG感知的LoRA指令调优,从而提升模型在金融领域的性能。
- 实验结果表明,KodeXv0.1在金融问答方面超越了GPT-4等模型,展现了其在金融领域的优越性能。
📝 摘要(中文)
本文介绍了KodeXv0.1,一系列在金融问答方面超越GPT-4的大语言模型。该模型基于Llama 3.1的8B和70B版本,并通过定制的训练方案使其适应金融领域。作者收集并处理了大量的公开金融文档,如盈利电话会议记录和商业报告,并利用这些数据生成高质量的合成数据集,该数据集包含上下文-问题-答案三元组,能够紧密地模拟真实的金融任务。使用该数据集的训练集,作者对Llama 3.1的基础版本进行了RAG感知的4bit LoRA指令调优,从而生成了KodeX-8Bv0.1和KodeX-70Bv0.1。通过FinanceBench、FinQABench以及保留的测试集进行广泛的模型评估,结果表明KodeX-8Bv0.1在金融语境中比同等参数规模的先进指令模型更可靠,性能提升高达9.24%,甚至能够超越GPT-4等先进的专有模型,性能提升高达7.07%。KodeX-70Bv0.1在此基础上进一步提升,在所有测试基准上均超过了GPT-4的性能。
🔬 方法详解
问题定义:现有的大语言模型虽然强大,但在金融等高度专业化的领域表现不足,无法准确理解和回答金融领域的问题。现有方法缺乏针对金融领域的专门训练数据和优化策略,导致模型在金融任务上的表现不佳。
核心思路:本文的核心思路是利用公开的金融文档构建高质量的合成数据集,并使用该数据集对Llama 3.1等基础模型进行指令调优,使其适应金融领域的特定需求。通过RAG感知的训练方式,增强模型对金融知识的检索和利用能力。
技术框架:KodeXv0.1的训练流程主要包括以下几个阶段:1) 数据收集与处理:收集公开的金融文档,如盈利电话会议记录和商业报告。2) 合成数据生成:利用收集到的数据生成高质量的上下文-问题-答案三元组,模拟真实的金融任务。3) 模型训练:使用合成数据集对Llama 3.1的基础版本进行RAG感知的4bit LoRA指令调优,生成KodeX-8Bv0.1和KodeX-70Bv0.1。4) 模型评估:使用FinanceBench、FinQABench以及保留的测试集对模型进行评估。
关键创新:KodeXv0.1的关键创新在于其定制的训练方案,包括高质量的合成数据集和RAG感知的LoRA指令调优。合成数据集能够紧密地模拟真实的金融任务,而RAG感知的训练方式能够增强模型对金融知识的检索和利用能力。与现有方法相比,KodeXv0.1更注重对金融领域知识的理解和应用。
关键设计:KodeXv0.1使用了4bit LoRA进行参数高效的微调,降低了训练成本。RAG-aware的训练方式,具体实现细节未知。合成数据集的构建方式,包括如何生成高质量的问题和答案,是影响模型性能的关键因素,具体实现细节未知。
🖼️ 关键图片
📊 实验亮点
KodeX-8Bv0.1在金融语境中比同等参数规模的先进指令模型更可靠,性能提升高达9.24%,甚至能够超越GPT-4等先进的专有模型,性能提升高达7.07%。KodeX-70Bv0.1在此基础上进一步提升,在所有测试基准上均超过了GPT-4的性能。这些结果表明KodeXv0.1在金融领域具有显著的优势。
🎯 应用场景
KodeXv0.1可应用于金融问答、金融报告分析、投资决策支持等领域。该研究的实际价值在于提供了一种更可靠、更准确的金融领域大语言模型,能够帮助金融从业者更好地理解和分析金融数据,提高工作效率和决策质量。未来,该模型有望进一步应用于智能投顾、风险管理等领域。
📄 摘要(原文)
Although powerful, current cutting-edge LLMs may not fulfil the needs of highly specialised sectors. We introduce KodeXv0.1, a family of large language models that outclass GPT-4 in financial question answering. We utilise the base variants of Llama 3.1 8B and 70B and adapt them to the financial domain through a custom training regime. To this end, we collect and process a large number of publicly available financial documents such as earnings calls and business reports. These are used to generate a high-quality, synthetic dataset consisting of Context-Question-Answer triplets which closely mirror real-world financial tasks. Using the train split of this dataset, we perform RAG-aware 4bit LoRA instruction tuning runs of Llama 3.1 base variants to produce KodeX-8Bv0.1 and KodeX-70Bv0.1. We then complete extensive model evaluations using FinanceBench, FinQABench and the withheld test split of our dataset. Our results show that KodeX-8Bv0.1 is more reliable in financial contexts than cutting-edge instruct models in the same parameter regime, surpassing them by up to 9.24%. In addition, it is even capable of outperforming state-of-the-art proprietary models such as GPT-4 by up to 7.07%. KodeX-70Bv0.1 represents a further improvement upon this, exceeding GPT-4's performance on every tested benchmark.