KodeXv0.1: A Family of State-of-the-Art Financial Large Language Models

作者: Neel Rajani, Lilli Kiessling, Aleksandr Ogaltsov, Claus Lang

分类: cs.CL, cs.AI, q-fin.CP

发布日期: 2024-09-13

备注: 11 pages, 8 figures

💡 一句话要点

KodeXv0.1：金融领域专用大语言模型，超越GPT-4金融问答能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 金融大语言模型 指令调优 RAG LoRA 金融问答 合成数据 Llama 3.1

📋 核心要点

现有通用大语言模型在高度专业化的金融领域表现不足，无法满足特定需求。
KodeXv0.1通过收集金融文档并生成高质量合成数据集，进行RAG感知的LoRA指令调优，从而提升模型在金融领域的性能。
实验结果表明，KodeXv0.1在金融问答方面超越了GPT-4等模型，展现了其在金融领域的优越性能。

📝 摘要（中文）

本文介绍了KodeXv0.1，一系列在金融问答方面超越GPT-4的大语言模型。该模型基于Llama 3.1的8B和70B版本，并通过定制的训练方案使其适应金融领域。作者收集并处理了大量的公开金融文档，如盈利电话会议记录和商业报告，并利用这些数据生成高质量的合成数据集，该数据集包含上下文-问题-答案三元组，能够紧密地模拟真实的金融任务。使用该数据集的训练集，作者对Llama 3.1的基础版本进行了RAG感知的4bit LoRA指令调优，从而生成了KodeX-8Bv0.1和KodeX-70Bv0.1。通过FinanceBench、FinQABench以及保留的测试集进行广泛的模型评估，结果表明KodeX-8Bv0.1在金融语境中比同等参数规模的先进指令模型更可靠，性能提升高达9.24%，甚至能够超越GPT-4等先进的专有模型，性能提升高达7.07%。KodeX-70Bv0.1在此基础上进一步提升，在所有测试基准上均超过了GPT-4的性能。

🔬 方法详解

问题定义：现有的大语言模型虽然强大，但在金融等高度专业化的领域表现不足，无法准确理解和回答金融领域的问题。现有方法缺乏针对金融领域的专门训练数据和优化策略，导致模型在金融任务上的表现不佳。

核心思路：本文的核心思路是利用公开的金融文档构建高质量的合成数据集，并使用该数据集对Llama 3.1等基础模型进行指令调优，使其适应金融领域的特定需求。通过RAG感知的训练方式，增强模型对金融知识的检索和利用能力。

技术框架：KodeXv0.1的训练流程主要包括以下几个阶段：1) 数据收集与处理：收集公开的金融文档，如盈利电话会议记录和商业报告。2) 合成数据生成：利用收集到的数据生成高质量的上下文-问题-答案三元组，模拟真实的金融任务。3) 模型训练：使用合成数据集对Llama 3.1的基础版本进行RAG感知的4bit LoRA指令调优，生成KodeX-8Bv0.1和KodeX-70Bv0.1。4) 模型评估：使用FinanceBench、FinQABench以及保留的测试集对模型进行评估。

关键创新：KodeXv0.1的关键创新在于其定制的训练方案，包括高质量的合成数据集和RAG感知的LoRA指令调优。合成数据集能够紧密地模拟真实的金融任务，而RAG感知的训练方式能够增强模型对金融知识的检索和利用能力。与现有方法相比，KodeXv0.1更注重对金融领域知识的理解和应用。

关键设计：KodeXv0.1使用了4bit LoRA进行参数高效的微调，降低了训练成本。RAG-aware的训练方式，具体实现细节未知。合成数据集的构建方式，包括如何生成高质量的问题和答案，是影响模型性能的关键因素，具体实现细节未知。

🖼️ 关键图片

📊 实验亮点

KodeX-8Bv0.1在金融语境中比同等参数规模的先进指令模型更可靠，性能提升高达9.24%，甚至能够超越GPT-4等先进的专有模型，性能提升高达7.07%。KodeX-70Bv0.1在此基础上进一步提升，在所有测试基准上均超过了GPT-4的性能。这些结果表明KodeXv0.1在金融领域具有显著的优势。

🎯 应用场景

KodeXv0.1可应用于金融问答、金融报告分析、投资决策支持等领域。该研究的实际价值在于提供了一种更可靠、更准确的金融领域大语言模型，能够帮助金融从业者更好地理解和分析金融数据，提高工作效率和决策质量。未来，该模型有望进一步应用于智能投顾、风险管理等领域。

📄 摘要（原文）

Although powerful, current cutting-edge LLMs may not fulfil the needs of highly specialised sectors. We introduce KodeXv0.1, a family of large language models that outclass GPT-4 in financial question answering. We utilise the base variants of Llama 3.1 8B and 70B and adapt them to the financial domain through a custom training regime. To this end, we collect and process a large number of publicly available financial documents such as earnings calls and business reports. These are used to generate a high-quality, synthetic dataset consisting of Context-Question-Answer triplets which closely mirror real-world financial tasks. Using the train split of this dataset, we perform RAG-aware 4bit LoRA instruction tuning runs of Llama 3.1 base variants to produce KodeX-8Bv0.1 and KodeX-70Bv0.1. We then complete extensive model evaluations using FinanceBench, FinQABench and the withheld test split of our dataset. Our results show that KodeX-8Bv0.1 is more reliable in financial contexts than cutting-edge instruct models in the same parameter regime, surpassing them by up to 9.24%. In addition, it is even capable of outperforming state-of-the-art proprietary models such as GPT-4 by up to 7.07%. KodeX-70Bv0.1 represents a further improvement upon this, exceeding GPT-4's performance on every tested benchmark.

KodeXv0.1: A Family of State-of-the-Art Financial Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理