Thai Financial Domain Adaptation of THaLLE -- Technical Report

📄 arXiv: 2411.18242v1 📥 PDF

作者: KBTG Labs, Atthakorn Petchsod, Pornchanan Balee, Danupat Khamnuansin, Anuruth Lertpiya, Chanatip Saetia, Tawunrat Chalothorn, Thadpong Pongthawornkamol, Monchai Lertsutthiwong

分类: cs.CL, cs.AI

发布日期: 2024-11-27


💡 一句话要点

针对泰国金融领域,提出THaLLE模型,解决领域知识不足问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 泰国金融 领域自适应 大型语言模型 持续预训练 监督式微调 直接偏好优化 ReLoRA rsLoRA

📋 核心要点

  1. 现有金融领域LLM缺乏对泰国金融领域的支持,无法有效处理泰语专业术语和法规。
  2. 通过数据增强、ReLoRA、持续预训练(CPT)和Rank-Stabilized LoRA (rsLoRA)等技术,提升模型在泰国金融领域的性能。
  3. 实验结果表明,该模型在泰国投资顾问(IC)考试中表现出色,证明其在金融咨询任务中的有效性。

📝 摘要(中文)

大型语言模型(LLMs)在通用任务中表现出色,但在特定领域的挑战中表现不佳,例如专业术语和本地化法规。现有的金融LLM,如FinGPT和BloombergGPT,缺乏对泰国金融领域的支持。我们使用泰国证券交易所的投资顾问(IC)考试数据集开发了一个泰国金融LLM。为了解决数据集的局限性,我们应用了数据增强、用于高效训练的ReLoRA、用于领域知识的持续预训练(CPT)和用于微调的Rank-Stabilized LoRA (rsLoRA)。监督式微调(SFT)模拟了考试场景,而直接偏好优化(DPO)使用反馈来改进模型。该模型在IC考试的P1、P2和P3级别上分别取得了72%、72%和84%的分数,证明了其在泰国金融咨询任务中的有效性及其在专业应用中的潜力。

🔬 方法详解

问题定义:现有的大型语言模型在通用任务上表现良好,但在特定领域,例如泰国金融领域,由于缺乏领域知识和对当地语言、法规的理解,表现不佳。现有的金融LLM,如FinGPT和BloombergGPT,主要针对英文金融市场,对泰语金融领域支持不足。因此,需要一个专门针对泰国金融领域的LLM,以解决该领域特有的问题。

核心思路:论文的核心思路是利用已有的通用LLM,通过持续预训练和微调,使其适应泰国金融领域。具体来说,首先利用泰国证券交易所的投资顾问(IC)考试数据集进行持续预训练,使模型获得领域知识。然后,通过监督式微调(SFT)和直接偏好优化(DPO),使模型能够更好地完成金融咨询任务。

技术框架:该方法的技术框架主要包括以下几个阶段:1) 数据增强:为了解决数据集规模有限的问题,采用数据增强技术扩充数据集。2) 持续预训练(CPT):利用IC考试数据集对LLM进行持续预训练,使模型获得泰国金融领域的知识。3) 监督式微调(SFT):使用模拟考试场景的数据对模型进行微调,使其能够更好地完成金融咨询任务。4) 直接偏好优化(DPO):使用人工反馈数据对模型进行优化,使其能够更好地满足用户需求。5) ReLoRA和rsLoRA:采用ReLoRA和rsLoRA等高效微调技术,降低训练成本。

关键创新:该论文的关键创新在于针对泰国金融领域,提出了一套完整的LLM训练和微调流程。该流程包括数据增强、持续预训练、监督式微调和直接偏好优化等多个环节,并采用了ReLoRA和rsLoRA等高效微调技术。此外,该论文还使用了泰国证券交易所的投资顾问(IC)考试数据集,这是一个高质量的领域数据集。

关键设计:在持续预训练阶段,使用了IC考试数据集,并采用了合适的学习率和训练轮数。在监督式微调阶段,使用了模拟考试场景的数据,并采用了交叉熵损失函数。在直接偏好优化阶段,使用了人工反馈数据,并采用了合适的偏好模型。此外,还采用了ReLoRA和rsLoRA等高效微调技术,以降低训练成本。具体参数设置未知。

📊 实验亮点

该模型在泰国投资顾问(IC)考试的P1、P2和P3级别上分别取得了72%、72%和84%的分数。这些结果表明,该模型在泰国金融咨询任务中表现出色,能够有效地解决领域知识不足的问题。具体对比基线未知。

🎯 应用场景

该研究成果可应用于智能金融顾问、金融知识问答系统、金融风险评估等领域。该模型能够为泰国投资者提供专业的金融咨询服务,帮助他们做出更明智的投资决策。未来,该模型还可以扩展到其他东南亚国家的金融领域,具有广阔的应用前景。

📄 摘要(原文)

Large Language Models (LLMs) excel in general tasks but struggle with domain-specific challenges, such as specialized terminology and localized regulations. Existing financial LLMs, like FinGPT and BloombergGPT, lack support for the Thai financial domain. We developed a Thai Financial LLM using the Investment Consultant (IC) exam dataset from the Stock Exchange of Thailand. To address dataset limitations, we applied data augmentation, ReLoRA for efficient training, Continued Pretraining (CPT) for domain knowledge, and Rank-Stabilized LoRA (rsLoRA) for fine-tuning. Supervised Fine-Tuning (SFT) simulated exam scenarios, while Direct Preference Optimization (DPO) refined the model using feedback. The model achieved scores of 72%, 72%, and 84% on IC exam levels P1, P2, and P3, respectively, demonstrating its effectiveness in Thai financial advisory tasks and its potential for specialized applications.