THaLLE-ThaiLLM: Domain-Specialized Small LLMs for Finance and Thai -- Technical Report
作者: KBTG Labs, :, Anuruth Lertpiya, Danupat Khamnuansin, Kantapong Sucharitpongpan, Pornchanan Balee, Tawunrat Chalothorn, Thadpong Pongthawornkamol, Monchai Lertsutthiwong
分类: cs.CL
发布日期: 2026-01-08
💡 一句话要点
THaLLE-ThaiLLM:面向金融和泰语的领域专用小型LLM,通过模型合并实现多功能性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 模型合并 领域专用模型 泰语 金融
📋 核心要点
- 现有方法难以兼顾领域专业性和通用性,训练多功能LLM成本高昂,而多个专用模型部署复杂。
- 论文提出模型合并方法,将通用LLM与领域专用LLM融合,以资源高效的方式构建多功能模型。
- 实验表明,合并后的模型在通用能力(M3/M6 O-NET)和金融领域(Flare-CFA, Thai-IC)均有提升。
📝 摘要(中文)
大型语言模型(LLM)在各个领域,尤其是在银行和金融领域,展现出巨大的潜力,它们可以自动化复杂的任务并大规模地增强决策能力。由于隐私、安全和监管方面的考虑,组织通常更喜欢LLM的本地部署。ThaiLLM 旨在增强开放 LLM 中的泰语能力,使泰国工业能够利用先进的语言模型。然而,组织经常面临部署多个专用模型与训练单个多功能模型的巨大成本之间的权衡。为了解决这个问题,我们探索模型合并作为一种资源高效的替代方案,用于开发高性能、多功能的 LLM。我们展示了两个关键实验的结果:首先,将 Qwen-8B 与 ThaiLLM-8B 合并,证明了 ThaiLLM-8B 如何增强泰语的通用能力,在 M3 和 M6 O-NET 考试中表现优于通用指令遵循模型 Qwen-8B。其次,我们将 Qwen-8B 与 ThaiLLM-8B 和 THaLLE-CFA-8B 合并。通过在 M3 和 M6 O-NET、Flare-CFA 和 Thai-IC 基准测试中表现出提升,这种组合进一步提高了通用和金融领域的性能。该报告展示了模型合并在高效创建多功能 LLM 方面的可行性。
🔬 方法详解
问题定义:论文旨在解决在资源有限的情况下,如何构建既具备通用语言能力,又擅长特定领域(如金融和泰语)的LLM的问题。现有方法要么训练成本高昂的单一多功能模型,要么需要部署和维护多个专业模型,存在效率和成本上的痛点。
核心思路:论文的核心思路是利用模型合并技术,将一个通用的LLM(如Qwen-8B)与一个或多个领域专用的LLM(如ThaiLLM-8B和THaLLE-CFA-8B)进行融合。通过这种方式,可以继承通用LLM的广泛知识和语言能力,同时获得领域专用LLM的专业知识,从而构建一个多功能且资源高效的模型。
技术框架:整体框架包括以下步骤:1. 选择一个通用LLM作为基础模型。2. 训练或获取一个或多个领域专用LLM。3. 使用模型合并算法将通用模型和领域专用模型进行融合。4. 在通用和领域特定的基准测试上评估合并后的模型性能。
关键创新:论文的关键创新在于验证了模型合并技术在构建多功能LLM方面的有效性,特别是在泰语和金融领域。通过将通用模型与领域模型融合,可以在两个领域都取得性能提升,而无需从头训练一个庞大的多功能模型。
关键设计:论文中没有详细说明具体的模型合并算法或参数设置。但是,可以推断,关键的设计可能包括选择合适的合并权重,以及在合并后进行微调,以进一步优化模型性能。损失函数和网络结构等细节未在报告中明确提及。
📊 实验亮点
实验结果表明,将Qwen-8B与ThaiLLM-8B合并后,在M3和M6 O-NET考试中表现优于Qwen-8B。进一步将Qwen-8B与ThaiLLM-8B和THaLLE-CFA-8B合并,在M3和M6 O-NET、Flare-CFA和Thai-IC基准测试中均取得性能提升,验证了模型合并的有效性。
🎯 应用场景
该研究成果可应用于金融行业的智能客服、风险评估、投资分析等场景,也可推广到其他领域,例如医疗、法律等,为企业提供定制化的AI解决方案。通过模型合并,可以降低模型训练和部署成本,加速AI技术在各行业的落地。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated significant potential across various domains, particularly in banking and finance, where they can automate complex tasks and enhance decision-making at scale. Due to privacy, security, and regulatory concerns, organizations often prefer on-premise deployment of LLMs. The ThaiLLM initiative aims to enhance Thai language capabilities in open-LLMs, enabling Thai industry to leverage advanced language models. However, organizations often face a trade-off between deploying multiple specialized models versus the prohibitive expense of training a single multi-capability model. To address this, we explore model merging as a resource-efficient alternative for developing high-performance, multi-capability LLMs. We present results from two key experiments: first, merging Qwen-8B with ThaiLLM-8B demonstrates how ThaiLLM-8B enhances Thai general capabilities, showing an uplift of M3 and M6 O-NET exams over the general instruction-following Qwen-8B. Second, we merge Qwen-8B with both ThaiLLM-8B and THaLLE-CFA-8B. This combination results in further improvements in performance across both general and financial domains, by demonstrating an uplift in both M3 and M6 O-NET, Flare-CFA, and Thai-IC benchmarks. The report showcases the viability of model merging for efficiently creating multi-capability LLMs.