ixi-GEN: Efficient Industrial sLLMs through Domain Adaptive Continual Pretraining
作者: Seonwu Kim, Yohan Na, Kihun Kim, Hanhee Cho, Geun Lim, Mintae Kim, Seongik Park, Ki Hyun Kim, Youngsub Han, Byoung-Ki Jeon
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-07-09 (更新: 2025-10-23)
备注: Accepted at EMNLP 2025 Industry Track
💡 一句话要点
ixi-GEN:通过领域自适应持续预训练提升工业界小规模LLM的效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 小型语言模型 领域自适应 持续预训练 工业应用 企业级部署
📋 核心要点
- 企业缺乏部署和维护大规模LLM的基础设施,小型LLM虽是替代方案但性能受限。
- 论文提出基于领域自适应持续预训练(DACP)的方案,优化小型LLM在特定领域的性能。
- 实验表明,ixi-GEN模型在目标领域性能上取得显著提升,同时保持通用能力。
📝 摘要(中文)
开源大型语言模型(LLMs)的出现为企业应用扩展了机会;然而,许多组织仍然缺乏部署和维护大规模模型的基础设施。因此,小型LLMs(sLLMs)已成为一种实用的替代方案,尽管存在固有的性能限制。虽然领域自适应持续预训练(DACP)已被探索用于领域自适应,但其在商业环境中的效用仍未得到充分检验。在本研究中,我们验证了基于DACP的方案在不同基础模型和服务领域中的有效性,从而产生了DACP应用的sLLMs(ixi-GEN)。通过广泛的实验和实际评估,我们证明了ixi-GEN模型在保持通用能力的同时,在目标领域性能上取得了显著提升,为企业级部署提供了一种经济高效且可扩展的解决方案。
🔬 方法详解
问题定义:论文旨在解决企业在资源有限的情况下,如何高效地利用小型LLM(sLLM)在特定工业领域取得良好性能的问题。现有方法要么依赖于大规模预训练模型,成本高昂;要么直接微调sLLM,领域适应性不足,泛化能力受损。
核心思路:论文的核心思路是采用领域自适应持续预训练(DACP)的方法,即在通用预训练模型的基础上,利用特定领域的语料数据进行持续的预训练。通过这种方式,sLLM可以在学习到领域知识的同时,保留其通用的语言能力,从而在特定领域任务上取得更好的性能。
技术框架:ixi-GEN的技术框架主要包含以下几个阶段:1) 选择一个合适的预训练sLLM作为基础模型;2) 收集目标工业领域的语料数据;3) 使用DACP方法,在基础模型上进行持续预训练,使其适应目标领域;4) 在特定任务上进行微调,以进一步优化模型性能。
关键创新:论文的关键创新在于验证了DACP方法在工业界sLLM上的有效性,并提出了一个可行的DACP应用方案(ixi-GEN)。与传统的微调方法相比,DACP能够更好地保留模型的通用能力,同时提升其在目标领域的性能。
关键设计:论文中DACP的具体实现细节未知,摘要中没有明确说明损失函数、网络结构等关键设计。但可以推测,DACP可能采用了类似于Masked Language Modeling (MLM) 或 Causal Language Modeling (CLM) 的预训练目标,并可能使用了领域相关的词汇表和数据增强技术。
🖼️ 关键图片
📊 实验亮点
论文通过实验证明,ixi-GEN模型在目标领域性能上取得了显著提升,同时保持了通用能力。具体的性能数据和对比基线在摘要中未给出,但强调了该方法在成本效益和可扩展性方面的优势,使其成为企业级部署的理想选择。
🎯 应用场景
该研究成果可广泛应用于各种工业领域,例如智能制造、工业自动化、质量检测、故障诊断等。通过领域自适应持续预训练,企业可以定制化训练出适用于自身业务场景的小型LLM,从而降低部署成本,提高生产效率,并实现更智能化的决策。
📄 摘要(原文)
The emergence of open-source large language models (LLMs) has expanded opportunities for enterprise applications; however, many organizations still lack the infrastructure to deploy and maintain large-scale models. As a result, small LLMs (sLLMs) have become a practical alternative despite inherent performance limitations. While Domain Adaptive Continual Pretraining (DACP) has been explored for domain adaptation, its utility in commercial settings remains under-examined. In this study, we validate the effectiveness of a DACP-based recipe across diverse foundation models and service domains, producing DACP-applied sLLMs (ixi-GEN). Through extensive experiments and real-world evaluations, we demonstrate that ixi-GEN models achieve substantial gains in target-domain performance while preserving general capabilities, offering a cost-efficient and scalable solution for enterprise-level deployment.