ixi-GEN: Efficient Industrial sLLMs through Domain Adaptive Continual Pretraining

作者: Seonwu Kim, Yohan Na, Kihun Kim, Hanhee Cho, Geun Lim, Mintae Kim, Seongik Park, Ki Hyun Kim, Youngsub Han, Byoung-Ki Jeon

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-07-09 (更新: 2025-10-23)

备注: Accepted at EMNLP 2025 Industry Track

💡 一句话要点

ixi-GEN：通过领域自适应持续预训练提升工业界小规模LLM的效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 领域自适应 持续预训练 工业应用 企业级部署

📋 核心要点

企业缺乏部署和维护大规模LLM的基础设施，小型LLM虽是替代方案但性能受限。
论文提出基于领域自适应持续预训练（DACP）的方案，优化小型LLM在特定领域的性能。
实验表明，ixi-GEN模型在目标领域性能上取得显著提升，同时保持通用能力。

📝 摘要（中文）

开源大型语言模型（LLMs）的出现为企业应用扩展了机会；然而，许多组织仍然缺乏部署和维护大规模模型的基础设施。因此，小型LLMs（sLLMs）已成为一种实用的替代方案，尽管存在固有的性能限制。虽然领域自适应持续预训练（DACP）已被探索用于领域自适应，但其在商业环境中的效用仍未得到充分检验。在本研究中，我们验证了基于DACP的方案在不同基础模型和服务领域中的有效性，从而产生了DACP应用的sLLMs（ixi-GEN）。通过广泛的实验和实际评估，我们证明了ixi-GEN模型在保持通用能力的同时，在目标领域性能上取得了显著提升，为企业级部署提供了一种经济高效且可扩展的解决方案。

🔬 方法详解

问题定义：论文旨在解决企业在资源有限的情况下，如何高效地利用小型LLM（sLLM）在特定工业领域取得良好性能的问题。现有方法要么依赖于大规模预训练模型，成本高昂；要么直接微调sLLM，领域适应性不足，泛化能力受损。

核心思路：论文的核心思路是采用领域自适应持续预训练（DACP）的方法，即在通用预训练模型的基础上，利用特定领域的语料数据进行持续的预训练。通过这种方式，sLLM可以在学习到领域知识的同时，保留其通用的语言能力，从而在特定领域任务上取得更好的性能。

技术框架：ixi-GEN的技术框架主要包含以下几个阶段：1) 选择一个合适的预训练sLLM作为基础模型；2) 收集目标工业领域的语料数据；3) 使用DACP方法，在基础模型上进行持续预训练，使其适应目标领域；4) 在特定任务上进行微调，以进一步优化模型性能。

关键创新：论文的关键创新在于验证了DACP方法在工业界sLLM上的有效性，并提出了一个可行的DACP应用方案（ixi-GEN）。与传统的微调方法相比，DACP能够更好地保留模型的通用能力，同时提升其在目标领域的性能。

关键设计：论文中DACP的具体实现细节未知，摘要中没有明确说明损失函数、网络结构等关键设计。但可以推测，DACP可能采用了类似于Masked Language Modeling (MLM) 或 Causal Language Modeling (CLM) 的预训练目标，并可能使用了领域相关的词汇表和数据增强技术。

🖼️ 关键图片

📊 实验亮点

论文通过实验证明，ixi-GEN模型在目标领域性能上取得了显著提升，同时保持了通用能力。具体的性能数据和对比基线在摘要中未给出，但强调了该方法在成本效益和可扩展性方面的优势，使其成为企业级部署的理想选择。

🎯 应用场景

该研究成果可广泛应用于各种工业领域，例如智能制造、工业自动化、质量检测、故障诊断等。通过领域自适应持续预训练，企业可以定制化训练出适用于自身业务场景的小型LLM，从而降低部署成本，提高生产效率，并实现更智能化的决策。

📄 摘要（原文）

The emergence of open-source large language models (LLMs) has expanded opportunities for enterprise applications; however, many organizations still lack the infrastructure to deploy and maintain large-scale models. As a result, small LLMs (sLLMs) have become a practical alternative despite inherent performance limitations. While Domain Adaptive Continual Pretraining (DACP) has been explored for domain adaptation, its utility in commercial settings remains under-examined. In this study, we validate the effectiveness of a DACP-based recipe across diverse foundation models and service domains, producing DACP-applied sLLMs (ixi-GEN). Through extensive experiments and real-world evaluations, we demonstrate that ixi-GEN models achieve substantial gains in target-domain performance while preserving general capabilities, offering a cost-efficient and scalable solution for enterprise-level deployment.

ixi-GEN: Efficient Industrial sLLMs through Domain Adaptive Continual Pretraining

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理