SOAEsV2-7B/72B: Full-Pipeline Optimization for State-Owned Enterprise LLMs via Continual Pre-Training, Domain-Progressive SFT and Distillation-Enhanced Speculative Decoding

作者: Jingyang Deng, Ran Chen, Jo-Ku Cheng, Jinwen Ma

分类: cs.CL

发布日期: 2025-05-07

💡 一句话要点

SOAEsV2-7B/72B：面向国资企业的全流程优化大语言模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 领域特定模型 持续预训练 监督微调 知识蒸馏 推测解码 国资企业

📋 核心要点

现有领域大模型面临模型容量限制、过度依赖领域数据以及推理效率低下的问题。
SOAEsV2通过持续预训练、领域渐进式SFT和蒸馏增强推测解码，实现领域知识融合和推理加速。
实验表明，该方法在保持通用能力的同时显著提升领域性能，并加速推理过程。

📝 摘要（中文）

本研究旨在解决为中国国资企业开发领域特定大语言模型（LLM）的关键挑战。现有方法存在三个局限性：1）模型容量受限，限制了知识整合和跨任务适应性；2）过度依赖领域特定的监督微调（SFT）数据，忽略了通用语言模式的广泛适用性；3）大型模型处理长上下文时推理加速效率低下。为此，我们提出了SOAEsV2-7B/72B，一个通过三阶段框架开发的专业LLM系列：1）持续预训练整合领域知识，同时保留基础能力；2）领域渐进式SFT采用基于课程的学习策略，从弱相关对话数据过渡到专家标注的SOAEs数据集，以优化领域特定任务；3）蒸馏增强推测解码通过72B目标模型和7B草稿模型之间的logit蒸馏来加速推理，在不损失质量的情况下实现1.39-1.52倍的加速。实验结果表明，我们的领域特定预训练阶段保持了99.8%的原始通用语言能力，同时显著提高了领域性能，Rouge-1得分提高了1.08倍，BLEU-4得分提高了1.17倍。消融研究进一步表明，领域渐进式SFT优于单阶段训练，Rouge-1提高了1.02倍，BLEU-4提高了1.06倍。我们的工作为优化SOAEs LLM 引入了一种全面的全流程方法，弥合了通用语言能力和领域特定专业知识之间的差距。

🔬 方法详解

问题定义：论文旨在解决为中国国资企业（SOAEs）定制大语言模型时面临的挑战。现有方法的痛点在于：模型容量不足以有效整合领域知识，过度依赖领域特定数据导致泛化能力受限，以及大型模型推理效率低下，难以处理长文本上下文。

核心思路：论文的核心思路是通过一个三阶段的全流程优化框架，在保留通用语言能力的基础上，逐步注入领域知识，并利用蒸馏技术加速推理过程。这种方法旨在平衡通用性和专业性，提高模型在特定领域的实用性。

技术框架：SOAEsV2的整体框架包含三个主要阶段：1) 持续预训练：在通用预训练模型的基础上，使用领域相关数据进行持续预训练，以融入领域知识。2) 领域渐进式SFT：采用课程学习策略，从通用对话数据逐步过渡到专家标注的SOAEs数据集进行监督微调，优化领域特定任务。3) 蒸馏增强推测解码：使用72B模型作为教师模型，7B模型作为学生模型，通过logit蒸馏进行知识迁移，并利用推测解码加速推理过程。

关键创新：该论文的关键创新在于提出了一个全流程的优化框架，将持续预训练、领域渐进式SFT和蒸馏增强推测解码相结合，从而在提升领域性能的同时，保持了模型的通用语言能力和推理效率。领域渐进式SFT策略也是一个重要的创新点，它通过课程学习的方式，逐步引导模型学习领域知识，避免了直接在领域数据上微调可能导致的灾难性遗忘问题。

关键设计：在持续预训练阶段，选择合适的领域数据至关重要，需要平衡数据的质量和数量。在领域渐进式SFT阶段，需要精心设计课程，确定不同阶段的数据选择和训练策略。在蒸馏增强推测解码阶段，需要选择合适的蒸馏损失函数和温度参数，以保证知识迁移的有效性，并避免学生模型过度拟合教师模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SOAEsV2在保持99.8%通用语言能力的同时，显著提升了领域性能，Rouge-1得分提高了1.08倍，BLEU-4得分提高了1.17倍。消融实验证明，领域渐进式SFT优于单阶段训练，Rouge-1提高了1.02倍，BLEU-4提高了1.06倍。此外，蒸馏增强推测解码在不损失质量的情况下，实现了1.39-1.52倍的推理加速。

🎯 应用场景

该研究成果可应用于各种需要领域知识的国资企业场景，例如智能客服、政策咨询、合同生成、风险评估等。通过定制化的大语言模型，可以提高工作效率，降低运营成本，并为决策提供更准确的支持。未来，该技术还可以扩展到其他行业和领域，为各行各业提供更智能化的解决方案。

📄 摘要（原文）

This study addresses key challenges in developing domain-specific large language models (LLMs) for Chinese state-owned assets and enterprises (SOAEs), where current approaches face three limitations: 1) constrained model capacity that limits knowledge integration and cross-task adaptability; 2) excessive reliance on domain-specific supervised fine-tuning (SFT) data, which neglects the broader applicability of general language patterns; and 3) inefficient inference acceleration for large models processing long contexts. In this work, we propose SOAEsV2-7B/72B, a specialized LLM series developed via a three-phase framework: 1) continual pre-training integrates domain knowledge while retaining base capabilities; 2) domain-progressive SFT employs curriculum-based learning strategy, transitioning from weakly relevant conversational data to expert-annotated SOAEs datasets to optimize domain-specific tasks; 3) distillation-enhanced speculative decoding accelerates inference via logit distillation between 72B target and 7B draft models, achieving 1.39-1.52$\times$ speedup without quality loss. Experimental results demonstrate that our domain-specific pre-training phase maintains 99.8% of original general language capabilities while significantly improving domain performance, resulting in a 1.08$\times$ improvement in Rouge-1 score and a 1.17$\times$ enhancement in BLEU-4 score. Ablation studies further show that domain-progressive SFT outperforms single-stage training, achieving 1.02$\times$ improvement in Rouge-1 and 1.06$\times$ in BLEU-4. Our work introduces a comprehensive, full-pipeline approach for optimizing SOAEs LLMs, bridging the gap between general language capabilities and domain-specific expertise.

SOAEsV2-7B/72B: Full-Pipeline Optimization for State-Owned Enterprise LLMs via Continual Pre-Training, Domain-Progressive SFT and Distillation-Enhanced Speculative Decoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理