PCMind-2.1-Kaiyuan-2B Technical Report

📄 arXiv: 2512.07612v1 📥 PDF

作者: Kairong Luo, Zhenbo Sun, Xinyu Shi, Shengqi Chen, Bowen Yu, Yunyi Chen, Chenyi Dang, Hengtao Tao, Hui Wang, Fangming Liu, Kaifeng Lyu, Wenguang Chen

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-12-08

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

PCMind-2.1-Kaiyuan-2B:开源20亿参数模型,提升资源受限场景下的训练效率与效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 开源模型 资源受限训练 数据选择 课程学习

📋 核心要点

  1. 现有开源LLM在资源受限情况下,训练效率和效果与工业界闭源模型存在较大差距,阻碍了开源社区的发展。
  2. 论文提出分位数数据基准测试、战略选择性重复和多领域课程训练等方法,旨在提升小规模开源LLM的训练效率和效果。
  3. 实验结果表明,Kaiyuan-2B模型在资源受限的预训练中,性能可与最先进的完全开源模型相媲美。

📝 摘要(中文)

大型语言模型(LLMs)的快速发展导致开源社区与工业界之间存在显著的知识差距,这主要是因为工业界依赖于闭源、高质量的数据和训练方法。为了解决这个问题,我们推出了PCMind-2.1-Kaiyuan-2B,这是一个完全开源的20亿参数模型,专注于提高资源约束下的训练效率和效果。我们的方法包括三个关键创新:一种用于系统比较异构开源数据集并提供数据混合策略见解的分位数数据基准测试方法;一种在多阶段范式中有效利用稀疏、高质量数据的战略选择性重复方案;以及一种按质量对样本进行排序的多领域课程训练策略。在高度优化的数据预处理流程和FP16稳定性的架构修改的支持下,Kaiyuan-2B实现了与最先进的完全开源模型相媲美的性能,展示了资源有限的预训练的实用且可扩展的解决方案。我们以Apache 2.0许可在https://huggingface.co/thu-pacman/PCMind-2.1-Kaiyuan-2B发布所有资产(包括模型权重、数据和代码)。

🔬 方法详解

问题定义:论文旨在解决在资源受限的条件下,如何高效地训练出性能优异的开源大型语言模型的问题。现有开源模型在数据质量、训练策略等方面与工业界闭源模型存在差距,导致训练效率低下,模型性能不足。

核心思路:论文的核心思路是通过优化数据选择、数据利用和训练策略,充分利用有限的资源,提升模型的训练效率和最终性能。具体而言,通过分位数数据基准测试方法评估和选择高质量数据,通过战略选择性重复方案充分利用稀疏的高质量数据,并通过多领域课程训练策略优化训练过程。

技术框架:PCMind-2.1-Kaiyuan-2B的训练框架主要包括以下几个阶段:1) 数据预处理:构建高度优化的数据预处理流程,清洗和准备训练数据。2) 数据选择:使用分位数数据基准测试方法,对不同的开源数据集进行评估和选择,确定最佳的数据混合策略。3) 训练:采用战略选择性重复方案和多领域课程训练策略,进行多阶段的训练。4) 模型优化:进行架构修改,保证FP16训练的稳定性。

关键创新:论文的关键创新在于以下三个方面:1) 分位数数据基准测试方法:用于系统地比较异构开源数据集,并为数据混合策略提供指导。2) 战略选择性重复方案:在多阶段训练范式中,有效利用稀疏的高质量数据。3) 多领域课程训练策略:通过质量对样本进行排序,优化训练过程。

关键设计:论文中关于关键设计的细节信息不足,例如分位数数据基准测试方法的具体计算方式、战略选择性重复方案的具体重复策略、多领域课程训练策略的具体课程安排以及架构修改的具体内容等,均为未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PCMind-2.1-Kaiyuan-2B模型在资源受限的预训练条件下,实现了与最先进的完全开源模型相媲美的性能。具体性能数据和对比基线未在摘要中明确给出,但强调了其在实际应用中的可行性和可扩展性。

🎯 应用场景

该研究成果可应用于资源受限的自然语言处理任务,例如在边缘设备上部署小型语言模型,或在计算资源有限的科研机构中进行LLM研究。通过开源模型权重、数据和代码,促进开源社区的发展,降低LLM研究的门槛,加速相关技术的创新。

📄 摘要(原文)

The rapid advancement of Large Language Models (LLMs) has resulted in a significant knowledge gap between the open-source community and industry, primarily because the latter relies on closed-source, high-quality data and training recipes. To address this, we introduce PCMind-2.1-Kaiyuan-2B, a fully open-source 2-billion-parameter model focused on improving training efficiency and effectiveness under resource constraints. Our methodology includes three key innovations: a Quantile Data Benchmarking method for systematically comparing heterogeneous open-source datasets and providing insights on data mixing strategies; a Strategic Selective Repetition scheme within a multi-phase paradigm to effectively leverage sparse, high-quality data; and a Multi-Domain Curriculum Training policy that orders samples by quality. Supported by a highly optimized data preprocessing pipeline and architectural modifications for FP16 stability, Kaiyuan-2B achieves performance competitive with state-of-the-art fully open-source models, demonstrating practical and scalable solutions for resource-limited pretraining. We release all assets (including model weights, data, and code) under Apache 2.0 license at https://huggingface.co/thu-pacman/PCMind-2.1-Kaiyuan-2B.