Every Sample Matters: Leveraging Mixture-of-Experts and High-Quality Data for Efficient and Accurate Code LLM

📄 arXiv: 2503.17793v1 📥 PDF

作者: Codefuse, Ling Team, :, Wenting Cai, Yuchen Cao, Chaoyu Chen, Chen Chen, Siba Chen, Qing Cui, Peng Di, Junpeng Fang, Zi Gong, Ting Guo, Zhengyu He, Yang Huang, Cong Li, Jianguo Li, Zheng Li, Shijie Lian, BingChang Liu, Songshan Luo, Shuo Mao, Min Shen, Jian Wu, Jiaolong Yang, Wenjie Yang, Tong Ye, Hang Yu, Wei Zhang, Zhenduo Zhang, Hailin Zhao, Xunjin Zheng, Jun Zhou

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-03-22

备注: 20 pages, 6 figures

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

Ling-Coder-Lite:利用MoE和高质量数据构建高效精准的代码大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码大语言模型 混合专家模型 MoE 高质量数据 程序分析 代码生成 模型效率

📋 核心要点

  1. 现有代码大语言模型在性能和效率之间存在trade-off,难以兼顾两者。
  2. Ling-Coder-Lite采用MoE架构,并结合程序分析等高质量数据清洗方法,提升模型效率和性能。
  3. 实验表明,Ling-Coder-Lite在性能与同规模SOTA模型相当的同时,显著降低了部署资源。

📝 摘要(中文)

本文介绍了一种名为Ling-Coder-Lite的代码大语言模型,旨在构建兼具全面性能和极致效率的代码LLM。该模型利用高效的混合专家(MoE)架构,并结合一系列高质量的数据清洗方法(特别是基于程序分析的方法)。Ling-Coder-Lite在12个代表性的代码基准测试中,表现与Qwen2.5-Coder-7B和DeepSeek-Coder-V2-Lite等同等规模的先进模型相当,同时提供具有竞争力的延迟和吞吐量。在实践中,与类似规模的稠密模型相比,在不损失性能的情况下,部署资源减少了50%。为了促进该领域的进一步研究和开发,我们开源了我们的模型以及用于退火和后训练阶段的大部分高质量数据。

🔬 方法详解

问题定义:论文旨在解决代码大语言模型在性能和效率之间的权衡问题。现有稠密模型参数量大,推理成本高,难以在资源受限的环境中部署。同时,如何有效利用高质量数据来提升代码LLM的性能也是一个挑战。

核心思路:论文的核心思路是利用MoE架构来提升模型效率,同时通过高质量数据来保证模型性能。MoE架构允许模型在推理时只激活部分专家网络,从而降低计算量。高质量数据可以帮助模型更好地学习代码的语法和语义,提升代码生成和理解能力。

技术框架:Ling-Coder-Lite的整体框架包括数据收集、数据清洗、模型训练和模型评估四个阶段。数据收集阶段收集了大量的代码数据,包括开源代码、代码片段和代码文档。数据清洗阶段利用程序分析等方法对数据进行过滤和清洗,去除噪声和错误数据。模型训练阶段使用MoE架构训练代码LLM。模型评估阶段在多个代码基准测试中评估模型的性能。

关键创新:论文的关键创新在于将MoE架构和高质量数据清洗方法结合起来,构建了一个高效且高性能的代码LLM。与传统的稠密模型相比,Ling-Coder-Lite在保持性能的同时,显著降低了计算量和部署成本。同时,论文提出的基于程序分析的数据清洗方法可以有效提升数据质量,从而提升模型性能。

关键设计:论文中MoE架构的具体实现细节未知。数据清洗阶段,论文采用了基于程序分析的方法,例如静态分析和动态分析,来检测和修复代码中的错误。模型训练阶段,论文采用了特定的损失函数和优化算法,以提升模型的收敛速度和泛化能力。具体参数设置和网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Ling-Coder-Lite在12个代码基准测试中,性能与Qwen2.5-Coder-7B和DeepSeek-Coder-V2-Lite等同等规模的先进模型相当。同时,与类似规模的稠密模型相比,在不损失性能的情况下,部署资源减少了50%。

🎯 应用场景

Ling-Coder-Lite可应用于代码生成、代码补全、代码搜索、代码翻译等多个领域。该模型可以帮助开发者提高编码效率,降低开发成本。此外,该模型还可以用于教育领域,帮助学生学习编程。

📄 摘要(原文)

Recent advancements in code large language models (LLMs) have demonstrated remarkable capabilities in code generation and understanding. It is still challenging to build a code LLM with comprehensive performance yet ultimate efficiency. Many attempts have been released in the open source community to break the trade-off between performance and efficiency, such as the Qwen Coder series and the DeepSeek Coder series. This paper introduces yet another attempt in this area, namely Ling-Coder-Lite. We leverage the efficient Mixture-of-Experts (MoE) architecture along with a set of high-quality data curation methods (especially those based on program analytics) to build an efficient yet powerful code LLM. Ling-Coder-Lite exhibits on-par performance on 12 representative coding benchmarks compared to state-of-the-art models of similar size, such as Qwen2.5-Coder-7B and DeepSeek-Coder-V2-Lite, while offering competitive latency and throughput. In practice, we achieve a 50\% reduction in deployment resources compared to the similar-sized dense model without performance loss. To facilitate further research and development in this area, we open-source our models as well as a substantial portion of high-quality data for the annealing and post-training stages. The models and data can be accessed at~\url{https://huggingface.co/inclusionAI/Ling-Coder-lite}.