State-of-the-art Small Language Coder Model: Mify-Coder

📄 arXiv: 2512.23747v1 📥 PDF

作者: Abhinav Parmar, Abhisek Panigrahi, Abhishek Kumar Dwivedi, Abhishek Bhattacharya, Adarsh Ramachandra, Aditya Choudhary, Aditya Garg, Aditya Raj, Alankrit Bhatt, Alpesh Yadav, Anant Vishnu, Ananthu Pillai, Ankush Kumar, Aryan Patnaik, Aswatha Narayanan S, Avanish Raj Singh, Bhavya Shree Gadda, Brijesh Pankajbhai Kachhadiya, Buggala Jahnavi, Chidurala Nithin Krishna, Chintan Shah, Chunduru Akshaya, Debarshi Banerjee, Debrup Dey, Deepa R., Deepika B G, Faiz ur Rahman, Gagan Gayari, Gudhi Jagadeesh Kumar Naidu, Gursimar Singh, Harshal Tyagi, Harshini K, James Mani Vathalloor, Jayarama Nettar, Jayashree Gajjam, Joe Walter Sugil George, Kamalakara Sri Krishna Tadepalli, Kamalkumar Rathinasamy, Karan Chaurasia, Karthikeyan S, Kashish Arora, Kaushal Desai, Khushboo Buwade, Kiran Manjrekar, Malikireddy Venkata Sai Likhitha, Manjunath A, Mitali Mahavir Bedmutha, Mohammed Rafee Tarafdar, Nikhil Tiwari, Nikitha K Gigi, Pavan Ravikumar, Pendyala Swarnanjali, Piyush Anand, Prakash Chandrasekar, Prasanna Bhalchandra Gawade, Prasanth Sivan, Preeti Khurana, Priyanshi Babbar, Rajab Ali Mondal, Rajesh Kumar Vissapragada, Rajeshwari Ganesan, Rajeswari Koppisetti, Ramjee R., Ramkumar Thiruppathisamy, Rani G. S., S Reka, Samarth Gupta, Sandeep Reddy Kothakota, Sarathy K, Sathyanarayana Sampath Kumar, Saurabh Kumar, Shashank Khasare, Shenbaga Devi Venkatesh Kumar, Shiva Rama Krishna Parvatham, Shoeb Shaikh, Shrishanmathi A, Shubham Pathak, Sree Samhita Koppaka, Sreenivasa Raghavan K S, Sreeram Venkatasubramanian, Suprabha Desai Bojja, Swetha R, Syed Ahmed, Chinmai Harshitha Thota, Tushar Yadav, Veeravelly Kusumitha, V V S S Prasanth Patnaik, Vidya Sri Sesetti, Vijayakeerthi K, Vikram Raj Bakshi, Vinay K K, Vinoth Kumar Loganathan, Vipin Tiwari, Vivek Kumar Shrivastav, V Venkata Sri Datta Charan, Wasim Akhtar Khan

分类: cs.SE, cs.AI, cs.CL

发布日期: 2025-12-26


💡 一句话要点

Mify-Coder:一种参数量为25亿的先进小型代码模型,在代码生成和函数调用基准测试中超越大型模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码生成 小型语言模型 计算优化 Agent驱动 函数调用 模型量化 合成数据 数据过滤

📋 核心要点

  1. 现有大型代码模型计算成本高昂,部署困难,小型模型性能不足,难以满足实际需求。
  2. Mify-Coder通过计算最优策略,结合高质量数据和Agent生成的合成数据,实现了高效训练。
  3. 实验表明,Mify-Coder在代码生成和函数调用任务上超越了更大的基线模型,且易于部署。

📝 摘要(中文)

本文介绍了Mify-Coder,一个基于Mify-2.5B基础模型,并采用计算最优策略训练的25亿参数代码模型,训练数据量为4.2T tokens。在标准编码和函数调用基准测试中,Mify-Coder在实现相当的准确性和安全性的同时,显著优于更大的基线模型,表明紧凑模型可以在代码生成和Agent驱动的工作流程中与前沿模型相媲美。我们的训练流程结合了高质量的精选数据源和通过Agent精心设计的提示生成的合成数据,并使用企业级评估数据集进行迭代改进。基于LLM的质量过滤进一步提高了数据密度,从而实现了节约但有效的训练。通过对CPT-SFT目标、数据混合和采样动态的严格探索,我们在单个连续训练轨迹中提供了前沿级的代码智能。经验证据表明,有原则的数据和计算规范允许较小的模型实现具有竞争力的准确性、效率和安全合规性。Mify-Coder的量化变体可以在标准桌面环境中部署,而无需专用硬件。

🔬 方法详解

问题定义:论文旨在解决现有代码生成模型,特别是大型模型,在计算资源消耗、部署难度以及安全合规性方面的挑战。现有方法通常依赖于参数规模巨大的模型,这导致训练和推理成本高昂,难以在资源受限的环境中部署。此外,大型模型可能存在安全风险,例如生成不安全或有偏见的代码。

核心思路:论文的核心思路是通过精心设计的数据和计算策略,训练一个参数量较小但性能卓越的代码模型。关键在于优化训练数据的质量和多样性,并采用高效的训练方法,从而在有限的计算资源下实现最佳性能。这种方法旨在证明,通过合理的数据和计算规范,小型模型可以与大型模型在代码生成任务中竞争。

技术框架:Mify-Coder的训练流程主要包括以下几个阶段:1) 基于Mify-2.5B基础模型;2) 收集和清洗高质量的代码数据,包括精选的开源代码和通过Agent精心设计的提示生成的合成数据;3) 使用LLM进行质量过滤,提高数据密度;4) 采用CPT-SFT(因果预测Transformer-监督微调)目标进行训练;5) 通过企业级评估数据集进行迭代改进;6) 对模型进行量化,以便在标准桌面环境中部署。

关键创新:论文最重要的技术创新点在于其数据驱动的训练方法,该方法强调高质量数据的重要性,并结合了Agent生成的合成数据来增强模型的泛化能力。此外,论文还探索了CPT-SFT目标、数据混合和采样动态等训练策略,以提高模型的性能和效率。通过这些创新,Mify-Coder在参数量较小的情况下实现了与大型模型相当甚至更优越的性能。

关键设计:论文的关键设计包括:1) 使用Agent精心设计的提示来生成多样化的合成数据;2) 利用LLM进行数据质量过滤,提高训练数据的密度;3) 探索不同的数据混合策略,以优化模型的性能;4) 采用CPT-SFT目标进行训练,提高模型的代码生成能力;5) 对模型进行量化,以便在标准桌面环境中部署。具体的参数设置、损失函数和网络结构等细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Mify-Coder在标准编码和函数调用基准测试中,在实现相当的准确性和安全性的同时,显著优于更大的基线模型。这表明,通过合理的数据和计算规范,小型模型可以在代码生成任务中与大型模型竞争。量化后的Mify-Coder可以在标准桌面环境中部署,无需专用硬件,进一步降低了部署成本。

🎯 应用场景

Mify-Coder可应用于各种代码生成和自动化场景,例如:软件开发辅助、代码补全、自动化测试、函数调用和API集成等。其小型化特性使其能够部署在资源受限的设备上,例如移动设备和嵌入式系统,从而实现边缘计算和智能化应用。该研究有助于推动代码生成技术的普及,降低开发成本,提高开发效率。

📄 摘要(原文)

We present Mify-Coder, a 2.5B-parameter code model trained on 4.2T tokens using a compute-optimal strategy built on the Mify-2.5B foundation model. Mify-Coder achieves comparable accuracy and safety while significantly outperforming much larger baseline models on standard coding and function-calling benchmarks, demonstrating that compact models can match frontier-grade models in code generation and agent-driven workflows. Our training pipeline combines high-quality curated sources with synthetic data generated through agentically designed prompts, refined iteratively using enterprise-grade evaluation datasets. LLM-based quality filtering further enhances data density, enabling frugal yet effective training. Through disciplined exploration of CPT-SFT objectives, data mixtures, and sampling dynamics, we deliver frontier-grade code intelligence within a single continuous training trajectory. Empirical evidence shows that principled data and compute discipline allow smaller models to achieve competitive accuracy, efficiency, and safety compliance. Quantized variants of Mify-Coder enable deployment on standard desktop environments without requiring specialized hardware.