InCoder-32B: Code Foundation Model for Industrial Scenarios

📄 arXiv: 2603.16790v1 📥 PDF

作者: Jian Yang, Wei Zhang, Jiajun Wu, Junhang Cheng, Shawn Guo, Haowen Wang, Weicheng Gu, Yaxin Du, Joseph Li, Fanglin Xu, Yizhi Li, Lin Jing, Yuanbo Wang, Yuhan Gao, Ruihao Gong, Chuan Hao, Ran Tao, Aishan Liu, Tuney Zheng, Ganqu Cui, Zhoujun Li, Mingjie Tang, Chenghua Lin, Wayne Xin Zhao, Xianglong Liu, Ming Zhou, Bryan Dai, Weifeng Lv

分类: cs.SE, cs.AI

发布日期: 2026-03-17


💡 一句话要点

InCoder-32B:面向工业场景的代码大模型,统一多领域代码智能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码大模型 工业场景 代码生成 代码优化 长上下文 代码智能 模型训练

📋 核心要点

  1. 现有代码大模型在工业场景中,由于缺乏对硬件语义、专用语言和资源约束的理解,性能显著下降。
  2. InCoder-32B通过高效架构和多阶段训练策略,包括工业代码退火和长上下文扩展,提升模型在工业领域的代码智能。
  3. 实验结果表明,InCoder-32B在通用代码任务上表现出色,并在多个工业基准测试中建立了新的开源基线。

📝 摘要(中文)

本文提出了InCoder-32B,一个首个320亿参数的代码基础模型,旨在统一芯片设计、GPU内核优化、嵌入式系统、编译器优化和3D建模等领域的代码智能。现有代码大语言模型在通用编程任务上取得了显著进展,但在需要硬件语义推理、专用语言结构和严格资源约束的工业场景中,性能显著下降。为了解决这些挑战,InCoder-32B采用高效架构,从头开始进行训练,包括通用代码预训练、精选的工业代码退火、通过合成工业推理数据逐步将上下文从8K扩展到128K的中间训练,以及基于执行验证的后训练。在14个主流通用代码基准测试和9个涵盖4个专业领域的工业基准测试上进行了广泛评估。结果表明,InCoder-32B在通用任务上实现了极具竞争力的性能,同时在工业领域建立了强大的开源基线。

🔬 方法详解

问题定义:现有代码大语言模型在通用编程任务上表现良好,但当应用于需要理解硬件语义、处理专用语言结构以及满足严格资源约束的工业场景时,性能会显著下降。这些模型通常缺乏针对特定工业领域的知识和推理能力,无法有效地解决实际问题。

核心思路:InCoder-32B的核心思路是构建一个能够统一处理多种工业领域代码任务的大型代码基础模型。通过从头开始训练,并结合针对工业场景的特殊训练策略,使模型能够学习到更深层次的领域知识和推理能力,从而在工业应用中获得更好的性能。

技术框架:InCoder-32B的训练过程主要分为四个阶段:1) 通用代码预训练:使用大量的通用代码数据进行预训练,使模型具备基本的代码理解和生成能力。2) 工业代码退火:使用精选的工业代码数据进行退火训练,使模型逐渐适应工业领域的代码风格和语义。3) 中间训练:通过合成的工业推理数据,逐步将模型的上下文长度从8K扩展到128K,提高模型处理长序列代码的能力。4) 后训练:使用基于执行验证的数据进行后训练,提高模型生成代码的正确性和可靠性。

关键创新:InCoder-32B的关键创新在于其针对工业场景的训练策略,包括工业代码退火和长上下文扩展。工业代码退火能够使模型更好地适应工业领域的代码特点,而长上下文扩展则能够提高模型处理复杂工业代码的能力。此外,基于执行验证的后训练也能够提高模型生成代码的质量。

关键设计:InCoder-32B采用了320亿参数的Transformer架构,并使用了高效的训练方法来降低计算成本。在工业代码退火阶段,作者精心挑选了来自不同工业领域的代码数据,并设计了合适的退火策略。在长上下文扩展阶段,作者使用了合成的工业推理数据,并逐步增加上下文长度。在后训练阶段,作者使用了基于执行验证的数据,并设计了合适的损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InCoder-32B在14个主流通用代码基准测试中取得了极具竞争力的性能,并在9个涵盖4个专业领域的工业基准测试中建立了强大的开源基线。具体性能数据未在摘要中给出,但强调了其在工业领域的优越性,表明该模型在工业场景下具有显著优势。

🎯 应用场景

InCoder-32B在芯片设计、GPU内核优化、嵌入式系统、编译器优化和3D建模等多个工业领域具有广泛的应用前景。它可以用于自动化代码生成、代码优化、代码调试和代码验证等任务,从而提高开发效率和代码质量,加速工业产品的研发过程。该模型有望成为工业领域代码智能的基础设施,推动相关技术的创新和发展。

📄 摘要(原文)

Recent code large language models have achieved remarkable progress on general programming tasks. Nevertheless, their performance degrades significantly in industrial scenarios that require reasoning about hardware semantics, specialized language constructs, and strict resource constraints. To address these challenges, we introduce InCoder-32B (Industrial-Coder-32B), the first 32B-parameter code foundation model unifying code intelligence across chip design, GPU kernel optimization, embedded systems, compiler optimization, and 3D modeling. By adopting an efficient architecture, we train InCoder-32B from scratch with general code pre-training, curated industrial code annealing, mid-training that progressively extends context from 8K to 128K tokens with synthetic industrial reasoning data, and post-training with execution-grounded verification. We conduct extensive evaluation on 14 mainstream general code benchmarks and 9 industrial benchmarks spanning 4 specialized domains. Results show InCoder-32B achieves highly competitive performance on general tasks while establishing strong open-source baselines across industrial domains.