InCoder-32B-Thinking: Industrial Code World Model for Thinking
作者: Jian Yang, Wei Zhang, Jiajun Wu, Junhang Cheng, Tuney Zheng, Fanglin Xu, Weicheng Gu, Lin Jing, Yaxin Du, Joseph Li, Yizhi Li, Yan Xing, Chuan Hao, Ran Tao, Ruihao Gong, Aishan Liu, Zhoujun Li, Mingjie Tang, Chenghua Lin, Siheng Chen, Wayne Xin Zhao, Xianglong Liu, Ming Zhou, Bryan Dai, Weifeng Lv
分类: cs.AR, cs.AI, cs.CL
发布日期: 2026-04-06
💡 一句话要点
提出InCoder-32B-Thinking,通过工业代码世界模型生成推理轨迹,提升工业软件开发效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 工业代码 代码生成 推理轨迹 错误纠正 代码世界模型 硬件行为 ECoT 自验证
📋 核心要点
- 工业软件开发缺乏专家推理过程,难以应对硬件约束和时序语义的复杂性。
- InCoder-32B-Thinking利用ECoT框架和ICWM,生成并验证推理轨迹,模拟工程师的思考过程。
- 实验结果表明,InCoder-32B-Thinking在通用和工业基准测试中均取得了领先的开源性能。
📝 摘要(中文)
本文提出了InCoder-32B-Thinking,它基于Error-driven Chain-of-Thought (ECoT)合成框架,并结合工业代码世界模型(ICWM)进行训练,旨在生成工业软件开发中的推理轨迹。ECoT通过模拟多轮对话和环境错误反馈来合成推理链,显式地建模了错误纠正过程。ICWM通过在Verilog仿真、GPU性能分析等领域特定执行轨迹上训练,学习代码如何影响硬件行为的因果动态关系,并通过预测执行结果实现自验证。所有合成的推理轨迹都通过领域工具链进行验证,从而创建与工业任务自然推理深度相匹配的训练数据。在14个通用基准测试(LiveCodeBench v5上达到81.3%)和9个工业基准测试(CAD-Coder上达到84.0%,KernelBench上达到38.0%)上的评估表明,InCoder-32B-Thinking在所有这些基准测试中都取得了顶级的开源结果。
🔬 方法详解
问题定义:工业软件开发,如芯片设计、GPU优化和嵌入式系统,面临着缺乏专家推理过程的挑战。工程师在开发过程中需要考虑硬件约束和时序语义,而现有的方法难以捕捉和复现这种复杂的推理过程。这导致开发效率低下,且难以进行有效的错误调试和优化。
核心思路:本文的核心思路是利用Error-driven Chain-of-Thought (ECoT)框架和工业代码世界模型(ICWM)来生成并验证推理轨迹。ECoT模拟了工程师在解决问题时与环境的交互,通过错误反馈来逐步完善推理过程。ICWM则学习了代码与硬件行为之间的因果关系,从而能够预测代码执行的结果,实现自验证。
技术框架:InCoder-32B-Thinking的整体框架包括两个主要组成部分:ECoT框架和ICWM。ECoT框架负责生成推理链,它通过模拟多轮对话和环境错误反馈来合成思考内容,显式地建模了错误纠正过程。ICWM则负责学习代码与硬件行为之间的因果关系,它通过在领域特定的执行轨迹上训练,学习代码如何影响硬件行为,并通过预测执行结果实现自验证。所有合成的推理轨迹都通过领域工具链进行验证,从而创建与工业任务自然推理深度相匹配的训练数据。
关键创新:最重要的技术创新点在于结合了ECoT框架和ICWM,从而能够生成高质量的推理轨迹。ECoT框架能够模拟工程师的思考过程,而ICWM则能够提供代码与硬件行为之间的因果关系。这种结合使得InCoder-32B-Thinking能够更好地理解和解决工业软件开发中的复杂问题。与现有方法的本质区别在于,InCoder-32B-Thinking能够显式地建模错误纠正过程,并利用ICWM进行自验证。
关键设计:论文中没有明确给出关键的参数设置、损失函数、网络结构等技术细节。但是,可以推断ICWM可能使用了Transformer或类似的架构来学习代码与硬件行为之间的因果关系。损失函数可能包括预测执行结果的损失和推理轨迹的流畅性损失。ECoT框架的具体实现细节也未知,但可以推断它可能使用了强化学习或类似的算法来优化推理链的生成过程。
🖼️ 关键图片
📊 实验亮点
InCoder-32B-Thinking在14个通用基准测试(LiveCodeBench v5)上达到了81.3%的准确率,在9个工业基准测试(CAD-Coder和KernelBench)上分别达到了84.0%和38.0%的准确率。这些结果表明,InCoder-32B-Thinking在通用和工业领域均取得了顶级的开源性能。
🎯 应用场景
InCoder-32B-Thinking可应用于芯片设计、GPU优化、嵌入式系统等工业软件开发领域。它可以帮助工程师更好地理解和解决复杂问题,提高开发效率,并减少错误。未来,该技术有望应用于自动化代码生成、代码调试和代码优化等领域,从而进一步提升工业软件开发的智能化水平。
📄 摘要(原文)
Industrial software development across chip design, GPU optimization, and embedded systems lacks expert reasoning traces showing how engineers reason about hardware constraints and timing semantics. In this work, we propose InCoder-32B-Thinking, trained on the data from the Error-driven Chain-of-Thought (ECoT) synthesis framework with an industrial code world model (ICWM) to generate reasoning traces. Specifically, ECoT generates reasoning chains by synthesizing the thinking content from multi-turn dialogue with environmental error feedback, explicitly modeling the error-correction process. ICWM is trained on domain-specific execution traces from Verilog simulation, GPU profiling, etc., learns the causal dynamics of how code affects hardware behavior, and enables self-verification by predicting execution outcomes before actual compilation. All synthesized reasoning traces are validated through domain toolchains, creating training data matching the natural reasoning depth distribution of industrial tasks. Evaluation on 14 general (81.3% on LiveCodeBench v5) and 9 industrial benchmarks (84.0% in CAD-Coder and 38.0% on KernelBench) shows InCoder-32B-Thinking achieves top-tier open-source results across allthis http URLOptimization