IQuest-Coder-V1 Technical Report

📄 arXiv: 2603.16733v1 📥 PDF

作者: Jian Yang, Wei Zhang, Shawn Guo, Zhengmao Ye, Lin Jing, Shark Liu, Yizhi Li, Jiajun Wu, Cening Liu, X. Ma, Yuyang Song, Siwei Wu, Yuwen Li, L. Liao, T. Zheng, Ziling Huang, Zelong Huang, Che Liu, Yan Xing, Renyuan Li, Qingsong Cai, Hanxu Yan, Siyue Wang, Shikai Li, Jason Klein Liu, An Huang, Yongsheng Kang, Jinxing Zhang, Chuan Hao, Haowen Wang, Weicheng Gu, Ran Tao, Mingjie Tang, Peihao Wu, Jianzhou Wang, Xianglong Liu, Weifeng Lv, Bryan Dai

分类: cs.AI, cs.CL, cs.SE

发布日期: 2026-03-17


💡 一句话要点

IQuest-Coder-V1:提出代码流多阶段训练范式,提升代码大语言模型在软件工程、编程竞赛和工具使用上的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码大语言模型 多阶段训练 代码流 软件工程 循环神经网络 推理驱动 强化学习

📋 核心要点

  1. 现有代码大语言模型难以捕捉软件逻辑的动态演变,限制了其在复杂编程任务中的表现。
  2. 提出代码流多阶段训练范式,模拟软件开发流程,在不同阶段注入代码事实、推理和指令优化。
  3. IQuest-Coder-V1系列模型在代理软件工程、编程竞赛和复杂工具使用等任务上取得了领先性能。

📝 摘要(中文)

本报告介绍了IQuest-Coder-V1系列代码大语言模型(LLM),包括7B、14B、40B和40B-Loop版本。我们提出了代码流多阶段训练范式,超越了静态代码表示,通过管道的不同阶段捕获软件逻辑的动态演变。我们的模型通过进化管道开发,首先进行包含代码事实、存储库和补全数据的初始预训练。随后,我们实施了一个专门的中间训练阶段,该阶段在32k上下文和128k上下文的存储库规模中集成了推理和代理轨迹,以形成深厚的逻辑基础。然后,通过专门的编码能力进行后训练来最终确定模型,后训练分为两个专门的路径:思维路径(利用推理驱动的RL)和指令路径(针对通用辅助进行优化)。IQuest-Coder-V1在代码智能的关键维度上实现了最先进的性能:代理软件工程、竞争性编程和复杂工具使用。为了解决部署约束,IQuest-Coder-V1-Loop变体引入了一种循环机制,旨在优化模型容量和部署占用空间之间的权衡,为功效-效率权衡提供了一种架构增强路径。我们相信IQuest-Coder-V1系列的发布,包括从预训练基础到最终思维和指令模型的完整白盒链检查点,将推进自主代码智能和真实世界代理系统的研究。

🔬 方法详解

问题定义:现有代码大语言模型主要依赖静态代码数据进行训练,缺乏对软件开发过程中逻辑演变的理解,导致在复杂编程任务,特别是需要推理和规划的任务中表现不佳。现有方法难以有效利用大规模代码库中的信息,并且在模型大小和部署效率之间存在难以调和的矛盾。

核心思路:论文的核心思路是模拟软件开发的流程,将训练过程分解为多个阶段,每个阶段侧重于不同的能力培养。通过这种“代码流”的方式,模型可以逐步学习代码事实、推理能力和指令遵循,从而更好地理解和生成代码。此外,引入循环机制来优化模型容量和部署效率之间的平衡。

技术框架:IQuest-Coder-V1的训练框架包括以下几个主要阶段:1) 预训练:使用代码事实、代码仓库和代码补全数据进行初始训练,建立模型的基础知识。2) 中间训练:在32k和128k长上下文窗口下,集成推理和代理轨迹,增强模型的逻辑推理能力。3) 后训练:分为“思维路径”和“指令路径”两个分支,分别使用推理驱动的强化学习和指令优化,提升模型在特定任务上的性能。IQuest-Coder-V1-Loop变体在架构上引入了循环机制,以减少模型参数量。

关键创新:最重要的技术创新点是代码流多阶段训练范式,它将软件开发流程融入到模型训练中,使得模型能够更好地理解代码的动态演变过程。另一个创新点是IQuest-Coder-V1-Loop的循环机制,它在不显著降低性能的前提下,显著减少了模型参数量,提高了部署效率。

关键设计:在中间训练阶段,使用了32k和128k的长上下文窗口,以便模型能够处理更大规模的代码库和更复杂的推理任务。后训练阶段的“思维路径”使用了推理驱动的强化学习,鼓励模型生成更具逻辑性的代码。IQuest-Coder-V1-Loop的循环机制的具体实现细节(例如循环单元的类型、循环次数等)在报告中可能没有详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

IQuest-Coder-V1在代理软件工程、竞争性编程和复杂工具使用等关键代码智能维度上取得了最先进的性能。具体性能数据和对比基线在报告中可能有所提及,但此处无法提供精确数值。IQuest-Coder-V1-Loop变体在保持性能的同时,显著降低了模型参数量,优化了部署效率。

🎯 应用场景

IQuest-Coder-V1系列模型可应用于自动化软件开发、代码生成、代码补全、代码审查、智能编程助手等领域。该研究有助于提高软件开发的效率和质量,降低开发成本,并推动人工智能在软件工程领域的应用。未来,该模型有望应用于更复杂的软件系统开发和维护。

📄 摘要(原文)

In this report, we introduce the IQuest-Coder-V1 series-(7B/14B/40B/40B-Loop), a new family of code large language models (LLMs). Moving beyond static code representations, we propose the code-flow multi-stage training paradigm, which captures the dynamic evolution of software logic through different phases of the pipeline. Our models are developed through the evolutionary pipeline, starting with the initial pre-training consisting of code facts, repository, and completion data. Following that, we implement a specialized mid-training stage that integrates reasoning and agentic trajectories in 32k-context and repository-scale in 128k-context to forge deep logical foundations. The models are then finalized with post-training of specialized coding capabilities, which is bifurcated into two specialized paths: the thinking path (utilizing reasoning-driven RL) and the instruct path (optimized for general assistance). IQuest-Coder-V1 achieves state-of-the-art performance among competitive models across critical dimensions of code intelligence: agentic software engineering, competitive programming, and complex tool use. To address deployment constraints, the IQuest-Coder-V1-Loop variant introduces a recurrent mechanism designed to optimize the trade-off between model capacity and deployment footprint, offering an architecturally enhanced path for efficacy-efficiency trade-off. We believe the release of the IQuest-Coder-V1 series, including the complete white-box chain of checkpoints from pre-training bases to the final thinking and instruction models, will advance research in autonomous code intelligence and real-world agentic systems.