daVinci-Dev: Agent-native Mid-training for Software Engineering
作者: Ji Zeng, Dayuan Fu, Tiantian Mi, Yumin Zhuang, Yaxing Huang, Xuefeng Li, Lyumanshan Ye, Muhang Xie, Qishuo Hua, Zhen Huang, Mohan Jiang, Hanning Wang, Jifan Lin, Yang Xiao, Jie Sun, Yunze Wu, Pengfei Liu
分类: cs.SE, cs.AI
发布日期: 2026-01-26
💡 一句话要点
daVinci-Dev:面向软件工程的Agent原生Mid-training方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agentic Mid-training 软件工程 代码Agent Agent原生数据 大型语言模型 自动化软件开发 SWE-Bench
📋 核心要点
- 现有代码Agent训练主要依赖后训练或强化学习,缺乏对大规模Agentic Mid-training的探索,限制了Agentic行为的有效学习。
- 提出Agent原生数据概念,包含上下文原生轨迹和环境原生轨迹,旨在弥合静态训练数据与动态开发环境之间的分布差异。
- 实验结果表明,提出的daVinci-Dev方法在SWE-Bench Verified上优于现有方法Kimi-Dev,并在解决率上取得了显著提升。
📝 摘要(中文)
大型语言模型(LLM)的能力前沿已从单轮代码生成转向Agentic软件工程,即模型自主导航、编辑和测试复杂代码库。虽然后训练方法已成为代码Agent的事实标准,但Agentic Mid-training(MT)——在大规模数据上进行MT,这些数据反映了真实的Agentic工作流程——由于巨大的资源需求,仍然严重缺乏探索。尽管它比仅仅依赖昂贵的强化学习提供了一条更具可扩展性的路径来灌输基础的Agentic行为。实现有效的Agentic Mid-training的一个核心挑战是静态训练数据与真实开发中动态、反馈丰富的环境之间的分布不匹配。为了解决这个问题,我们对Agentic Mid-training进行了系统研究,建立了大规模有效Agent开发的数据合成原则和训练方法。我们方法的核心是Agent原生数据——包括两种互补类型的轨迹的监督:上下文原生轨迹,保留了Agent体验的完整信息流,提供广泛的覆盖和多样性;以及环境原生轨迹,从可执行的代码库中收集,其中的观察结果来自实际的工具调用和测试执行,提供深度和交互真实性。我们在SWE-Bench Verified上验证了模型的Agentic能力。我们证明了在两个后训练设置下,使用对齐的基础模型和Agentic scaffold,我们的方法优于之前的开源软件工程Mid-training方法Kimi-Dev,同时使用的Mid-training tokens不到一半(73.1B)。除了相对优势之外,我们表现最佳的32B和72B模型分别实现了56.1%和58.5%的解决率。
🔬 方法详解
问题定义:现有代码Agent的训练方法,如后训练和强化学习,存在一定的局限性。后训练可能无法充分利用预训练模型的潜力来学习Agentic行为,而强化学习则需要大量的计算资源和环境交互。此外,静态训练数据与动态开发环境之间的分布不匹配也是一个关键问题,导致模型在实际应用中表现不佳。
核心思路:论文的核心思路是进行Agentic Mid-training,即在大规模数据上进行中间训练,这些数据能够反映真实的Agentic工作流程。通过这种方式,模型可以在预训练的基础上,更好地学习Agentic行为,并适应动态的开发环境。为了解决数据分布不匹配的问题,论文提出了Agent原生数据的概念,旨在提供更真实、更全面的训练数据。
技术框架:daVinci-Dev的技术框架主要包括数据合成和模型训练两个阶段。在数据合成阶段,论文提出了两种类型的Agent原生轨迹:上下文原生轨迹和环境原生轨迹。上下文原生轨迹保留了Agent体验的完整信息流,提供广泛的覆盖和多样性;环境原生轨迹从可执行的代码库中收集,其中的观察结果来自实际的工具调用和测试执行,提供深度和交互真实性。在模型训练阶段,使用合成的Agent原生数据对大型语言模型进行Mid-training。
关键创新:论文最重要的技术创新点是提出了Agent原生数据的概念,并设计了两种类型的Agent原生轨迹。这种数据合成方法能够有效地弥合静态训练数据与动态开发环境之间的分布差异,从而提高代码Agent的性能。此外,论文还系统地研究了Agentic Mid-training的方法,为大规模Agent开发提供了指导。
关键设计:论文的关键设计包括Agent原生数据的具体生成方法,例如如何收集上下文原生轨迹和环境原生轨迹,以及如何将这些轨迹转化为适合模型训练的格式。此外,论文还可能涉及一些关于模型训练的细节,例如学习率的设置、损失函数的选择等。具体的技术细节可能需要参考论文原文。
📊 实验亮点
实验结果表明,daVinci-Dev方法在SWE-Bench Verified上优于现有方法Kimi-Dev。具体而言,使用32B和72B参数的模型分别实现了56.1%和58.5%的解决率,表明该方法在代码Agent的性能上取得了显著提升,并且在更少的tokens下超越了现有方法。
🎯 应用场景
该研究成果可应用于自动化软件开发、代码修复、代码审查等领域。通过训练具有Agentic能力的LLM,可以显著提高软件开发的效率和质量,降低开发成本。未来,该技术有望应用于更复杂的软件工程任务,例如自动化需求分析、系统设计等。
📄 摘要(原文)
Recently, the frontier of Large Language Model (LLM) capabilities has shifted from single-turn code generation to agentic software engineering-a paradigm where models autonomously navigate, edit, and test complex repositories. While post-training methods have become the de facto approach for code agents, agentic mid-training-mid-training (MT) on large-scale data that mirrors authentic agentic workflows-remains critically underexplored due to substantial resource requirements, despite offering a more scalable path to instilling foundational agentic behaviors than relying solely on expensive reinforcement learning. A central challenge in realizing effective agentic mid-training is the distribution mismatch between static training data and the dynamic, feedback-rich environment of real development. To address this, we present a systematic study of agentic mid-training, establishing both the data synthesis principles and training methodology for effective agent development at scale. Central to our approach is agent-native data-supervision comprising two complementary types of trajectories: contextually-native trajectories that preserve the complete information flow an agent experiences, offering broad coverage and diversity; and environmentally-native trajectories collected from executable repositories where observations stem from actual tool invocations and test executions, providing depth and interaction authenticity. We verify the model's agentic capabilities on
SWE-Bench Verified. We demonstrate our superiority over the previous open software engineering mid-training recipeKimi-Devunder two post-training settings with an aligned base model and agentic scaffold, while using less than half mid-training tokens (73.1B). Besides relative advantage, our best performing 32B and 72B models achieve 56.1% and 58.5% resolution rates, respectively, which are ...