An Empirical Study of Proactive Coding Assistants in Real-World Software Development
作者: Lehui Li, Ruixuan Jia, Guo-Ye Yang, Jia Li
分类: cs.SE, cs.AI
发布日期: 2026-05-07
💡 一句话要点
揭示主动式编程助手仿真与现实的鸿沟:提出ProCodeBench基准与真实行为数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主动式编程助手 IDE交互分析 大语言模型评估 开发者行为建模 基准测试 仿真与现实鸿沟
📋 核心要点
- 现有主动式编程助手研究高度依赖LLM模拟的IDE交互轨迹,导致评估结果与真实开发场景存在显著的“仿真-现实”鸿沟。
- 本文通过大规模采集1,246名开发者的真实IDE交互数据,构建了ProCodeBench基准,用于量化评估模型在真实开发环境下的意图预测能力。
- 实验证实当前主流方法在真实数据下表现欠佳,且模拟数据仅能作为真实数据微调前的补充,无法替代真实行为数据的训练价值。
📝 摘要(中文)
基于大语言模型(LLM)的编程助手已取得显著进展,但大多仍处于被动响应模式。主动式编程助手旨在通过IDE交互和代码库上下文推断开发者的潜在意图,以降低交互开销。然而,该领域的研究受限于真实开发者行为数据的匮乏,现有研究多依赖LLM模拟的IDE轨迹,其真实性存疑。本文通过开发VS Code插件,收集了1,246名资深开发者为期三天的真实交互数据,并构建了配对的模拟轨迹进行对比。分析发现,模拟轨迹在行为多样性、时间结构和探索模式上与真实数据存在显著差异。基于此,本文提出了主动意图预测基准ProCodeBench。实验表明,现有方法在真实轨迹下的表现远未达到可靠水平,且模拟数据无法完全替代真实数据,仅能作为预训练的补充。这些发现强调了真实开发者行为数据对评估和训练主动式编程助手的重要性。
🔬 方法详解
问题定义:论文旨在解决主动式编程助手在真实开发场景下意图预测准确性不足的问题。核心痛点在于现有研究过度依赖LLM生成的模拟轨迹,导致模型在面对真实、复杂且非线性的开发者行为时,表现出严重的性能过拟合与泛化能力缺失。
核心思路:通过实证研究量化“仿真-现实”鸿沟,并利用真实采集的IDE交互数据构建基准。研究认为,真实的开发行为具有高度的不可预测性和上下文依赖性,必须通过真实数据驱动的评估与训练,才能实现真正的主动式辅助。
技术框架:研究流程分为三个阶段:首先,开发定制化VS Code插件进行大规模数据采集;其次,构建包含真实轨迹与LLM模拟轨迹的对比数据集;最后,在ProCodeBench基准上评估代表性LLM、检索增强生成(RAG)方法及Agent基线,并进行混合数据训练实验。
关键创新:首次大规模量化了IDE交互中模拟轨迹与真实轨迹的统计学差异,揭示了模拟数据在行为多样性、时间结构和探索模式上的局限性,并提出了首个基于真实开发者行为的主动意图预测基准。
关键设计:采用了受控对比实验设计,将真实轨迹与模拟轨迹进行配对,通过对比分析评估模型在不同数据分布下的性能衰减。在训练策略上,验证了“模拟数据预训练+真实数据微调”的阶梯式训练范式,证明了真实数据在提升模型鲁棒性方面的不可替代性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,现有模型在真实IDE轨迹上的性能显著低于模拟环境,部分基线模型在真实场景下的意图预测准确率下降幅度超过30%。研究证明,单纯依赖模拟数据训练会导致模型在处理真实开发任务时出现严重的“幻觉”与上下文丢失,而引入真实数据微调可显著提升模型在复杂开发流中的预测可靠性。
🎯 应用场景
该研究成果可直接应用于下一代IDE插件的开发,通过更精准的意图预测减少开发者的手动输入,提升编码效率。此外,ProCodeBench基准为评估AI编程工具的真实生产力提供了标准,对企业级代码辅助系统的选型与优化具有重要的指导意义。
📄 摘要(原文)
Large language model (LLM)-based coding assistants have made substantial progress, yet most systems remain reactive, requiring developers to explicitly formulate their needs. Proactive coding assistants aim to infer latent developer intent from integrated development environment (IDE) interactions and repository context, thereby reducing interaction overhead and supporting more seamless assistance. However, research in this direction is limited by the scarcity of large-scale real-world developer behavior data. Existing studies therefore often rely on LLM-simulated IDE traces, whose fidelity to real development behavior remains unclear. In this paper, we investigate this simulation-to-reality gap through a large-scale empirical study. We collect real IDE interaction traces from 1{,}246 experienced industry developers over three consecutive days using a custom Visual Studio Code extension, and construct paired LLM-simulated traces for controlled comparison. Our analysis shows that simulated traces differ substantially from real traces in behavioral diversity, temporal structure, and exploratory patterns. Based on the collected data, we introduce \textbf{ProCodeBench}, a real-world benchmark for proactive intent prediction. Experiments with representative LLMs, retrieval-augmented methods, and agentic baselines show that current approaches remain far from reliable under real IDE traces, suggesting that simulation-based evaluation can overestimate real-world performance. Finally, our training study shows that simulated data cannot replace real data, but can complement it when used before real-world fine-tuning. These findings highlight the importance of real developer behavior data for evaluating and training proactive coding assistants.