Kodezi Chronos: A Debugging-First Language Model for Repository-Scale Code Understanding
作者: Ishraq Khan, Assad Chowdary, Sharoz Haseeb, Urvish Patel, Yousuf Zaii
分类: cs.SE, cs.AI, cs.CE, cs.LG
发布日期: 2025-07-14 (更新: 2025-12-02)
备注: 24 figures, 43 tables, 2 algorithms. Extended technical report introducing Chronos-1, a debugging-specific language model. Information available at https://github.com/Kodezi/chronos
💡 一句话要点
Kodezi Chronos-1:面向仓库级代码理解的调试优先语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 代码调试 大型语言模型 代码理解 图神经网络 自适应检索
📋 核心要点
- 现有大型语言模型在代码调试方面存在不足,主要体现在推理上下文受限以及缺乏对代码的结构化推理能力。
- Kodezi Chronos-1通过集成自适应图引导检索、持久调试记忆和七层修复-测试-改进架构,专门为代码调试而构建。
- 实验表明,Chronos-1在真实场景和SWE-bench Lite上均显著优于现有模型,并能有效减少调试时间和迭代次数。
📝 摘要(中文)
大型语言模型(LLMs)在代码生成和软件自动化方面取得了进展,但仍受限于推理时的上下文和缺乏对代码的结构化推理,使得调试问题在很大程度上未得到解决。尽管Claude 4.5 Opus在SWE-bench Verified上达到了74.40%的准确率,Gemini 3 Pro达到了76.2%,但这两个模型在实际的多文件调试任务中的表现均低于20%。我们推出了Kodezi Chronos-1,这是一种专门为调试而构建的语言模型,它集成了自适应图引导检索(Adaptive Graph-Guided Retrieval)以导航高达1000万行的代码库(92%的精度,85%的召回率),基于超过1500万次会话训练的持久调试记忆(Persistent Debug Memory),以及一个七层修复-测试-改进(fix-test-refine)架构。在5000个真实场景中,Chronos-1达到了67.3% +/- 2.1%的修复准确率,而Claude 4.1 Opus为14.2% +/- 1.3%,GPT-4.1为13.8% +/- 1.2%(Cohen's d = 3.87)。在SWE-bench Lite上,Chronos-1达到了最先进的80.33%的解决率(300个中的241个),比下一个最佳系统高出20个百分点,并在Sympy上达到了96.1%,在Django上达到了90.4%的仓库特定高点。Chronos-1将调试时间减少了40%,迭代次数减少了65%,解决了需要时间分析的复杂多文件和跨仓库错误。硬件依赖和动态语言错误仍然存在局限性,Chronos-1将于2025年第四季度在Kodezi OS中提供,并于2026年第一季度通过API提供。
🔬 方法详解
问题定义:论文旨在解决大型代码库中复杂bug的自动调试问题。现有的大型语言模型在处理多文件、跨仓库的调试任务时,由于上下文窗口限制和缺乏有效的代码理解与推理能力,表现不佳,难以定位和修复bug。
核心思路:论文的核心思路是构建一个调试优先的语言模型,该模型能够有效地理解大型代码库,并利用历史调试经验进行推理,从而实现更准确、更高效的bug修复。模型通过自适应图引导检索来扩展上下文,并通过持久调试记忆来学习调试经验。
技术框架:Chronos-1的整体架构包含三个主要组成部分:自适应图引导检索模块,用于从大型代码库中检索相关代码片段;持久调试记忆模块,用于存储和检索历史调试会话信息;以及一个七层修复-测试-改进架构,用于迭代地修复bug并验证修复的正确性。该架构通过不断地测试和改进,最终生成高质量的bug修复方案。
关键创新:该论文的关键创新在于将自适应图引导检索、持久调试记忆和修复-测试-改进架构集成到一个统一的调试框架中。自适应图引导检索能够有效地扩展模型的上下文窗口,持久调试记忆能够使模型学习和利用历史调试经验,而修复-测试-改进架构则能够保证修复方案的质量。
关键设计:自适应图引导检索模块使用图神经网络来表示代码库的结构,并根据查询动态地选择相关的代码片段。持久调试记忆模块使用Transformer模型来编码调试会话信息,并使用注意力机制来检索相关的历史会话。修复-测试-改进架构使用一个七层的Transformer模型来生成bug修复方案,并使用单元测试来验证修复的正确性。具体的参数设置和损失函数等细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
Chronos-1在5000个真实场景中达到了67.3% +/- 2.1%的修复准确率,显著优于Claude 4.1 Opus (14.2% +/- 1.3%)和GPT-4.1 (13.8% +/- 1.2%)。在SWE-bench Lite上,Chronos-1达到了80.33%的解决率,比下一个最佳系统高出20个百分点,并在特定仓库上达到了更高的性能。
🎯 应用场景
该研究成果可应用于自动化软件调试、代码维护和代码审查等领域。通过自动定位和修复bug,可以显著提高软件开发效率,降低开发成本,并提升软件质量。未来,该技术有望应用于更广泛的软件工程任务,例如代码生成、代码优化和代码理解。
📄 摘要(原文)
Large Language Models (LLMs) have advanced code generation and software automation but remain constrained by inference-time context and lack structured reasoning over code, leaving debugging largely unsolved. While Claude 4.5 Opus achieves 74.40% on SWE-bench Verified and Gemini 3 Pro reaches 76.2%, both models remain below 20% on real multi-file debugging tasks. We introduce Kodezi Chronos-1, a language model purpose-built for debugging that integrates Adaptive Graph-Guided Retrieval to navigate codebases up to 10 million lines (92% precision, 85% recall), Persistent Debug Memory trained on over 15 million sessions, and a seven-layer fix-test-refine architecture. On 5,000 real-world scenarios, Chronos-1 achieves 67.3% +/- 2.1% fix accuracy compared to 14.2% +/- 1.3% for Claude 4.1 Opus and 13.8% +/- 1.2% for GPT-4.1 (Cohen's d = 3.87). On SWE-bench Lite, Chronos-1 reaches a state-of-the-art 80.33% resolution rate (241 of 300), outperforming the next best system by 20 points and achieving repository-specific highs of 96.1% on Sympy and 90.4% on Django. Chronos-1 reduces debugging time by 40% and iterations by 65%, resolving complex multi-file and cross-repository bugs that require temporal analysis. Limitations remain for hardware-dependent and dynamic language errors, and Chronos-1 will be available in Kodezi OS in Q4 2025 and via API in Q1 2026.