Kodezi Chronos: A Debugging-First Language Model for Repository-Scale Code Understanding

作者: Ishraq Khan, Assad Chowdary, Sharoz Haseeb, Urvish Patel, Yousuf Zaii

分类: cs.SE, cs.AI, cs.CE, cs.LG

发布日期: 2025-07-14 (更新: 2025-12-02)

备注: 24 figures, 43 tables, 2 algorithms. Extended technical report introducing Chronos-1, a debugging-specific language model. Information available at https://github.com/Kodezi/chronos

💡 一句话要点

Kodezi Chronos-1：面向仓库级代码理解的调试优先语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 代码调试 大型语言模型 代码理解 图神经网络 自适应检索

📋 核心要点

现有大型语言模型在代码调试方面存在不足，主要体现在推理上下文受限以及缺乏对代码的结构化推理能力。
Kodezi Chronos-1通过集成自适应图引导检索、持久调试记忆和七层修复-测试-改进架构，专门为代码调试而构建。
实验表明，Chronos-1在真实场景和SWE-bench Lite上均显著优于现有模型，并能有效减少调试时间和迭代次数。

📝 摘要（中文）

大型语言模型（LLMs）在代码生成和软件自动化方面取得了进展，但仍受限于推理时的上下文和缺乏对代码的结构化推理，使得调试问题在很大程度上未得到解决。尽管Claude 4.5 Opus在SWE-bench Verified上达到了74.40%的准确率，Gemini 3 Pro达到了76.2%，但这两个模型在实际的多文件调试任务中的表现均低于20%。我们推出了Kodezi Chronos-1，这是一种专门为调试而构建的语言模型，它集成了自适应图引导检索（Adaptive Graph-Guided Retrieval）以导航高达1000万行的代码库（92%的精度，85%的召回率），基于超过1500万次会话训练的持久调试记忆（Persistent Debug Memory），以及一个七层修复-测试-改进（fix-test-refine）架构。在5000个真实场景中，Chronos-1达到了67.3% +/- 2.1%的修复准确率，而Claude 4.1 Opus为14.2% +/- 1.3%，GPT-4.1为13.8% +/- 1.2%（Cohen's d = 3.87）。在SWE-bench Lite上，Chronos-1达到了最先进的80.33%的解决率（300个中的241个），比下一个最佳系统高出20个百分点，并在Sympy上达到了96.1%，在Django上达到了90.4%的仓库特定高点。Chronos-1将调试时间减少了40%，迭代次数减少了65%，解决了需要时间分析的复杂多文件和跨仓库错误。硬件依赖和动态语言错误仍然存在局限性，Chronos-1将于2025年第四季度在Kodezi OS中提供，并于2026年第一季度通过API提供。

🔬 方法详解

问题定义：论文旨在解决大型代码库中复杂bug的自动调试问题。现有的大型语言模型在处理多文件、跨仓库的调试任务时，由于上下文窗口限制和缺乏有效的代码理解与推理能力，表现不佳，难以定位和修复bug。

核心思路：论文的核心思路是构建一个调试优先的语言模型，该模型能够有效地理解大型代码库，并利用历史调试经验进行推理，从而实现更准确、更高效的bug修复。模型通过自适应图引导检索来扩展上下文，并通过持久调试记忆来学习调试经验。

技术框架：Chronos-1的整体架构包含三个主要组成部分：自适应图引导检索模块，用于从大型代码库中检索相关代码片段；持久调试记忆模块，用于存储和检索历史调试会话信息；以及一个七层修复-测试-改进架构，用于迭代地修复bug并验证修复的正确性。该架构通过不断地测试和改进，最终生成高质量的bug修复方案。

关键创新：该论文的关键创新在于将自适应图引导检索、持久调试记忆和修复-测试-改进架构集成到一个统一的调试框架中。自适应图引导检索能够有效地扩展模型的上下文窗口，持久调试记忆能够使模型学习和利用历史调试经验，而修复-测试-改进架构则能够保证修复方案的质量。

关键设计：自适应图引导检索模块使用图神经网络来表示代码库的结构，并根据查询动态地选择相关的代码片段。持久调试记忆模块使用Transformer模型来编码调试会话信息，并使用注意力机制来检索相关的历史会话。修复-测试-改进架构使用一个七层的Transformer模型来生成bug修复方案，并使用单元测试来验证修复的正确性。具体的参数设置和损失函数等细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

Chronos-1在5000个真实场景中达到了67.3% +/- 2.1%的修复准确率，显著优于Claude 4.1 Opus (14.2% +/- 1.3%)和GPT-4.1 (13.8% +/- 1.2%)。在SWE-bench Lite上，Chronos-1达到了80.33%的解决率，比下一个最佳系统高出20个百分点，并在特定仓库上达到了更高的性能。

🎯 应用场景

该研究成果可应用于自动化软件调试、代码维护和代码审查等领域。通过自动定位和修复bug，可以显著提高软件开发效率，降低开发成本，并提升软件质量。未来，该技术有望应用于更广泛的软件工程任务，例如代码生成、代码优化和代码理解。

📄 摘要（原文）

Large Language Models (LLMs) have advanced code generation and software automation but remain constrained by inference-time context and lack structured reasoning over code, leaving debugging largely unsolved. While Claude 4.5 Opus achieves 74.40% on SWE-bench Verified and Gemini 3 Pro reaches 76.2%, both models remain below 20% on real multi-file debugging tasks. We introduce Kodezi Chronos-1, a language model purpose-built for debugging that integrates Adaptive Graph-Guided Retrieval to navigate codebases up to 10 million lines (92% precision, 85% recall), Persistent Debug Memory trained on over 15 million sessions, and a seven-layer fix-test-refine architecture. On 5,000 real-world scenarios, Chronos-1 achieves 67.3% +/- 2.1% fix accuracy compared to 14.2% +/- 1.3% for Claude 4.1 Opus and 13.8% +/- 1.2% for GPT-4.1 (Cohen's d = 3.87). On SWE-bench Lite, Chronos-1 reaches a state-of-the-art 80.33% resolution rate (241 of 300), outperforming the next best system by 20 points and achieving repository-specific highs of 96.1% on Sympy and 90.4% on Django. Chronos-1 reduces debugging time by 40% and iterations by 65%, resolving complex multi-file and cross-repository bugs that require temporal analysis. Limitations remain for hardware-dependent and dynamic language errors, and Chronos-1 will be available in Kodezi OS in Q4 2025 and via API in Q1 2026.

Kodezi Chronos: A Debugging-First Language Model for Repository-Scale Code Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理