Localized Calibrated Uncertainty in Code Language Models

📄 arXiv: 2512.24560v1 📥 PDF

作者: David Gros, Prem Devanbu

分类: cs.SE, cs.AI

发布日期: 2025-12-31


💡 一句话要点

提出局部校准不确定性方法,定位代码语言模型生成中的错误

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码语言模型 不确定性校准 错误定位 AI监督 代码生成

📋 核心要点

  1. 大型语言模型生成的代码可能偏离用户意图,需要人工干预,缺乏自动定位错误的能力。
  2. 提出一种局部校准不确定性的方法,通过学习预测代码中需要编辑的部分,实现错误定位。
  3. 实验表明,使用小型监督模型的探测器可以有效估计代码中的编辑行,且具有一定的泛化能力。

📝 摘要(中文)

大型语言模型(LLM)可以从自然语言提示生成复杂的源代码。然而,LLM生成的代码可能偏离用户意图,需要监督和编辑。为了支持这一过程,本文提出定位生成代码中可能与用户意图不符之处的技术。首先,创建了一个“最小意图对齐补丁”数据集,其中包含修复后的LLM生成程序,并通过测试用例验证正确性。然后,评估各种技术在指示代码中哪些部分需要进行最小补丁编辑时,分配良好校准概率的能力(即,概率与实际编辑概率相符的程度)。比较了白盒探测(提出了一种高效的任意跨度查询技术)与基于黑盒反思和自洽性的方法。结果表明,使用小型监督模型的探测器可以实现低校准误差和约0.2的Brier Skill Score,用于估计由规模大几个数量级的模型生成的代码中的编辑行。讨论了这些技术的泛化性,以及与AI监督和控制的联系,发现仅在代码上训练的探测器,如果允许新的概率缩放,也显示出泛化到自然语言错误的一些迹象。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)生成的代码可能存在错误,需要人工干预和编辑的问题。现有方法缺乏有效定位代码中错误位置的能力,导致调试和修复效率低下。因此,需要一种能够自动识别LLM生成代码中潜在错误区域的方法,以减少人工干预。

核心思路:论文的核心思路是训练一个能够预测代码片段需要被编辑概率的模型。通过学习“最小意图对齐补丁”数据集,该模型可以评估代码片段与用户意图的偏差程度,并输出相应的概率值。概率越高,表示该片段越有可能需要被编辑。

技术框架:整体框架包括以下几个主要阶段:1) 构建“最小意图对齐补丁”数据集,包含LLM生成的错误代码和对应的修复补丁;2) 设计白盒探测(基于内部表示)和黑盒方法(基于模型输出)来预测代码片段的编辑概率;3) 使用校准误差和Brier Skill Score等指标评估不同方法的性能;4) 分析模型的泛化能力,探讨其在自然语言错误检测中的应用。

关键创新:论文的关键创新在于:1) 提出了“最小意图对齐补丁”数据集的概念,为训练和评估代码错误定位模型提供了数据基础;2) 提出了一种高效的任意跨度查询技术,用于白盒探测,能够更灵活地提取代码片段的内部表示;3) 探索了白盒和黑盒方法在代码错误定位中的应用,并比较了它们的性能。

关键设计:在白盒探测中,论文提出了一种高效的任意跨度查询技术,具体实现细节未知。在黑盒方法中,使用了基于反思和自洽性的方法,具体实现细节未知。损失函数使用了校准误差和Brier Skill Score,用于评估模型的预测概率与实际编辑概率之间的差异。监督模型是一个小型模型,具体结构未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用小型监督模型的探测器可以实现低校准误差和约0.2的Brier Skill Score,用于估计由规模大几个数量级的模型生成的代码中的编辑行。此外,研究还发现,仅在代码上训练的探测器,如果允许新的概率缩放,也显示出泛化到自然语言错误的一些迹象。

🎯 应用场景

该研究成果可应用于自动化代码调试、代码审查和AI辅助编程等领域。通过自动定位LLM生成代码中的错误,可以显著提高开发效率,降低开发成本。此外,该技术还有助于提高LLM生成代码的可靠性和安全性,促进LLM在软件开发领域的广泛应用。

📄 摘要(原文)

Large Language models (LLMs) can generate complicated source code from natural language prompts. However, LLMs can generate output that deviates from what the user wants, requiring supervision and editing. To support this process, we offer techniques to localize where generations might be misaligned from user intent. We first create a dataset of "Minimal Intent Aligning Patches" of repaired LLM generated programs. Each program uses test cases to verify correctness. After creating a dataset of programs, we measure how well various techniques can assign a well-calibrated probability to indicate which parts of code will be edited in a minimal patch (i.e., give a probability that corresponds with empirical odds it is edited). We compare white-box probing (where we propose a technique for efficient arbitrary-span querying), against black-box reflective and self-consistency based approaches. We find probes with a small supervisor model can achieve low calibration error and Brier Skill Score of approx 0.2 estimating edited lines on code generated by models many orders of magnitude larger. We discuss the generalizability of the techniques, and the connections to AI oversight and control, finding a probe trained only on code shows some signs of generalizing to natural language errors if new probability scaling is allowed.