Decomposing LLM Self-Correction: The Accuracy-Correction Paradox and Error Depth Hypothesis

📄 arXiv: 2601.00828v1 📥 PDF

作者: Yin Li

分类: cs.AI

发布日期: 2025-12-24

备注: 9 pages, 2 figures, 3 tables. Code available at https://github.com/Kevin0304-li/llm-self-correction


💡 一句话要点

解构LLM自纠错能力:揭示准确率-纠错悖论与误差深度假设

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自纠错 误差分析 误差检测 误差纠正 误差定位 准确率-纠错悖论 误差深度假设

📋 核心要点

  1. 现有研究表明,大型语言模型的内在自纠错能力仍然不足,无法有效提升模型性能。
  2. 论文将自纠错能力分解为错误检测、错误定位和错误纠正三个子能力,进行深入分析。
  3. 实验发现准确率更高的模型,自纠错能力反而更弱,并提出“误差深度假设”解释这一现象。

📝 摘要(中文)

大型语言模型(LLM)被广泛认为具有自纠错能力,但最近的研究表明,内在自纠错——模型在没有外部反馈的情况下纠正自身输出——在很大程度上仍然无效。本文系统地将自纠错分解为三个不同的子能力:错误检测、错误定位和错误纠正。通过在GSM8K-Complex数据集上,对三个主要LLM进行跨模型实验(每个模型n=500,总共346个错误),我们发现了一个惊人的准确率-纠错悖论:较弱的模型(GPT-3.5,66%准确率)比更强的模型(DeepSeek,94%准确率)实现了高1.6倍的内在纠错率——26.8% vs 16.7%。我们提出了误差深度假设:更强的模型产生的错误更少,但错误更深,难以自纠正。不同架构的错误检测率差异很大(10%到82%),但检测能力并不能预测纠错成功——Claude仅检测到10%的错误,但内在纠正了29%。令人惊讶的是,提供错误位置提示反而损害了所有模型。我们的发现挑战了关于模型能力和自我改进的线性假设,对自完善流程的设计具有重要意义。

🔬 方法详解

问题定义:现有研究对LLM的自纠错能力评估不足,缺乏对自纠错过程的细粒度分析。以往研究未能解释为何更强的模型在自纠错方面表现不佳,以及错误检测能力与纠错成功率之间的关系。

核心思路:将LLM的自纠错过程分解为错误检测、错误定位和错误纠正三个独立的子任务,分别评估模型在这些子任务上的表现。通过分析不同模型在这些子任务上的差异,揭示影响自纠错效果的关键因素。提出“误差深度假设”,认为更强模型产生的错误更难被自身检测和纠正。

技术框架:论文采用跨模型实验的方法,在GSM8K-Complex数据集上评估了GPT-3.5、DeepSeek和Claude三个LLM的自纠错能力。针对每个模型,生成500个样本,并标注其中的错误。然后,分别评估模型在错误检测、错误定位和错误纠正三个子任务上的表现。通过比较不同模型在这些子任务上的表现,分析影响自纠错效果的关键因素。

关键创新:论文最重要的创新点在于将LLM的自纠错过程分解为三个独立的子任务,并分别评估模型在这些子任务上的表现。这种分解方法能够更细粒度地分析自纠错过程,揭示影响自纠错效果的关键因素。此外,论文提出的“误差深度假设”为理解LLM的自纠错能力提供了一个新的视角。

关键设计:论文的关键设计包括:(1) 使用GSM8K-Complex数据集,该数据集包含复杂的数学问题,能够更好地评估LLM的推理能力和自纠错能力。(2) 采用跨模型实验的方法,比较不同模型在自纠错方面的表现。(3) 设计了针对错误检测、错误定位和错误纠正三个子任务的评估指标。(4) 实验中还探索了提供错误位置提示对模型自纠错能力的影响。

📊 实验亮点

实验结果表明,较弱的模型(GPT-3.5,66%准确率)比更强的模型(DeepSeek,94%准确率)实现了高1.6倍的内在纠错率(26.8% vs 16.7%)。不同架构的错误检测率差异很大(10%到82%),但检测能力并不能预测纠错成功。提供错误位置提示反而损害了所有模型的自纠错能力。

🎯 应用场景

该研究成果可应用于改进LLM的自完善流程,例如,针对不同类型的错误,设计不同的纠错策略。此外,该研究还可以帮助我们更好地理解LLM的推理过程和错误模式,从而提高LLM的可靠性和安全性。研究结果对开发更有效的LLM训练方法和评估指标具有指导意义。

📄 摘要(原文)

Large Language Models (LLMs) are widely believed to possess self-correction capabilities, yet recent studies suggest that intrinsic self-correction--where models correct their own outputs without external feedback--remains largely ineffective. In this work, we systematically decompose self-correction into three distinct sub-capabilities: error detection, error localization, and error correction. Through cross-model experiments on GSM8K-Complex (n=500 per model, 346 total errors) with three major LLMs, we uncover a striking Accuracy-Correction Paradox: weaker models (GPT-3.5, 66% accuracy) achieve 1.6x higher intrinsic correction rates than stronger models (DeepSeek, 94% accuracy)--26.8% vs 16.7%. We propose the Error Depth Hypothesis: stronger models make fewer but deeper errors that resist self-correction. Error detection rates vary dramatically across architectures (10% to 82%), yet detection capability does not predict correction success--Claude detects only 10% of errors but corrects 29% intrinsically. Surprisingly, providing error location hints hurts all models. Our findings challenge linear assumptions about model capability and self-improvement, with important implications for the design of self-refinement pipelines.