Decomposing LLM Self-Correction: The Accuracy-Correction Paradox and Error Depth Hypothesis

作者: Yin Li

分类: cs.AI

发布日期: 2025-12-24

备注: 9 pages, 2 figures, 3 tables. Code available at https://github.com/Kevin0304-li/llm-self-correction

💡 一句话要点

解构LLM自纠错能力：揭示准确率-纠错悖论与误差深度假设

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自纠错 误差分析 误差检测 误差纠正 误差定位 准确率-纠错悖论 误差深度假设

📋 核心要点

现有研究表明，大型语言模型的内在自纠错能力仍然不足，无法有效提升模型性能。
论文将自纠错能力分解为错误检测、错误定位和错误纠正三个子能力，进行深入分析。
实验发现准确率更高的模型，自纠错能力反而更弱，并提出“误差深度假设”解释这一现象。

📝 摘要（中文）

大型语言模型(LLM)被广泛认为具有自纠错能力，但最近的研究表明，内在自纠错——模型在没有外部反馈的情况下纠正自身输出——在很大程度上仍然无效。本文系统地将自纠错分解为三个不同的子能力：错误检测、错误定位和错误纠正。通过在GSM8K-Complex数据集上，对三个主要LLM进行跨模型实验（每个模型n=500，总共346个错误），我们发现了一个惊人的准确率-纠错悖论：较弱的模型（GPT-3.5，66%准确率）比更强的模型（DeepSeek，94%准确率）实现了高1.6倍的内在纠错率——26.8% vs 16.7%。我们提出了误差深度假设：更强的模型产生的错误更少，但错误更深，难以自纠正。不同架构的错误检测率差异很大（10%到82%），但检测能力并不能预测纠错成功——Claude仅检测到10%的错误，但内在纠正了29%。令人惊讶的是，提供错误位置提示反而损害了所有模型。我们的发现挑战了关于模型能力和自我改进的线性假设，对自完善流程的设计具有重要意义。

🔬 方法详解

问题定义：现有研究对LLM的自纠错能力评估不足，缺乏对自纠错过程的细粒度分析。以往研究未能解释为何更强的模型在自纠错方面表现不佳，以及错误检测能力与纠错成功率之间的关系。

核心思路：将LLM的自纠错过程分解为错误检测、错误定位和错误纠正三个独立的子任务，分别评估模型在这些子任务上的表现。通过分析不同模型在这些子任务上的差异，揭示影响自纠错效果的关键因素。提出“误差深度假设”，认为更强模型产生的错误更难被自身检测和纠正。

技术框架：论文采用跨模型实验的方法，在GSM8K-Complex数据集上评估了GPT-3.5、DeepSeek和Claude三个LLM的自纠错能力。针对每个模型，生成500个样本，并标注其中的错误。然后，分别评估模型在错误检测、错误定位和错误纠正三个子任务上的表现。通过比较不同模型在这些子任务上的表现，分析影响自纠错效果的关键因素。

关键创新：论文最重要的创新点在于将LLM的自纠错过程分解为三个独立的子任务，并分别评估模型在这些子任务上的表现。这种分解方法能够更细粒度地分析自纠错过程，揭示影响自纠错效果的关键因素。此外，论文提出的“误差深度假设”为理解LLM的自纠错能力提供了一个新的视角。

关键设计：论文的关键设计包括：(1) 使用GSM8K-Complex数据集，该数据集包含复杂的数学问题，能够更好地评估LLM的推理能力和自纠错能力。(2) 采用跨模型实验的方法，比较不同模型在自纠错方面的表现。(3) 设计了针对错误检测、错误定位和错误纠正三个子任务的评估指标。(4) 实验中还探索了提供错误位置提示对模型自纠错能力的影响。

📊 实验亮点

实验结果表明，较弱的模型（GPT-3.5，66%准确率）比更强的模型（DeepSeek，94%准确率）实现了高1.6倍的内在纠错率（26.8% vs 16.7%）。不同架构的错误检测率差异很大（10%到82%），但检测能力并不能预测纠错成功。提供错误位置提示反而损害了所有模型的自纠错能力。

🎯 应用场景

该研究成果可应用于改进LLM的自完善流程，例如，针对不同类型的错误，设计不同的纠错策略。此外，该研究还可以帮助我们更好地理解LLM的推理过程和错误模式，从而提高LLM的可靠性和安全性。研究结果对开发更有效的LLM训练方法和评估指标具有指导意义。

📄 摘要（原文）

Large Language Models (LLMs) are widely believed to possess self-correction capabilities, yet recent studies suggest that intrinsic self-correction--where models correct their own outputs without external feedback--remains largely ineffective. In this work, we systematically decompose self-correction into three distinct sub-capabilities: error detection, error localization, and error correction. Through cross-model experiments on GSM8K-Complex (n=500 per model, 346 total errors) with three major LLMs, we uncover a striking Accuracy-Correction Paradox: weaker models (GPT-3.5, 66% accuracy) achieve 1.6x higher intrinsic correction rates than stronger models (DeepSeek, 94% accuracy)--26.8% vs 16.7%. We propose the Error Depth Hypothesis: stronger models make fewer but deeper errors that resist self-correction. Error detection rates vary dramatically across architectures (10% to 82%), yet detection capability does not predict correction success--Claude detects only 10% of errors but corrects 29% intrinsically. Surprisingly, providing error location hints hurts all models. Our findings challenge linear assumptions about model capability and self-improvement, with important implications for the design of self-refinement pipelines.

Decomposing LLM Self-Correction: The Accuracy-Correction Paradox and Error Depth Hypothesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理