From Hallucination to Structure Snowballing: The Alignment Tax of Constrained Decoding in LLM Reflection

📄 arXiv: 2604.06066v1 📥 PDF

作者: Hongxu Zhou

分类: cs.CL

发布日期: 2026-04-07

🔗 代码/项目: GITHUB


💡 一句话要点

研究表明,基于Outlines的约束解码在LLM自反思中会引发“结构滚雪球”现象。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自我纠错 约束解码 结构化反思 幻觉滚雪球

📋 核心要点

  1. 现有LLM自纠错方法在开放式推理中易受“幻觉滚雪球”影响,即模型会递归地强化早期错误。
  2. 论文探索了仅通过Outlines约束解码实现结构化反思,以期在不依赖外部工具或额外训练的情况下打破错误传播。
  3. 实验表明,简单地施加结构约束并不能提升自纠错能力,反而会引发“结构滚雪球”现象,模型陷入格式陷阱。

📝 摘要(中文)

大型语言模型(LLM)的内在自我纠正能力在开放式推理任务中经常失败,这是由于“幻觉滚雪球”现象,即模型在自由文本反思过程中递归地证明早期错误。虽然结构化反馈可以缓解这个问题,但现有方法通常依赖于外部训练的评论员或符号工具,从而降低了代理的自主性。本研究调查了仅仅通过基于Outlines的约束解码来强制执行结构化反思是否可以在没有额外训练的情况下中断错误传播。通过评估一个80亿参数的模型(Qwen-8B),我们表明仅仅施加结构约束并不能提高自我纠正性能。相反,它会触发一种新的失败模式,称为“结构滚雪球”。我们发现,满足严格格式规则所需的认知负荷会将模型推入格式陷阱。这一观察结果有助于解释为什么代理能够实现近乎完美的表面句法对齐,但未能检测或解决更深层次的语义错误。这些发现揭示了约束解码中固有的“对齐税”,突出了自主工作流程中结构粒度和内部模型容量之间的紧张关系。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在开放式推理任务中,由于“幻觉滚雪球”效应导致的自纠错能力不足的问题。现有方法通常依赖外部训练的评论员或符号工具,降低了代理的自主性,并且增加了额外的训练成本。因此,如何仅通过模型自身的能力,在不引入外部资源的情况下,有效提升LLM的自纠错能力是一个关键问题。

核心思路:论文的核心思路是探索使用基于Outlines的约束解码,强制LLM进行结构化反思,从而打破错误传播链。约束解码通过预定义的结构化模板,引导LLM的输出,期望能够减少模型在自由文本生成过程中产生的幻觉和错误。这种方法试图在不依赖外部工具的情况下,利用模型自身的生成能力,实现更可靠的自纠错。

技术框架:整体框架包括以下步骤:首先,给定一个需要解决的推理任务。然后,LLM使用自由文本生成初步的解决方案。接下来,使用基于Outlines的约束解码,强制LLM按照预定义的结构化模板进行反思,并尝试纠正之前的错误。最后,评估LLM在结构化反思后的性能,并与自由文本反思的性能进行比较。主要模块包括:自由文本生成模块、Outlines约束解码模块和性能评估模块。

关键创新:最重要的技术创新点在于揭示了约束解码在LLM自反思中存在的“对齐税”现象。论文发现,虽然约束解码可以提高输出的句法对齐度,但同时也增加了模型的认知负担,导致模型更容易陷入格式陷阱,反而降低了其检测和纠正深层语义错误的能力。与现有方法不同,该研究关注的是约束解码本身对模型性能的影响,而不是依赖外部工具或额外训练。

关键设计:论文使用了Qwen-8B模型进行实验,并设计了不同的结构化模板,例如要求模型按照“前提-推理-结论”的格式进行反思。关键参数包括Outlines模板的粒度,以及约束解码的严格程度。论文还设计了专门的评估指标,用于衡量模型在句法对齐度和语义纠错方面的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,简单地施加结构约束并不能提高Qwen-8B模型的自纠错性能,反而会引发“结构滚雪球”现象。模型在满足严格格式规则时,更容易陷入格式陷阱,导致句法对齐度高但语义纠错能力下降。这一发现揭示了约束解码中固有的“对齐税”,为未来研究提供了重要的启示。

🎯 应用场景

该研究成果可应用于提升LLM在各种需要推理和自我纠错的场景中的可靠性,例如自动代码生成、智能问答、文档摘要等。通过深入理解约束解码的局限性,可以指导未来LLM架构设计和训练策略,从而构建更可靠、更自主的智能代理。

📄 摘要(原文)

Intrinsic self-correction in Large Language Models (LLMs) frequently fails in open-ended reasoning tasks due to hallucination snowballing,'' a phenomenon in which models recursively justify early errors during free-text reflection. While structured feedback can mitigate this issue, existing approaches often rely on externally trained critics or symbolic tools, reducing agent autonomy. This study investigates whether enforcing structured reflection purely through Outlines-based constrained decoding can disrupt error propagation without additional training. Evaluating an 8-billion-parameter model (Qwen3-8B), we show that simply imposing structural constraints does not improve self-correction performance. Instead, it triggers a new failure mode termedstructure snowballing.'' We find that the cognitive load required to satisfy strict formatting rules pushes the model into formatting traps. This observation helps explain why the agent achieves near-perfect superficial syntactic alignment yet fails to detect or resolve deeper semantic errors. These findings expose an ``alignment tax'' inherent to constrained decoding, highlighting a tension between structural granularity and internal model capacity in autonomous workflows. Code and raw logs are available in the GitHub repository: https://github.com/hongxuzhou/agentic_llm_structured_self_critique.