Imbuing Large Language Models with Bidirectional Logic for Robust Chain Repair
作者: Zehua Cheng, Wei Dai, Jiahao Sun, Thomas Lukasiewicz
分类: cs.CL, cs.SC
发布日期: 2026-06-03
备注: 25 Pages
期刊: In Proceedings of European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases 2026
💡 一句话要点
提出Teleological Reasoning Infilling以解决LLMs推理链错误问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理链 逻辑推理 目标条件桥接 填充中间任务 监督微调 直接偏好优化 自注意力机制
📋 核心要点
- 现有的自回归推理方法存在单向归纳偏差,导致错误在推理链中不可逆地积累。
- 提出TRI框架,通过将错误推理段视为填充中间任务,增强模型的目标条件桥接能力。
- 实验结果显示,TRI在多个基准测试中表现优异,性能达到最先进水平,且减少了31.2%的标记消耗。
📝 摘要(中文)
自回归链式思维(CoT)推理在大型语言模型(LLMs)中本质上是单向的:每一步仅依赖于先前的标记。这种单向归纳偏差使得即使是能力强大的模型也容易受到错误积累的影响,即早期步骤中的逻辑或算术错误会不可逆地破坏整个推理链。我们提出了Teleological Reasoning Infilling(TRI)训练框架,使解码器仅限的变换器具备原生的目标条件桥接能力。关键在于将错误的推理段重新构建为填充中间(FIM)任务:给定经过验证的前缀前提P、经过验证的下游里程碑S和原始查询Q,模型必须严谨且完整地合成连接P和S的逻辑桥接M。通过引入前缀-后缀-中间(PSM)序列重排,TRI在不改变自注意力机制的结构的情况下,使M能够同时关注P和S。实验表明,TRI在所有任务上均实现了最先进的性能,同时每个问题的标记消耗减少了31.2%。
🔬 方法详解
问题定义:本论文旨在解决大型语言模型在推理过程中由于单向归纳偏差导致的错误积累问题。现有方法在处理逻辑和算术推理时,容易受到早期错误的影响,导致整个推理链的失败。
核心思路:论文提出的核心思路是将错误推理段重新构建为填充中间(FIM)任务,要求模型在给定前提和里程碑的情况下,合成连接两者的逻辑桥接。这种设计使得模型能够在推理过程中更灵活地处理错误。
技术框架:TRI的整体架构包括两个主要阶段:第一阶段是对从形式数学语料库中提取的符号验证的(P, S, M)三元组进行监督微调(SFT);第二阶段是使用确定性的符号验证器(如Lean 4/Python)进行直接偏好优化(DPO),作为唯一的奖励源。
关键创新:TRI的最重要创新在于引入了前缀-后缀-中间(PSM)序列重排,使得模型能够在不改变自注意力机制的情况下,同时关注前提和里程碑。这一设计显著提升了模型的推理能力。
关键设计:在训练过程中,使用了三种不重叠的哨兵标记来实现PSM序列重排,确保模型能够有效地处理推理任务。损失函数和网络结构的设计也经过精心调整,以优化模型在填充中间任务上的表现。
🖼️ 关键图片
📊 实验亮点
在综合实验中,TRI在三个基准测试上均实现了最先进的性能,相较于基线方法,标记消耗减少了31.2%。这一结果表明,TRI不仅提高了推理的准确性,还显著降低了计算资源的需求。
🎯 应用场景
该研究的潜在应用领域包括教育、自动化推理系统和智能助手等。通过提高大型语言模型在逻辑推理中的准确性,TRI能够在复杂问题解决、数学推理和决策支持等场景中发挥重要作用,未来可能对人工智能的推理能力产生深远影响。
📄 摘要(原文)
Autoregressive chain-of-thought (CoT) reasoning in large language models (LLMs) is fundamentally forward-directed: each step conditions only on prior tokens. This unidirectional inductive bias renders even capable models susceptible to error snowballing, wherein a single logical or arithmetic mistake in an early step irreversibly corrupts the entire reasoning chain. We introduce Teleological Reasoning Infilling (\TRI{}), a training framework that endows decoder-only transformers with a native \emph{goal-conditioned bridging} capability. The key insight is to reframe erroneous reasoning segments as fill-in-the-middle (FIM) tasks: given a verified prefix premise $P$, a verified downstream milestone $S$, and the original query $Q$, the model must synthesise the logical bridge $M$ that connects $P$ to $S$ rigorously and completely. To achieve this with standard causal architectures, we introduce a Prefix-Suffix-Middle (PSM) sequence rearrangement with three non-overlapping sentinel tokens, enabling $M$ to attend to both $P$ and $S$ without any structural modification to the self-attention mechanism. Training proceeds in two stages: (i) Supervised Fine-Tuning (SFT) on symbolically verified $(P, S, M)$ triples extracted from formal mathematics corpora, and (ii) Direct Preference Optimisation (DPO) with a deterministic symbolic verifier (Lean 4 / Python) as the sole reward oracle, eliminating LLM-judge sycophancy. At inference, TRI operates as a surgical repair module within a dual-system loop: a causal draft model generates an initial trace, the verifier pinpoints failures, and TRI infills only the damaged segment, leaving verified sections intact. Comprehensive experiments on three benchmarks demonstrate that TRI achieves state-of-the-art performance across all tasks, while reducing per-problem token expenditure by 31.2%.