Correct Prediction, Wrong Steps? Consensus Reasoning Knowledge Graph for Robust Chain-of-Thought Synthesis
作者: Zipeng Ling, Shuliang Liu, Shenghong Fu, Yuehao Tang, Seonil Son, Yao Wan, Xuming Hu
分类: cs.CL
发布日期: 2026-04-15
💡 一句话要点
CRAFT:基于共识推理知识图谱的链式思考合成方法,提升LLM推理鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 链式思考 知识图谱 大型语言模型 推理 共识 拓扑生成 鲁棒性
📋 核心要点
- 现有LLM推理过程存在步骤内部和步骤间缺陷,直接使用ground-truth标签指导无法有效提升推理能力。
- CRAFT通过构建共识推理知识图谱,并利用拓扑生成方法合成高质量推理轨迹,从而缓解推理缺陷。
- 实验表明,CRAFT在逻辑和数学推理任务上显著提升了标签预测准确率和推理轨迹质量。
📝 摘要(中文)
大型语言模型(LLM)的推理过程存在复杂的缺陷,包括步骤内部缺陷(如逻辑错误、幻觉)和步骤间缺陷(如过度思考、思考不足),这些缺陷因样本而异。一个自然的想法是提供ground-truth标签来指导LLM的推理。然而,与直觉相反,研究表明这并不能提高推理能力。因此,论文提出了CRAFT,一个统一的框架,旨在缓解上述两种类型的步骤缺陷。CRAFT构建一个基于多个候选推理轨迹的共识部分的推理知识图谱(RKG),并通过拓扑生成合成高质量的推理轨迹。实验结果表明,CRAFT平均提高了10+%的标签预测准确率,并且在逻辑和数学推理基准测试中始终优于所有基线方法。此外,详细的基准评估证明,该方法还在多个维度上提高了LLM推理轨迹的质量。
🔬 方法详解
问题定义:论文旨在解决LLM在链式思考(Chain-of-Thought, CoT)推理过程中出现的推理步骤内部缺陷(如逻辑错误、幻觉)和步骤间缺陷(如过度思考、思考不足)问题。现有方法,包括直接使用ground-truth标签进行指导,无法有效解决这些问题,导致推理过程不稳定且容易出错。
核心思路:论文的核心思路是利用多个候选推理轨迹的共识部分构建一个推理知识图谱(Reasoning Knowledge Graph, RKG),该图谱代表了相对可靠的推理路径。然后,通过在RKG上进行拓扑生成,合成一条高质量的推理轨迹,从而避免单个推理轨迹中的错误和偏差。这种方法利用了集体智慧,提高了推理的鲁棒性。
技术框架:CRAFT框架主要包含以下几个阶段:1) 生成多个候选推理轨迹:使用LLM生成多个不同的CoT推理过程。2) 构建推理知识图谱(RKG):从多个候选轨迹中提取共识部分,构建RKG,节点代表推理步骤,边代表步骤之间的逻辑关系。3) 拓扑生成:在RKG上进行拓扑排序和路径选择,生成一条高质量的推理轨迹。4) 最终答案预测:基于生成的推理轨迹,预测最终答案。
关键创新:CRAFT的关键创新在于利用共识推理知识图谱来指导推理轨迹的生成。与传统的CoT方法相比,CRAFT不是依赖于单个推理轨迹,而是利用多个轨迹的共识信息,从而减少了错误和偏差。此外,CRAFT的拓扑生成方法能够有效地利用RKG中的信息,生成高质量的推理轨迹。
关键设计:RKG的构建方式是关键。论文可能采用了一些策略来确定哪些步骤是“共识”步骤,例如基于语义相似度或逻辑一致性。拓扑生成过程可能涉及到一些启发式算法或搜索策略,以找到最优的推理路径。具体的损失函数和网络结构细节未知,需要查阅论文原文。
🖼️ 关键图片
📊 实验亮点
CRAFT在逻辑和数学推理基准测试中取得了显著的性能提升,平均提高了10+%的标签预测准确率,并且始终优于所有基线方法。这表明CRAFT能够有效地缓解LLM推理过程中的缺陷,并生成更高质量的推理轨迹。具体的基线模型和数据集信息未知,需要查阅论文原文。
🎯 应用场景
CRAFT方法可应用于各种需要复杂推理的场景,例如问答系统、智能客服、数学问题求解、代码生成等。通过提高LLM推理的准确性和可靠性,CRAFT可以提升这些应用的用户体验和性能,并有望在教育、金融、医疗等领域发挥重要作用。
📄 摘要(原文)
LLM reasoning traces suffer from complex flaws -- Step Internal Flaws (logical errors, hallucinations, etc.) and Step-wise Flaws (overthinking, underthinking), which vary by sample. A natural approach would be to provide ground-truth labels to guide LLMs' reasoning. Contrary to intuition, we show that this yields no improvement in reasoning ability. We then propose CRAFT, a unified framework that mitigates both types of Step flaws, which builds a Reasoning Knowledge Graph (RKG) based on the consensus parts of multiple candidate traces, and synthesizes a high-quality trace through topological generation. Our approach improves label-prediction accuracy by 10+% on average, and consistently outperforms all baselines across both logical and mathematical reasoning benchmarks. Further, detailed benchmark evaluation proves that our method also improves the quality of LLMs' reasoning traces in multiple dimensions.