Multi-chain Graph Refinement and Selection for Reliable Reasoning in Large Language Models
作者: Yujiao Yang, Jing Lian, Linhui Li
分类: cs.CL, cs.AI
发布日期: 2025-11-28
💡 一句话要点
提出多链图精炼与选择(MGRS)框架,提升大语言模型推理可靠性与效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 推理增强 思维图 多链推理 自验证 交叉验证 可靠性 计算效率
📋 核心要点
- 现有ToT和GoT等方法在LLM推理中存在推理路径多样性不足和搜索冗余的问题。
- MGRS框架通过生成多条推理链,并利用自验证和交叉验证进行答案精炼,构建推理关系图。
- 实验表明,MGRS在多个基准测试中显著提升了推理准确率和计算效率,尤其在24点游戏中表现突出。
📝 摘要(中文)
大型语言模型(LLM)复杂的推理能力是其在实际应用中的关键瓶颈。诸如思维树(ToT)和思维图(GoT)等测试时扩展方法通过引入中间推理结构、树搜索或基于图的探索机制来增强推理能力。然而,它们的推理策略存在多样性有限、搜索分支冗余以及异构推理路径之间集成和纠错不足的问题。为了解决这些限制,我们提出了一种名为多链图精炼与选择(MGRS)的新型推理框架,该框架首先为给定的问题生成多个不同的推理轨迹,使用复合的自验证和交叉验证策略来精炼候选答案,然后构建推理关系图并估计中间节点的成功率,最后计算累积成功率以选择最可靠的答案和相应的推理轨迹。实验结果表明,MGRS显著提高了推理增强方法的推理能力和计算效率。在涵盖四个不同任务的六个基准数据集上,MGRS实现了平均82.9%的准确率,明显优于最先进的基线方法2.1%。值得注意的是,在24点游戏中,MGRS首次实现了100%的准确率,同时比领先的思维森林框架加速了13.6倍。
🔬 方法详解
问题定义:现有基于树或图的LLM推理方法,如ToT和GoT,在探索推理路径时存在多样性不足、搜索分支冗余的问题,并且缺乏有效的异构推理路径集成和错误纠正机制,导致推理的可靠性和效率受限。论文旨在解决这些问题,提升LLM推理的准确性和速度。
核心思路:论文的核心思路是生成多个不同的推理轨迹(多链),然后通过自验证和交叉验证来精炼这些轨迹上的候选答案,并构建一个推理关系图来评估每个推理步骤的可靠性。最终,选择具有最高累积成功率的推理路径作为最终答案。这种方法旨在提高推理的多样性,减少冗余搜索,并有效整合不同推理路径的信息。
技术框架:MGRS框架包含以下主要阶段: 1. 多链生成:为给定的问题生成多个不同的推理轨迹。 2. 答案精炼:使用自验证和交叉验证策略来评估和精炼每个推理轨迹上的候选答案。 3. 推理关系图构建:基于精炼后的答案,构建一个推理关系图,其中节点代表中间推理步骤,边代表推理关系。 4. 成功率估计:估计推理关系图中每个节点的成功率,反映该步骤的可靠性。 5. 路径选择:计算每个推理路径的累积成功率,并选择具有最高累积成功率的路径作为最终答案。
关键创新:MGRS的关键创新在于: 1. 多链生成:通过生成多个不同的推理轨迹,增加了推理的多样性。 2. 复合验证策略:采用自验证和交叉验证相结合的方式,更有效地评估和精炼候选答案。 3. 推理关系图:通过构建推理关系图,可以更好地理解推理过程中的依赖关系和可靠性。 4. 累积成功率:使用累积成功率来选择最佳推理路径,考虑了整个推理过程的可靠性。
关键设计: * 自验证:使用LLM自身对生成的答案进行评估,判断其是否合理。 * 交叉验证:使用不同的LLM或不同的提示词对同一推理步骤进行验证,提高验证的可靠性。 * 成功率估计:可以使用LLM对每个节点的正确性进行打分,或者使用其他指标来衡量。 * 累积成功率计算:可以采用不同的加权方式,例如对更重要的推理步骤赋予更高的权重。
📊 实验亮点
MGRS在六个基准数据集上取得了显著的性能提升,平均准确率达到82.9%,超过了现有最佳方法2.1%。尤其在24点游戏中,MGRS首次实现了100%的准确率,并且比Forest of Thoughts框架加速了13.6倍。这些结果表明MGRS在提高推理能力和计算效率方面具有显著优势。
🎯 应用场景
MGRS框架可应用于各种需要复杂推理的场景,例如数学问题求解、逻辑推理、代码生成和自然语言理解等。该框架能够提高LLM在这些任务中的准确性和可靠性,具有广泛的应用前景。未来,可以进一步探索MGRS在机器人控制、决策支持等领域的应用。
📄 摘要(原文)
The complex reasoning ability of Large Language Models (LLMs) poses a critical bottleneck for their practical applications. Test-time expansion methods such as Tree-of-Thought (ToT) and Graph-of-Thought (GoT) enhance reasoning by introducing intermediate reasoning structures, tree search, or graph-based exploration mechanisms. However, their reasoning strategies suffer from limited diversity, redundant search branches, and inadequate integration and error correction across heterogeneous reasoning paths. To address these limitations, we propose a novel reasoning framework called Multi-chain Graph Refinement & Selection (MGRS), which first generates multiple diverse reasoning trajectories for a given problem, refines candidate responses using a composite self- and cross-verification strategy, then constructs a reasoning relation graph and estimates the success rate of intermediate nodes, and finally computes cumulative success rates to select the most reliable answer and corresponding reasoning trajectory. Experimental results demonstrate that MGRS significantly advances both the reasoning capability and computational efficiency of reasoning enhancement methods. Across six benchmark datasets spanning four distinct tasks, MGRS achieves an average accuracy of 82.9%, outperforming state-of-the-art baselines by a clear margin of 2.1%. Remarkably, on the 24-point game, MGRS attains 100% accuracy for the first time, while delivering a 13.6x speed-up compared to the leading Forest of Thoughts framework.