From Chains to Graphs: Self-Structured Reasoning for General-Domain LLMs
作者: Yingjian Chen, Haoran Liu, Yinhong Liu, Sherry T. Tong, Aosong Feng, Jinghui Lu, Juntao Zhang, Yusuke Iwasawa, Yutaka Matsuo, Irene Li
分类: cs.CL, cs.AI
发布日期: 2026-01-07
💡 一句话要点
提出自结构图推理(SGR)框架,提升LLM在开放域问答中的推理一致性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图推理 自结构化推理 大型语言模型 开放域问答 推理一致性
📋 核心要点
- 现有LLM推理方法通常是线性的,缺乏并行处理和整合多前提的能力,导致逻辑不一致。
- 论文提出自图推理(SGR)框架,让LLM显式地将推理过程表示为结构化图,提升推理一致性。
- 实验表明,SGR在多个QA基准上显著提升了推理一致性,并超越了部分先进模型。
📝 摘要(中文)
大型语言模型(LLMs)在开放域问答中展现出强大的推理能力,但其推理过程通常是线性的,并且常常在逻辑上不一致。与此相反,现实世界的推理需要整合多个前提并并行解决子问题。现有的方法,如思维链(CoT),以线性文本形式表达推理,这可能看起来连贯,但经常导致不一致的结论。最近的方法依赖于外部提供的图,并没有探索LLMs如何构建和使用它们自己的图结构化推理,尤其是在开放域QA中。为了填补这一空白,我们创新性地探索了LLMs在通用领域问答中的图结构化推理。我们提出了自图推理(SGR),一个使LLMs能够在生成最终答案之前将其推理过程显式地表示为结构化图的框架。我们进一步构建了一个图结构化推理数据集,该数据集将多个候选推理图合并为精炼的图结构,用于模型训练。在通用和专业领域的五个QA基准上的实验表明,SGR始终提高推理一致性,并且比基础模型提高了17.74%。使用SGR微调的LLaMA-3.3-70B模型与GPT-4o的性能相当,并且超过了Claude-3.5-Haiku,证明了图结构化推理的有效性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在开放域问答中推理过程的线性化和逻辑不一致问题。现有方法,如CoT,虽然能生成看似连贯的推理链,但由于缺乏对多前提的整合和并行子问题的解决,容易产生逻辑错误。此外,现有方法依赖外部提供的图结构,无法让LLM自主构建和利用图结构进行推理。
核心思路:论文的核心思路是让LLM能够自主地将推理过程表示为图结构,从而更好地整合信息、并行处理子问题,并提高推理的逻辑一致性。通过图结构,LLM可以显式地表达推理步骤之间的依赖关系和逻辑关系,从而避免线性推理中的信息丢失和逻辑跳跃。
技术框架:SGR框架包含以下主要阶段:1) LLM首先根据问题生成多个候选推理图,每个图代表一种可能的推理路径。2) 然后,SGR框架将这些候选图合并成一个精炼的图结构,该结构包含了所有候选推理路径中的关键信息和逻辑关系。3) 最后,LLM基于这个精炼的图结构生成最终答案。为了训练LLM生成高质量的推理图,论文还构建了一个图结构化推理数据集。
关键创新:SGR的关键创新在于它使LLM能够自主地构建和利用图结构进行推理,而无需依赖外部提供的图。这种自结构化的推理方式更符合人类的推理过程,并且能够更好地处理复杂的问题。此外,SGR框架还提出了一种将多个候选推理图合并成精炼图结构的方法,从而更好地整合信息和提高推理的鲁棒性。
关键设计:论文构建了一个图结构化推理数据集,用于训练LLM生成高质量的推理图。数据集的构建过程包括:1) 收集多个候选推理图,这些图可能来自不同的LLM或不同的推理方法。2) 将这些候选图合并成一个精炼的图结构,该结构包含了所有候选图中的关键信息和逻辑关系。3) 对精炼的图结构进行标注,以确保其逻辑正确性和完整性。在模型训练方面,论文使用了标准的Transformer架构,并采用交叉熵损失函数来优化模型。
📊 实验亮点
实验结果表明,SGR在五个QA基准上都取得了显著的性能提升,平均提升幅度为17.74%。特别是在一些需要复杂推理的基准上,SGR的提升更为明显。此外,使用SGR微调的LLaMA-3.3-70B模型与GPT-4o的性能相当,并且超过了Claude-3.5-Haiku,证明了图结构化推理的有效性。
🎯 应用场景
该研究成果可应用于各种需要复杂推理的场景,如智能客服、知识图谱问答、医疗诊断等。通过提升LLM的推理一致性和准确性,可以提高这些应用的可靠性和实用性。未来,该方法还可以扩展到其他领域,如代码生成、机器人控制等,从而实现更智能、更自主的AI系统。
📄 摘要(原文)
Large Language Models (LLMs) show strong reasoning ability in open-domain question answering, yet their reasoning processes are typically linear and often logically inconsistent. In contrast, real-world reasoning requires integrating multiple premises and solving subproblems in parallel. Existing methods, such as Chain-of-Thought (CoT), express reasoning in a linear textual form, which may appear coherent but frequently leads to inconsistent conclusions. Recent approaches rely on externally provided graphs and do not explore how LLMs can construct and use their own graph-structured reasoning, particularly in open-domain QA. To fill this gap, we novelly explore graph-structured reasoning of LLMs in general-domain question answering. We propose Self-Graph Reasoning (SGR), a framework that enables LLMs to explicitly represent their reasoning process as a structured graph before producing the final answer. We further construct a graph-structured reasoning dataset that merges multiple candidate reasoning graphs into refined graph structures for model training. Experiments on five QA benchmarks across both general and specialized domains show that SGR consistently improves reasoning consistency and yields a 17.74% gain over the base model. The LLaMA-3.3-70B model fine-tuned with SGR performs comparably to GPT-4o and surpasses Claude-3.5-Haiku, demonstrating the effectiveness of graph-structured reasoning.