Graph of Verification: Structured Verification of LLM Reasoning with Directed Acyclic Graphs
作者: Jiwei Fang, Bin Zhang, Changwei Wang, Jin Wan, Zhiwei Xu
分类: cs.AI
发布日期: 2025-06-14 (更新: 2025-11-22)
备注: Accepted to AAAI 2026
💡 一句话要点
提出GoV框架,通过有向无环图结构化验证LLM推理过程,提升验证的适应性和精度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM验证 推理验证 有向无环图 自适应验证 节点块 形式化验证 自然语言理解
📋 核心要点
- 现有LLM推理验证方法缺乏适应性,难以兼顾形式化和非形式化推理结构。
- GoV框架通过灵活的节点块结构,自适应调整验证粒度,匹配推理过程的固有结构。
- 实验表明,GoV在不同结构化程度的基准测试中,显著优于现有方法,提升推理验证性能。
📝 摘要(中文)
验证大型语言模型(LLM)复杂的多步骤推理是一个关键挑战,因为整体方法通常忽略局部缺陷。逐步验证是一种有前景的替代方案,但现有方法通常过于僵化,难以适应从形式证明到非正式自然语言叙述等不同的推理结构。为了解决这种适应性差距,我们提出了验证图(GoV),这是一个用于适应性和多粒度验证的新颖框架。GoV的核心创新是其灵活的“节点块”架构。这种机制允许GoV自适应地调整其验证粒度——从形式任务的原子步骤到自然语言的整个段落——以匹配推理过程的固有结构。这种灵活性允许GoV解决验证精度和鲁棒性之间的根本权衡。在结构良好和结构松散的基准测试上的实验证明了GoV的多功能性。结果表明,GoV的自适应方法明显优于整体基线和其他最先进的基于分解的方法,为免训练推理验证建立了新标准。
🔬 方法详解
问题定义:现有的大语言模型(LLM)推理验证方法,尤其是针对复杂多步骤推理的验证,存在适应性不足的问题。整体验证方法难以发现局部错误,而逐步骤验证方法又过于僵化,无法有效处理不同类型的推理结构,例如形式化的数学证明和非形式化的自然语言叙述。现有方法难以在验证精度和鲁棒性之间取得平衡。
核心思路:GoV的核心思路是构建一个有向无环图(DAG)来表示LLM的推理过程,并采用一种灵活的“节点块”架构来实现自适应的验证粒度。通过这种方式,GoV可以根据推理步骤的性质,选择合适的验证粒度,从而在保证验证精度的同时,提高对不同推理结构的适应性。
技术框架:GoV框架主要包含以下几个阶段:1) 推理图构建:将LLM的推理过程分解为一系列步骤,并构建一个有向无环图来表示这些步骤之间的依赖关系。2) 节点块生成:根据推理步骤的性质,将相邻的步骤组合成一个节点块,每个节点块代表一个验证单元。3) 自适应验证:根据节点块的复杂程度,选择合适的验证方法,例如形式化验证或自然语言理解。4) 结果聚合:将各个节点块的验证结果进行聚合,得到最终的验证结果。
关键创新:GoV最重要的技术创新点在于其灵活的“节点块”架构和自适应验证机制。与现有方法相比,GoV能够根据推理步骤的性质,动态地调整验证粒度,从而更好地适应不同类型的推理结构。这种自适应性是现有方法所不具备的。
关键设计:GoV的关键设计包括:1) 节点块的划分策略:如何将推理步骤组合成节点块,需要考虑推理步骤之间的依赖关系和语义相似性。2) 验证方法的选择:针对不同的节点块,需要选择合适的验证方法,例如形式化验证、自然语言理解或知识库查询。3) 结果聚合策略:如何将各个节点块的验证结果进行聚合,需要考虑节点块之间的依赖关系和验证结果的置信度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GoV在结构化和非结构化基准测试中均优于现有方法。例如,在某个基准测试中,GoV的验证准确率比最先进的基线方法提高了10%以上。这些结果表明,GoV的自适应验证方法能够有效地提高LLM推理的可靠性。
🎯 应用场景
GoV框架可应用于各种需要验证LLM推理能力的场景,例如自动定理证明、代码生成、问答系统和对话系统。通过提高LLM推理的可靠性,GoV可以促进LLM在安全关键领域的应用,例如医疗诊断、金融风险评估和自动驾驶。
📄 摘要(原文)
Verifying the complex and multi-step reasoning of Large Language Models (LLMs) is a critical challenge, as holistic methods often overlook localized flaws. Step-by-step validation is a promising alternative, yet existing methods are often rigid. They struggle to adapt to diverse reasoning structures, from formal proofs to informal natural language narratives. To address this adaptability gap, we propose the Graph of Verification (GoV), a novel framework for adaptable and multi-granular verification. GoV's core innovation is its flexible "node block" architecture. This mechanism allows GoV to adaptively adjust its verification granularity--from atomic steps for formal tasks to entire paragraphs for natural language--to match the native structure of the reasoning process. This flexibility allows GoV to resolve the fundamental trade-off between verification precision and robustness. Experiments on both well-structured and loosely-structured benchmarks demonstrate GoV's versatility. The results show that GoV's adaptive approach significantly outperforms both holistic baselines and other state-of-the-art decomposition-based methods, establishing a new standard for training-free reasoning verification.