Verify Before You Commit: Towards Faithful Reasoning in LLM Agents via Self-Auditing

📄 arXiv: 2604.08401v1 📥 PDF

作者: Wenhao Yuan, Chenchen Lin, Jian Chen, Jinfeng Xu, Xuehe Wang, Edith Cheuk Han Ngai

分类: cs.AI, cs.CL

发布日期: 2026-04-09

备注: Accepted by ACL2026 Main Conference


💡 一句话要点

提出SAVeR框架,通过自审计保证LLM Agent推理过程的忠实性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 推理忠实性 自审计 对抗审计 信念验证

📋 核心要点

  1. 现有LLM Agent推理过程易受逻辑和证据约束的违反,导致不实信念的传播和行为漂移。
  2. SAVeR框架通过在行动前对Agent内部信念状态进行验证,确保推理过程的忠实性。
  3. 实验表明,SAVeR在多个基准数据集上提高了推理忠实性,同时保持了良好的任务性能。

📝 摘要(中文)

大型语言模型(LLM)Agent中,推理轨迹被视为指导行为和更新记忆的可靠内部信念。然而,连贯的推理仍然可能违反逻辑或证据约束,导致不受支持的信念被重复存储并在决策步骤中传播,从而导致长期Agent系统中出现系统性的行为漂移。现有策略大多依赖于共识机制,将一致性与忠实性混为一谈。本文受到不忠实的中间推理轨迹的脆弱性的启发,提出了自审计验证推理(SAVeR),这是一种新颖的框架,在行动承诺之前强制对Agent内部信念状态进行验证,从而实现忠实的推理。具体而言,我们结构化地生成基于角色的多样化候选信念,以便在与忠实性相关的结构空间中进行选择。为了实现推理的忠实性,我们执行对抗性审计以定位违规行为,并通过可验证的接受标准下受约束引导的最小干预进行修复。在六个基准数据集上的大量实验表明,我们的方法在保持有竞争力的最终任务性能的同时,始终如一地提高了推理的忠实性。

🔬 方法详解

问题定义:现有LLM Agent在长期推理过程中,由于中间推理步骤可能出现不符合逻辑或证据约束的情况,导致错误信念的累积和传播,最终影响决策的准确性。现有的方法,例如共识机制,侧重于结果的一致性,而忽略了推理过程的忠实性,无法有效解决这一问题。

核心思路:SAVeR的核心思路是在Agent采取行动之前,对其内部的信念状态进行验证,确保其推理过程的每一步都符合逻辑和证据约束。通过这种方式,可以及早发现并纠正错误信念,避免其在后续推理中产生不良影响。

技术框架:SAVeR框架主要包含以下几个模块:1) 信念生成模块:基于角色扮演生成多样化的候选信念;2) 对抗审计模块:用于定位信念中的违规之处;3) 约束引导修复模块:在可验证的接受标准下,通过最小干预来修复信念;4) 信念选择模块:在与忠实性相关的结构空间中选择最合适的信念。整个流程是在Agent进行推理后,在采取行动前,对推理结果进行验证和修正,确保信念的忠实性。

关键创新:SAVeR的关键创新在于引入了自审计机制,Agent能够主动识别和纠正自身推理过程中的错误。与传统的共识机制不同,SAVeR关注的是推理过程的忠实性,而不是结果的一致性。此外,SAVeR还采用了对抗审计和约束引导修复等技术,能够有效地定位和修复信念中的违规之处。

关键设计:SAVeR在信念生成模块中,采用了基于角色扮演的方法,生成多样化的候选信念,以增加覆盖面。在对抗审计模块中,采用了特定的审计策略,例如检查逻辑一致性和证据支持。在约束引导修复模块中,采用了最小干预原则,尽量减少对原始推理过程的修改。具体的参数设置和损失函数等细节在论文中进行了详细描述,此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SAVeR框架在六个基准数据集上 consistently 提高了推理的忠实性,同时保持了有竞争力的最终任务性能。具体的性能提升数据未知,但论文强调了SAVeR在保证推理质量方面的有效性。SAVeR相较于其他基线方法,在推理忠实性方面取得了显著的提升。

🎯 应用场景

SAVeR框架可应用于需要高可靠性和可解释性的LLM Agent系统中,例如医疗诊断、金融分析、法律咨询等领域。通过确保推理过程的忠实性,可以提高Agent的决策质量,降低出错风险,并增强用户对Agent的信任。未来,该研究可以扩展到更复杂的推理场景,并与其他Agent技术相结合,构建更智能、更可靠的Agent系统。

📄 摘要(原文)

In large language model (LLM) agents, reasoning trajectories are treated as reliable internal beliefs for guiding actions and updating memory. However, coherent reasoning can still violate logical or evidential constraints, allowing unsupported beliefs repeatedly stored and propagated across decision steps, leading to systematic behavioral drift in long-horizon agentic systems. Most existing strategies rely on the consensus mechanism, conflating agreement with faithfulness. In this paper, inspired by the vulnerability of unfaithful intermediate reasoning trajectories, we propose \textbf{S}elf-\textbf{A}udited \textbf{Ve}rified \textbf{R}easoning (\textsc{SAVeR}), a novel framework that enforces verification over internal belief states within the agent before action commitment, achieving faithful reasoning. Concretely, we structurally generate persona-based diverse candidate beliefs for selection under a faithfulness-relevant structure space. To achieve reasoning faithfulness, we perform adversarial auditing to localize violations and repair through constraint-guided minimal interventions under verifiable acceptance criteria. Extensive experiments on six benchmark datasets demonstrate that our approach consistently improves reasoning faithfulness while preserving competitive end-task performance.