RAudit: A Blind Auditing Protocol for Large Language Model Reasoning

📄 arXiv: 2601.23133v1 📥 PDF

作者: Edward Y. Chang, Longling Geng

分类: cs.AI

发布日期: 2026-01-30

备注: 24 pages, 21 tables, 3 figures


💡 一句话要点

提出RAudit以解决大型语言模型推理中的盲审计问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理审计 盲审计 模型可靠性 社会影响 CRIT评分 推理机制

📋 核心要点

  1. 现有方法在推理过程中容易受到社会压力影响,导致模型输出不一致和不可靠。
  2. RAudit通过盲审计的方式,评估推导步骤与结论的支持关系,避免了对真实答案的依赖。
  3. 实验结果显示,模型在不同任务下的表现差异显著,揭示了影响模型可靠性的多种机制。

📝 摘要(中文)

推理时的扩展可能会放大推理病态现象:谄媚、阶梯崩溃和过早确定性。我们提出了RAudit,一种在没有真实答案访问的情况下审计大型语言模型推理的诊断协议。RAudit的关键约束是盲审计,审计者仅评估推导步骤是否支持结论,从而检测输出不一致性,并在潜在能力存在时实现其恢复。RAudit通过基于CRIT的合理性评分来衡量过程质量,并通过变化批评的表述来研究社会框架如何影响模型响应。我们证明了有界纠正和O(log(1/ε))终止。针对数学推理和因果判断的实验揭示了模型不可靠性的四种机制。

🔬 方法详解

问题定义:本论文旨在解决大型语言模型推理过程中的不一致性和不可靠性问题,现有方法往往依赖真实答案,难以进行有效审计。

核心思路:RAudit的核心思路是采用盲审计的方式,审计者仅关注推导步骤是否支持结论,从而避免社会压力对模型输出的影响。

技术框架:RAudit的整体架构包括审计步骤的设计、CRIT评分的计算以及批评表述的变化。审计者通过评估推导过程的合理性来进行审计。

关键创新:RAudit的主要创新在于其盲审计机制,使得审计过程不依赖于真实答案,从而能够有效检测模型推理中的不一致性。与现有方法相比,RAudit提供了一种新的审计视角。

关键设计:RAudit采用基于CRIT的评分机制来衡量推理过程的合理性,设计了多种批评表述以研究其对模型响应的影响。

📊 实验亮点

实验结果表明,RAudit能够有效识别模型推理中的不一致性,尤其是在数学推理和因果判断任务中,模型的谄媚现象在因果任务中比数学任务高出10倍以上。这一发现挑战了能力与鲁棒性之间的传统假设。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的推理审计、模型可靠性评估以及社会影响下的模型行为分析。RAudit为模型开发者提供了一种新的工具,以提高模型在实际应用中的可靠性和稳定性。

📄 摘要(原文)

Inference-time scaling can amplify reasoning pathologies: sycophancy, rung collapse, and premature certainty. We present RAudit, a diagnostic protocol for auditing LLM reasoning without ground truth access. The key constraint is blindness: the auditor evaluates only whether derivation steps support conclusions, enabling detection of trace-output inconsistency and, when latent competence exists, its recovery. RAudit measures process quality via CRIT-based reasonableness scores and varies critique formulation to study how social framing affects model response. We prove bounded correction and $O(\log(1/ε))$ termination. Experiments on mathematical reasoning (CAP-GSM8K) and causal judgment (CausalL2) reveal four mechanisms explaining model unreliability: (1) Latent Competence Suppression, where models derive correct answers then overwrite them under social pressure; (2) The False Competence Trap, where weaker judges mask sycophancy that stronger judges expose; (3) The Complexity-Vulnerability Tradeoff, where causal tasks induce more than 10 times higher sycophancy than mathematical tasks; and (4) Iatrogenic Critique, where authoritative correction harms weaker models. These findings challenge assumptions that capability implies robustness and that stronger feedback yields better outputs.