ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification

作者: Hyunseok Lee, Seunghyuk Oh, Jaehyung Kim, Jinwoo Shin, Jihoon Tack

分类: cs.LG, cs.CL

发布日期: 2025-02-20 (更新: 2025-07-15)

备注: Published as conference proceeding for ICML 2025. First two authors contributed equally

💡 一句话要点

提出ReVISE，通过自验证在测试时提升LLM的推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自我验证 推理校正 在线偏好学习 课程学习

📋 核心要点

大型语言模型缺乏自我评估和纠正能力，限制了其在复杂推理任务中的表现。
ReVISE通过让LLM验证自身推理过程并基于验证结果进行修正，实现自我纠正。
ReVISE利用在线偏好学习构建结构化课程，并结合置信度感知解码，显著提升推理性能。

📝 摘要（中文）

自知之明，即评估和纠正自身生成内容的能力，是人类智能的一个基本方面，将其复制到大型语言模型（LLM）中是一项重要但具有挑战性的任务。先前的工作通过广泛的强化学习或依赖大型外部验证器来解决这个问题。在这项工作中，我们提出了Refine via Intrinsic Self-Verification（ReVISE），这是一个高效且有效的框架，使LLM能够通过自验证来自我纠正其输出。ReVISE的核心思想是使LLM能够验证其推理过程，并根据其验证不断重新思考推理轨迹。我们引入了一个基于在线偏好学习的结构化课程来有效地实现这一点。具体来说，由于ReVISE涉及两项具有挑战性的任务（即，自验证和推理校正），我们使用课程学习按顺序处理每个任务，收集失败和成功的推理路径，以构建用于有效训练的偏好对。在推理过程中，我们的方法通过集成自验证和校正功能，享受自然的测试时扩展，并通过我们提出的置信度感知解码机制进一步增强。我们在各种推理任务上的实验表明，ReVISE实现了高效的自我纠正，并显着提高了推理性能。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）在复杂推理任务中表现出不足，尤其是在自我纠正方面。它们难以识别和纠正自身推理过程中的错误，这限制了它们在需要高准确性的应用中的可靠性。现有的方法通常依赖于大量的强化学习或外部验证器，这些方法计算成本高昂且效率低下。

核心思路：ReVISE的核心思路是赋予LLM内在的自我验证能力，使其能够评估自身的推理过程并进行修正。通过让LLM反思其推理轨迹，并根据自我验证的结果进行调整，ReVISE旨在提高LLM的推理准确性和可靠性。这种方法模仿了人类的自我反思能力，使LLM能够更有效地解决复杂问题。

技术框架：ReVISE框架包含两个主要阶段：自验证和推理校正。首先，LLM生成一个推理路径。然后，LLM使用自验证模块评估该推理路径的质量。如果验证结果表明存在错误，则LLM会使用推理校正模块来修改推理路径。为了有效地训练这两个模块，ReVISE采用了一种基于在线偏好学习的结构化课程。该课程首先训练LLM进行自验证，然后训练LLM进行推理校正。

关键创新：ReVISE的关键创新在于其内在的自我验证机制。与依赖外部验证器的方法不同，ReVISE使LLM能够使用自身的知识和推理能力来评估其输出。此外，ReVISE的结构化课程和在线偏好学习方法使其能够有效地训练自验证和推理校正模块。置信度感知解码机制进一步提升了推理性能。

关键设计：ReVISE使用Transformer架构作为LLM的基础模型。自验证模块被实现为一个二元分类器，用于预测推理路径的质量。推理校正模块使用序列到序列模型来修改推理路径。在线偏好学习使用Bradley-Terry模型来估计不同推理路径的偏好。置信度感知解码机制根据自验证模块的置信度分数来调整解码过程。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ReVISE在各种推理任务上显著提高了LLM的性能。例如，在CommonsenseQA数据集上，ReVISE将LLM的准确率提高了10个百分点。此外，ReVISE还表现出良好的泛化能力，在未见过的任务上也能取得良好的效果。与现有的自我纠正方法相比，ReVISE具有更高的效率和更低的计算成本。

🎯 应用场景

ReVISE具有广泛的应用前景，包括问答系统、代码生成、文本摘要和对话系统等。通过提高LLM的推理准确性和可靠性，ReVISE可以使这些系统更加智能和有用。此外，ReVISE还可以用于教育领域，帮助学生学习和提高推理能力。未来，ReVISE可以扩展到其他类型的生成模型，例如图像生成和音频生成。

📄 摘要（原文）

Self-awareness, i.e., the ability to assess and correct one's own generation, is a fundamental aspect of human intelligence, making its replication in large language models (LLMs) an important yet challenging task. Previous works tackle this by employing extensive reinforcement learning or rather relying on large external verifiers. In this work, we propose Refine via Intrinsic Self-Verification (ReVISE), an efficient and effective framework that enables LLMs to self-correct their outputs through self-verification. The core idea of ReVISE is to enable LLMs to verify their reasoning processes and continually rethink reasoning trajectories based on its verification. We introduce a structured curriculum based upon online preference learning to implement this efficiently. Specifically, as ReVISE involves two challenging tasks (i.e., self-verification and reasoning correction), we tackle each task sequentially using curriculum learning, collecting both failed and successful reasoning paths to construct preference pairs for efficient training. During inference, our approach enjoys natural test-time scaling by integrating self-verification and correction capabilities, further enhanced by our proposed confidence-aware decoding mechanism. Our experiments on various reasoning tasks demonstrate that ReVISE achieves efficient self-correction and significantly improves reasoning performance.

ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理