Sherlock: Self-Correcting Reasoning in Vision-Language Models

作者: Yi Ding, Ruqi Zhang

分类: cs.CV, cs.CL, cs.LG

发布日期: 2025-05-28 (更新: 2025-10-23)

备注: Published at NeurIPS 2025, 27 pages

💡 一句话要点

Sherlock：提出一种基于自校正的视觉-语言模型训练框架，提升复杂推理任务性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 自校正 推理 视觉扰动 偏好学习

📋 核心要点

现有视觉-语言模型在推理过程中容易出错，且依赖大量标注数据和精确验证器，泛化能力受限。
Sherlock框架通过轨迹级别的自校正目标、视觉扰动偏好数据构建和动态偏好调整，提升模型自校正能力。
Sherlock在多个基准测试中超越现有模型，例如LLaVA-CoT，Mulberry和LlamaV-o1，同时显著减少了标注数据需求。

📝 摘要（中文）

推理视觉-语言模型(VLMs)在复杂多模态任务上展现了良好的性能。然而，它们仍然面临着重大挑战：对推理错误高度敏感，需要大量的标注数据或精确的验证器，并且难以泛化到特定领域之外。为了解决这些限制，我们探索了自校正作为增强推理VLMs的策略。我们首先对推理VLMs的自校正能力进行了深入分析，并确定了关键差距。基于我们的发现，我们引入了Sherlock，一个自校正和自我改进的训练框架。Sherlock引入了轨迹级别的自校正目标，一种基于视觉扰动的偏好数据构建方法，以及用于偏好调整的动态$β$。一旦模型仅使用20k随机采样的标注数据获得自校正能力，它将继续在没有外部监督的情况下进行自我改进。基于Llama3.2-Vision-11B模型，Sherlock在八个基准测试中取得了显著成果，直接生成达到平均64.1的准确率，自校正后达到65.4。它优于LLaVA-CoT (63.2)、Mulberry (63.9)和LlamaV-o1 (63.4)，同时使用的标注数据不到20%。

🔬 方法详解

问题定义：现有视觉-语言模型在复杂推理任务中表现出潜力，但对推理错误敏感，需要大量标注数据，且泛化能力不足。现有方法难以在有限数据下实现鲁棒且通用的推理能力。

核心思路：Sherlock的核心在于使模型具备自校正能力，即模型能够识别并纠正自身推理过程中的错误。通过引入轨迹级别的自校正目标，鼓励模型在推理过程中进行自我评估和修正。视觉扰动用于构建偏好数据，引导模型学习更鲁棒的推理策略。

技术框架：Sherlock是一个自校正和自我改进的训练框架，包含以下主要阶段：1) 初始训练：使用少量标注数据训练模型，使其具备初步的推理能力。2) 自校正训练：引入轨迹级别的自校正目标，鼓励模型在推理过程中进行自我评估和修正。3) 自我改进：在没有外部监督的情况下，模型通过自我生成的反馈进行持续学习和改进。

关键创新：Sherlock的关键创新在于：1) 轨迹级别的自校正目标：不同于传统的监督学习，Sherlock关注整个推理轨迹的正确性，而不仅仅是最终结果。2) 基于视觉扰动的偏好数据构建：通过对输入图像进行扰动，生成不同的推理路径，并根据路径的正确性构建偏好数据，引导模型学习更鲁棒的推理策略。3) 动态β调整：动态调整偏好调整的权重，平衡模型在不同推理路径上的表现。

关键设计：Sherlock使用Llama3.2-Vision-11B作为基础模型。轨迹级别的自校正目标通过比较不同推理路径的奖励来实现，奖励函数基于推理结果的正确性。视觉扰动通过对图像添加噪声或进行轻微的变换来实现。动态β根据模型在不同推理路径上的表现进行调整，以平衡模型的探索和利用。

🖼️ 关键图片

📊 实验亮点

Sherlock在八个基准测试中取得了显著成果，直接生成达到平均64.1的准确率，自校正后达到65.4。它优于LLaVA-CoT (63.2)、Mulberry (63.9)和LlamaV-o1 (63.4)，同时使用的标注数据不到20%。这些结果表明Sherlock在提升推理准确性和降低数据依赖性方面具有显著优势。

🎯 应用场景

Sherlock框架可应用于各种需要复杂推理的视觉-语言任务，例如视觉问答、图像描述生成、视觉推理等。该研究有助于降低对大规模标注数据的依赖，提升模型在实际应用场景中的泛化能力，并推动视觉-语言模型在资源受限环境下的部署。

📄 摘要（原文）

Reasoning Vision-Language Models (VLMs) have shown promising performance on complex multimodal tasks. However, they still face significant challenges: they are highly sensitive to reasoning errors, require large volumes of annotated data or accurate verifiers, and struggle to generalize beyond specific domains. To address these limitations, we explore self-correction as a strategy to enhance reasoning VLMs. We first conduct an in-depth analysis of reasoning VLMs' self-correction abilities and identify key gaps. Based on our findings, we introduce Sherlock, a self-correction and self-improvement training framework. Sherlock introduces a trajectory-level self-correction objective, a preference data construction method based on visual perturbation, and a dynamic $β$ for preference tuning. Once the model acquires self-correction capabilities using only 20k randomly sampled annotated data, it continues to self-improve without external supervision. Built on the Llama3.2-Vision-11B model, Sherlock achieves remarkable results across eight benchmarks, reaching an average accuracy of 64.1 with direct generation and 65.4 after self-correction. It outperforms LLaVA-CoT (63.2), Mulberry (63.9), and LlamaV-o1 (63.4) while using less than 20% of the annotated data.

Sherlock: Self-Correcting Reasoning in Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理