Sherlock: Self-Correcting Reasoning in Vision-Language Models
作者: Yi Ding, Ruqi Zhang
分类: cs.CV, cs.CL, cs.LG
发布日期: 2025-05-28 (更新: 2025-10-23)
备注: Published at NeurIPS 2025, 27 pages
💡 一句话要点
Sherlock:提出一种基于自校正的视觉-语言模型训练框架,提升复杂推理任务性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 自校正 推理 视觉扰动 偏好学习
📋 核心要点
- 现有视觉-语言模型在推理过程中容易出错,且依赖大量标注数据和精确验证器,泛化能力受限。
- Sherlock框架通过轨迹级别的自校正目标、视觉扰动偏好数据构建和动态偏好调整,提升模型自校正能力。
- Sherlock在多个基准测试中超越现有模型,例如LLaVA-CoT,Mulberry和LlamaV-o1,同时显著减少了标注数据需求。
📝 摘要(中文)
推理视觉-语言模型(VLMs)在复杂多模态任务上展现了良好的性能。然而,它们仍然面临着重大挑战:对推理错误高度敏感,需要大量的标注数据或精确的验证器,并且难以泛化到特定领域之外。为了解决这些限制,我们探索了自校正作为增强推理VLMs的策略。我们首先对推理VLMs的自校正能力进行了深入分析,并确定了关键差距。基于我们的发现,我们引入了Sherlock,一个自校正和自我改进的训练框架。Sherlock引入了轨迹级别的自校正目标,一种基于视觉扰动的偏好数据构建方法,以及用于偏好调整的动态$β$。一旦模型仅使用20k随机采样的标注数据获得自校正能力,它将继续在没有外部监督的情况下进行自我改进。基于Llama3.2-Vision-11B模型,Sherlock在八个基准测试中取得了显著成果,直接生成达到平均64.1的准确率,自校正后达到65.4。它优于LLaVA-CoT (63.2)、Mulberry (63.9)和LlamaV-o1 (63.4),同时使用的标注数据不到20%。
🔬 方法详解
问题定义:现有视觉-语言模型在复杂推理任务中表现出潜力,但对推理错误敏感,需要大量标注数据,且泛化能力不足。现有方法难以在有限数据下实现鲁棒且通用的推理能力。
核心思路:Sherlock的核心在于使模型具备自校正能力,即模型能够识别并纠正自身推理过程中的错误。通过引入轨迹级别的自校正目标,鼓励模型在推理过程中进行自我评估和修正。视觉扰动用于构建偏好数据,引导模型学习更鲁棒的推理策略。
技术框架:Sherlock是一个自校正和自我改进的训练框架,包含以下主要阶段:1) 初始训练:使用少量标注数据训练模型,使其具备初步的推理能力。2) 自校正训练:引入轨迹级别的自校正目标,鼓励模型在推理过程中进行自我评估和修正。3) 自我改进:在没有外部监督的情况下,模型通过自我生成的反馈进行持续学习和改进。
关键创新:Sherlock的关键创新在于:1) 轨迹级别的自校正目标:不同于传统的监督学习,Sherlock关注整个推理轨迹的正确性,而不仅仅是最终结果。2) 基于视觉扰动的偏好数据构建:通过对输入图像进行扰动,生成不同的推理路径,并根据路径的正确性构建偏好数据,引导模型学习更鲁棒的推理策略。3) 动态β调整:动态调整偏好调整的权重,平衡模型在不同推理路径上的表现。
关键设计:Sherlock使用Llama3.2-Vision-11B作为基础模型。轨迹级别的自校正目标通过比较不同推理路径的奖励来实现,奖励函数基于推理结果的正确性。视觉扰动通过对图像添加噪声或进行轻微的变换来实现。动态β根据模型在不同推理路径上的表现进行调整,以平衡模型的探索和利用。
🖼️ 关键图片
📊 实验亮点
Sherlock在八个基准测试中取得了显著成果,直接生成达到平均64.1的准确率,自校正后达到65.4。它优于LLaVA-CoT (63.2)、Mulberry (63.9)和LlamaV-o1 (63.4),同时使用的标注数据不到20%。这些结果表明Sherlock在提升推理准确性和降低数据依赖性方面具有显著优势。
🎯 应用场景
Sherlock框架可应用于各种需要复杂推理的视觉-语言任务,例如视觉问答、图像描述生成、视觉推理等。该研究有助于降低对大规模标注数据的依赖,提升模型在实际应用场景中的泛化能力,并推动视觉-语言模型在资源受限环境下的部署。
📄 摘要(原文)
Reasoning Vision-Language Models (VLMs) have shown promising performance on complex multimodal tasks. However, they still face significant challenges: they are highly sensitive to reasoning errors, require large volumes of annotated data or accurate verifiers, and struggle to generalize beyond specific domains. To address these limitations, we explore self-correction as a strategy to enhance reasoning VLMs. We first conduct an in-depth analysis of reasoning VLMs' self-correction abilities and identify key gaps. Based on our findings, we introduce Sherlock, a self-correction and self-improvement training framework. Sherlock introduces a trajectory-level self-correction objective, a preference data construction method based on visual perturbation, and a dynamic $β$ for preference tuning. Once the model acquires self-correction capabilities using only 20k randomly sampled annotated data, it continues to self-improve without external supervision. Built on the Llama3.2-Vision-11B model, Sherlock achieves remarkable results across eight benchmarks, reaching an average accuracy of 64.1 with direct generation and 65.4 after self-correction. It outperforms LLaVA-CoT (63.2), Mulberry (63.9), and LlamaV-o1 (63.4) while using less than 20% of the annotated data.