Bootstrapping Grounded Chain-of-Thought in Multimodal LLMs for Data-Efficient Model Adaptation

📄 arXiv: 2507.02859v1 📥 PDF

作者: Jiaer Xia, Bingkui Tong, Yuhang Zang, Rui Shao, Kaiyang Zhou

分类: cs.CV

发布日期: 2025-07-03

备注: Accepted by ICCV2025


💡 一句话要点

提出GCoT,通过注入定位信息提升MLLM在专业视觉任务上的数据效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 思维链 视觉 grounding 数据高效 专业视觉任务

📋 核心要点

  1. 现有MLLM在专业视觉任务上适应性差,主要原因是预训练数据与下游任务数据存在分布差异。
  2. 提出Grounded Chain-of-Thought (GCoT)方法,通过将定位信息注入CoT数据,提升推理的准确性。
  3. 在图表、表格等多种专业视觉任务上验证,GCoT在数据受限情况下显著优于微调和蒸馏方法。

📝 摘要(中文)

多模态大型语言模型(MLLM)在用自然语言解释图像方面表现出了卓越的能力。然而,在不使用大规模数据集进行重新训练的情况下,这些模型很难适应专门的视觉任务,例如图表理解。这个问题是由于预训练和下游数据集之间的不匹配造成的:预训练数据集主要集中在场景和对象上,但包含关于专门的非对象图像(如图表和表格)的信息有限。本文分享了一个有趣的发现,即使用思维链(CoT)推理数据训练MLLM可以促进模型在专门视觉任务中的适应,尤其是在数据有限的情况下。然而,我们发现从预训练的MLLM中提取的CoT数据中存在一个关键问题,即数据通常在推理步骤中包含多个事实错误。为了解决这个问题,我们提出了Grounded Chain-of-Thought (GCoT),这是一种简单的基于引导的方法,旨在将 grounding 信息(即边界框)注入到 CoT 数据中,本质上使推理步骤更忠实于输入图像。我们在五个专门的视觉任务上评估了我们的方法,这些任务涵盖了各种视觉格式,包括图表、表格、收据和报告。结果表明,在数据有限的情况下,我们的方法显著优于微调和知识蒸馏。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在数据量有限的情况下,难以适应特定专业视觉任务的问题,例如图表理解、表格识别等。现有方法,如直接微调或知识蒸馏,在数据量不足时效果不佳,且从预训练模型蒸馏出的CoT数据常包含事实性错误,影响模型性能。

核心思路:论文的核心思路是通过引导(bootstrapping)的方式,将图像中的定位信息(bounding boxes)融入到Chain-of-Thought (CoT)推理过程中,从而生成更准确、更可靠的Grounded Chain-of-Thought (GCoT)数据。这种方法旨在使推理过程与输入图像的内容更加一致,减少幻觉和错误。

技术框架:GCoT方法主要包含以下几个阶段:1) 使用预训练的MLLM生成初始的CoT数据;2) 利用目标检测模型或人工标注,为图像中的关键元素添加bounding box信息;3) 将bounding box信息注入到CoT推理步骤中,生成GCoT数据;4) 使用GCoT数据微调MLLM。整体流程是一个迭代的引导过程,通过不断注入 grounding 信息来提升CoT数据的质量。

关键创新:论文的关键创新在于提出了Grounded Chain-of-Thought (GCoT)的概念,将视觉 grounding 信息显式地融入到CoT推理过程中。与传统的CoT方法相比,GCoT能够生成更准确、更可靠的推理路径,从而提升MLLM在专业视觉任务上的性能。这种方法尤其适用于数据量有限的场景,能够有效缓解预训练数据与下游任务数据之间的分布差异。

关键设计:GCoT的关键设计在于如何将bounding box信息有效地融入到CoT推理步骤中。具体实现方式未知,论文中可能没有详细描述如何将bounding box信息整合到文本提示中,以及如何设计损失函数来鼓励模型利用这些 grounding 信息。这部分细节可能需要参考论文原文或相关代码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在五个专业视觉任务上,GCoT方法在数据受限的情况下显著优于传统的微调和知识蒸馏方法。具体的性能提升数据未知,但摘要中强调了“significantly improves upon fine-tuning and distillation”,说明GCoT在这些任务上取得了显著的性能提升。

🎯 应用场景

GCoT方法具有广泛的应用前景,可用于提升MLLM在各种专业视觉任务中的性能,例如:文档理解、财务报表分析、医学影像诊断、工业质检等。该方法能够有效降低对大规模标注数据的依赖,加速MLLM在实际场景中的部署和应用,具有重要的实际价值和商业潜力。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in interpreting images using natural language. However, without using large-scale datasets for retraining, these models are difficult to adapt to specialized vision tasks, e.g., chart understanding. This problem is caused by a mismatch between pre-training and downstream datasets: pre-training datasets primarily concentrate on scenes and objects but contain limited information about specialized, non-object images, such as charts and tables. In this paper, we share an interesting finding that training an MLLM with Chain-of-Thought (CoT) reasoning data can facilitate model adaptation in specialized vision tasks, especially under data-limited regimes. However, we identify a critical issue within CoT data distilled from pre-trained MLLMs, i.e., the data often contains multiple factual errors in the reasoning steps. To address the problem, we propose Grounded Chain-of-Thought (GCoT), a simple bootstrapping-based approach that aims to inject grounding information (i.e., bounding boxes) into CoT data, essentially making the reasoning steps more faithful to input images. We evaluate our approach on five specialized vision tasks, which cover a variety of visual formats including charts, tables, receipts, and reports. The results demonstrate that under data-limited regimes our approach significantly improves upon fine-tuning and distillation.