Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning

作者: Ang Li, Charles Wang, Deqing Fu, Kaiyu Yue, Zikui Cai, Wang Bill Zhu, Ollie Liu, Peng Guo, Willie Neiswanger, Furong Huang, Tom Goldstein, Micah Goldblum

分类: cs.CV, cs.CL, cs.LG

发布日期: 2025-07-22 (更新: 2025-10-09)

备注: dataset link: https://huggingface.co/datasets/multimodal-reasoning-lab/Zebra-CoT

💡 一句话要点

提出Zebra-CoT数据集，用于提升视觉语言模型在复杂推理任务中的表现

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言推理 多模态学习 数据集构建 链式思考 视觉CoT

📋 核心要点

现有的视觉链式思考（Visual CoT）模型性能不佳，阻碍了强化学习的应用，并且缺乏高质量的视觉CoT训练数据。
Zebra-CoT数据集通过构建包含交错文本-图像推理轨迹的大规模数据集，为视觉语言模型的训练提供高质量数据。
在Zebra-CoT上微调Anole-7B和Bagel-7B模型，在测试集和标准VLM基准上均取得了显著的性能提升，验证了数据集的有效性。

📝 摘要（中文）

本文提出了一个名为Zebra-CoT的大规模多样化数据集，包含182,384个样本，用于训练具有逻辑连贯性的交错文本-图像推理轨迹。该数据集侧重于四类特别适合草图绘制或视觉推理的任务，包括几何、物理和算法等科学问题；视觉搜索和拼图等2D视觉推理任务；3D多跳推理、具身和机器人规划等3D推理任务；以及视觉逻辑问题和象棋等策略游戏。在Zebra-CoT训练语料库上微调Anole-7B模型，在测试集准确率上提高了+12%，并在标准VLM基准评估中获得了高达+13%的性能提升。微调Bagel-7B模型可以生成高质量的交错视觉推理链，突显了Zebra-CoT在开发多模态推理能力方面的有效性。该数据集和模型已开源，以支持视觉CoT的开发和评估。

🔬 方法详解

问题定义：现有的视觉语言模型在解决复杂推理问题时，缺乏有效的视觉辅助手段，例如草图或图表。现有的Visual CoT模型性能不足，难以通过强化学习进行优化，并且缺乏高质量的训练数据来提升模型性能。

核心思路：论文的核心思路是构建一个大规模、多样化的数据集Zebra-CoT，其中包含交错的文本和图像推理轨迹。通过提供高质量的训练数据，提升视觉语言模型在复杂推理任务中的表现。数据集的设计侧重于需要视觉辅助的推理任务，例如科学问题、2D/3D视觉推理、视觉逻辑和策略游戏。

技术框架：Zebra-CoT数据集包含182,384个样本，涵盖四个主要任务类别：科学问题（几何、物理、算法）、2D视觉推理（视觉搜索、拼图）、3D推理（多跳推理、具身和机器人规划）以及视觉逻辑和策略游戏（象棋）。数据集的构建过程旨在生成逻辑连贯的交错文本-图像推理链，模拟人类解决问题的过程。

关键创新：Zebra-CoT数据集的关键创新在于其大规模、多样性和高质量的交错文本-图像推理轨迹。与现有数据集相比，Zebra-CoT更侧重于需要视觉辅助的复杂推理任务，并提供了更丰富的推理步骤和视觉信息。这种设计使得模型能够学习到更有效的视觉推理策略。

关键设计：数据集的构建过程中，针对不同的任务类别，采用了不同的数据生成方法。例如，对于科学问题，可能需要结合物理引擎或几何计算工具来生成图像和推理步骤；对于视觉逻辑和策略游戏，可能需要使用游戏引擎或规则引擎来生成游戏状态和推理过程。具体的参数设置、损失函数和网络结构取决于所使用的视觉语言模型（例如Anole-7B和Bagel-7B）及其训练目标。

🖼️ 关键图片

📊 实验亮点

在Zebra-CoT数据集上微调Anole-7B模型，在测试集准确率上取得了+12%的提升，并在标准VLM基准评估中获得了高达+13%的性能提升。微调Bagel-7B模型后，模型能够生成高质量的交错视觉推理链，表明Zebra-CoT数据集能够有效提升视觉语言模型的推理能力。

🎯 应用场景

该研究成果可应用于多个领域，例如智能教育（辅助学生理解科学概念）、机器人导航（帮助机器人进行环境理解和路径规划）、以及游戏AI（提升游戏AI的策略推理能力）。Zebra-CoT数据集的开源将促进视觉语言模型在复杂推理任务中的研究和应用，推动相关技术的发展。

📄 摘要（原文）

Humans often use visual aids, for example diagrams or sketches, when solving complex problems. Training multimodal models to do the same, known as Visual Chain of Thought (Visual CoT), is challenging due to: (1) poor off-the-shelf visual CoT performance, which hinders reinforcement learning, and (2) the lack of high-quality visual CoT training data. We introduce $\textbf{Zebra-CoT}$, a diverse large-scale dataset with 182,384 samples, containing logically coherent interleaved text-image reasoning traces. We focus on four categories of tasks where sketching or visual reasoning is especially natural, spanning scientific questions such as geometry, physics, and algorithms; 2D visual reasoning tasks like visual search and jigsaw puzzles; 3D reasoning tasks including 3D multi-hop inference, embodied and robot planning; visual logic problems and strategic games like chess. Fine-tuning the Anole-7B model on the Zebra-CoT training corpus results in an improvement of +12% in our test-set accuracy and yields up to +13% performance gain on standard VLM benchmark evaluations. Fine-tuning Bagel-7B yields a model that generates high-quality interleaved visual reasoning chains, underscoring Zebra-CoT's effectiveness for developing multimodal reasoning abilities. We open-source our dataset and models to support development and evaluation of visual CoT.

Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理