HoneyBee: Data Recipes for Vision-Language Reasoners

作者: Hritik Bansal, Devandra Singh Sachan, Kai-Wei Chang, Aditya Grover, Gargi Ghosh, Wen-tau Yih, Ramakanth Pasunuru

分类: cs.CV, cs.LG

发布日期: 2025-10-14

备注: 32 pages

💡 一句话要点

HoneyBee：针对视觉-语言推理器的数据配方，提升模型性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言推理 数据集构建 思维链 数据增强 模型训练 知识图谱 多模态学习

📋 核心要点

现有视觉-语言模型推理数据集构建原则不明确，导致模型性能提升受限，缺乏系统性的数据管理方法。
通过分析上下文来源、数据干预和数据规模扩展，揭示了影响视觉-语言推理能力的关键因素。
构建了大规模高质量的思维链推理数据集HoneyBee，并提出了测试时缩放策略，显著提升了模型性能。

📝 摘要（中文）

视觉-语言模型（VLM）在推理任务中表现出色，但构建高性能视觉-语言推理训练数据集的原则尚不明确。本文提出几种数据管理方法，通过控制训练和评估设置，研究它们对视觉-语言推理能力的影响。分析了上下文（图像和问题对）来源的影响，实施了有针对性的数据干预，并探索了图像、问题和思维链（CoT）解决方案的扩展。研究表明：（a）上下文来源策略显著影响VLM性能；（b）来自图像标题的辅助信号和仅文本推理的加入可带来显著收益；（c）扩展所有数据维度（例如，每个图像的唯一问题和每个图像-问题对的唯一CoT）始终提高推理能力。基于这些见解，引入了HoneyBee，一个大规模、高质量的CoT推理数据集，包含250万个示例，由35万个图像-问题对组成。使用HoneyBee训练的VLM在各种模型尺寸上均优于最先进的模型。例如，一个使用HoneyBee训练的3B参数VLM在MathVerse上优于SOTA模型和基础模型分别7.8%和24.8%。此外，提出了一种测试时缩放策略，可在不牺牲准确性的前提下将解码成本降低73%。总而言之，这项工作提出了改进的视觉-语言推理数据集管理研究策略。

🔬 方法详解

问题定义：现有视觉-语言推理模型依赖于大规模数据集进行训练，但如何有效地构建这些数据集，以最大化模型的推理能力，仍然是一个开放的问题。现有的数据集构建方法缺乏系统性，导致模型在复杂推理任务上的表现不佳。

核心思路：本文的核心思路是通过系统地研究数据来源、数据增强和数据规模对视觉-语言推理模型性能的影响，从而找到最佳的数据配方。通过有针对性的数据干预，例如引入图像标题和文本推理，以及扩展数据规模，来提升模型的推理能力。

技术框架：本文的研究框架主要包括三个方面：上下文来源分析、数据干预和数据规模扩展。首先，分析不同上下文来源对模型性能的影响。其次，实施数据干预，例如添加图像标题和文本推理。最后，探索扩展图像、问题和思维链解决方案对模型性能的影响。基于这些研究，构建了大规模高质量的HoneyBee数据集。

关键创新：本文的关键创新在于系统地研究了数据构建策略对视觉-语言推理模型性能的影响，并提出了有效的数据干预方法和数据规模扩展策略。此外，构建了大规模高质量的HoneyBee数据集，为视觉-语言推理研究提供了新的资源。

关键设计：在数据干预方面，引入了图像标题作为辅助信号，帮助模型更好地理解图像内容。在数据规模扩展方面，增加了每个图像的唯一问题数量和每个图像-问题对的唯一思维链数量。此外，还提出了一种测试时缩放策略，通过减少解码成本来提高推理效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用HoneyBee数据集训练的3B参数VLM在MathVerse数据集上，相比于SOTA模型和基线模型分别提升了7.8%和24.8%。此外，提出的测试时缩放策略在不牺牲准确性的前提下，将解码成本降低了73%。

🎯 应用场景

该研究成果可应用于智能问答系统、图像理解、机器人导航等领域。通过优化视觉-语言推理数据集的构建方法，可以提升模型的推理能力和泛化性能，从而实现更智能、更可靠的应用。

📄 摘要（原文）

Recent advances in vision-language models (VLMs) have made them highly effective at reasoning tasks. However, the principles underlying the construction of performant VL reasoning training datasets remain poorly understood. In this work, we introduce several data curation approaches and study their impacts on VL reasoning capabilities by carefully controlling training and evaluation setups. We analyze the effects of context (image and question pair) sources, implement targeted data interventions, and explore scaling up images, questions, and chain-of-thought (CoT) solutions. Our findings reveal that (a) context source strategies significantly affect VLM performance, (b) interventions such as auxiliary signals from image captions and the inclusion of text-only reasoning yield substantial gains, and (c) scaling all data dimensions (e.g., unique questions per image and unique CoTs per image-question pair) consistently improves reasoning capability. Motivated by these insights, we introduce HoneyBee, a large-scale, high-quality CoT reasoning dataset with 2.5M examples consisting 350K image-question pairs. VLMs trained with HoneyBee outperform state-of-the-art models across model sizes. For instance, a HoneyBee-trained VLM with 3B parameters outperforms the SOTA model and the base model by 7.8% and 24.8%, respectively, on MathVerse. Furthermore, we propose a test-time scaling strategy that reduces decoding cost by 73% without sacrificing accuracy. Overall, this work presents improved strategies for VL reasoning dataset curation research.

HoneyBee: Data Recipes for Vision-Language Reasoners

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理