COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning

📄 arXiv: 2504.21850v2 📥 PDF

作者: Xindi Wu, Hee Seung Hwang, Polina Kirichenko, Esin Tureci, Olga Russakovsky

分类: cs.CV

发布日期: 2025-04-30 (更新: 2025-12-23)


💡 一句话要点

提出COMPACT,通过组合原子视觉能力进行高效多模态大模型微调。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉指令调优 多模态学习 数据合成 数据效率 原子视觉能力

📋 核心要点

  1. 现有VIT数据集构建方式忽略了样本的信息量,导致训练效率低下。
  2. COMPACT通过组合多个原子视觉能力,为每张图像生成更丰富的问题,提高样本复杂度。
  3. 实验表明,COMPACT能显著减少训练数据量,并在复杂基准测试中超越全量数据训练。

📝 摘要(中文)

视觉指令调优(VIT)数据集通常由随机抽样的图像-问题对构成,忽略了每个样本的信息量。最近的数据集选择方法表明,少量富含信息样本的数据集可以有效微调多模态大型语言模型。本文探讨了样本复杂度对信息数据选择的影响,并提出了COMPACT(组合原子到复杂视觉能力调优),一种通过在单个训练样本中组合多个原子视觉能力来扩展训练样本复杂度的VIT数据生成方案。具体而言,我们为每张图像合成丰富且信息量大的文本问题,从而显著减少有效视觉指令调优所需的训练样本数量。COMPACT在数据效率方面优于现有的数据缩减方法。当应用于LLAVA-665K VIT数据集时,COMPACT在八个多模态基准测试中,仅使用10%的数据预算即可达到完整VIT性能的100.2%(而最先进的方法仅为97.5%)。此外,在COMPACT数据上训练的模型在MM-Vet(+8.6%)和MMStar(+2.9%)等特别复杂的基准测试中,优于在全量数据上训练的模型。COMPACT提供了一种可扩展且高效的合成数据生成方案,以改进视觉语言任务。

🔬 方法详解

问题定义:论文旨在解决视觉指令调优(VIT)数据集中样本信息量不足导致训练效率低下的问题。现有方法依赖于随机抽样的图像-问题对,忽略了样本的质量,导致需要大量数据才能有效训练多模态大语言模型。

核心思路:论文的核心思路是通过增加训练样本的复杂度来提高数据效率。具体来说,不是简单地使用随机的图像-问题对,而是为每张图像合成包含多个原子视觉能力(例如,识别颜色、形状、位置等)的复杂问题。这样,每个样本都包含更多的信息,从而减少了训练所需的样本数量。

技术框架:COMPACT方法主要包括以下几个阶段:1) 定义原子视觉能力集合;2) 设计问题生成模板,将多个原子视觉能力组合成复杂问题;3) 使用问题生成模板为每张图像生成对应的复杂问题;4) 使用生成的数据集进行视觉指令调优。整体流程是先定义好原子能力,然后组合这些能力生成复杂的问题,最后用这些问题来训练模型。

关键创新:COMPACT的关键创新在于其数据合成策略,它不是简单地随机抽样图像-问题对,而是有目的地构建包含多个原子视觉能力的复杂问题。这种方法能够显著提高每个样本的信息量,从而提高数据效率。与现有数据缩减方法相比,COMPACT更注重样本的质量和复杂度,而不是简单地减少样本数量。

关键设计:COMPACT的关键设计包括:1) 原子视觉能力的定义:需要仔细选择和定义一组具有代表性的原子视觉能力,例如颜色识别、形状识别、位置关系判断等。2) 问题生成模板的设计:需要设计能够将多个原子视觉能力组合成自然语言问题的模板,例如“图中红色物体的形状是什么?它在蓝色物体的左边还是右边?”。3) 数据集的规模:虽然COMPACT旨在减少数据量,但仍然需要保证数据集的规模足够大,以覆盖各种视觉场景和问题类型。具体参数设置和损失函数等细节取决于所使用的多模态大语言模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,COMPACT在LLAVA-665K数据集上,仅使用10%的数据即可达到全量数据训练的100.2%性能,优于现有最佳方法的97.5%。此外,在MM-Vet和MMStar等复杂基准测试中,COMPACT训练的模型性能分别提升了8.6%和2.9%,表明COMPACT在处理复杂视觉语言任务方面具有显著优势。

🎯 应用场景

COMPACT方法可应用于各种视觉语言任务,例如图像描述、视觉问答、视觉推理等。该方法能够显著减少训练数据量,降低训练成本,并提高模型在复杂场景下的性能。在资源受限的环境下,COMPACT具有重要的应用价值,可以帮助研究人员和开发者更高效地训练多模态大语言模型。

📄 摘要(原文)

Visual instruction tuning (VIT) datasets are constructed from randomly sampled image-question pairs, without regard to the informativeness of each pair. Recent dataset selection methods have shown that a small fraction of such datasets enriched with informative samples can lead to efficient finetuning of Multimodal Large Language Models. In this work, we explore the impact of sample complexity on informative data curation and introduce COMPACT (COMPositional Atomic-to-complex Visual Capability Tuning), a VIT data recipe that scales training sample complexity by combining multiple atomic visual capabilities in a single training example. Concretely, we synthesize rich and informative text questions for each image, allowing us to significantly reduce the number of training examples required for effective visual instruction tuning. COMPACT demonstrates superior data efficiency compared to existing data reduction methods. When applied to the LLAVA-665K VIT dataset, COMPACT reduces the data budget by 90% while still achieving 100.2% of the full VIT performance (compared to only 97.5% by the state-of-the-art method) across eight multimodal benchmarks. Further, training on the COMPACT data outperforms training on the full-scale data on particularly complex benchmarks such as MM-Vet (+8.6%) and MMStar (+2.9%). COMPACT offers a scalable and efficient synthetic data generation recipe to improve on visual language tasks.