Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents
作者: Zhenyu Liu, Yunxin Li, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang
分类: cs.CL
发布日期: 2025-02-27
备注: 15 pages, 7 figures
🔗 代码/项目: GITHUB
💡 一句话要点
ViSA:基于智能体协作的视觉中心数据选择方法,提升多模态大模型性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 数据选择 视觉中心 智能体协作 图像质量评估
📋 核心要点
- 现有MLLM训练数据集存在图像质量差、指令与图像不匹配等问题,导致训练效率低下,模型性能提升受限。
- ViSA方法通过视觉智能体协作量化图像信息,并以视觉为中心评估指令质量,从而筛选高质量数据。
- 实验结果表明,ViSA仅使用2.5%的原始数据,在多个基准测试中达到或超过SOTA模型性能。
📝 摘要(中文)
为了提升多模态大语言模型(MLLMs)处理图像和复杂指令的能力,研究人员主要依赖于大规模视觉指令调优数据集,这些数据集通常来自现有的视觉任务或使用LLMs和图像描述合成生成。然而,这些数据集常常存在关键缺陷,包括指令-图像对不匹配和图像质量低劣。这些问题阻碍了训练效率并限制了性能提升,因为模型会将资源浪费在对整体能力提升帮助甚微的噪声或不相关数据上。为了解决这个问题,我们提出了一种基于智能体协作的视觉中心选择方法(ViSA),该方法侧重于图像质量评估和图像-指令相关性评估。具体来说,我们的方法包括:1) 一种通过视觉智能体协作进行图像信息量化的方法,以选择具有丰富视觉信息的图像;2) 一种以视觉为中心的指令质量评估方法,以选择与高质量图像相关的高质量指令数据。最后,我们从大型开源数据集中重新组织了8万条指令数据。大量实验表明,ViSA在七个基准测试中优于或可与当前最先进的模型相媲美,而仅使用了原始数据的2.5%,突出了我们数据选择方法的效率。此外,我们进行了消融研究,以验证我们方法中每个组件的有效性。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型训练中,由于训练数据集质量不高(图像质量差、图像与指令不相关)而导致的训练效率低下和模型性能瓶颈问题。现有方法通常直接使用大规模数据集,而忽略了数据质量,导致模型浪费计算资源学习噪声数据。
核心思路:论文的核心思路是进行视觉中心的数据选择,即首先关注图像的质量和信息量,然后评估指令与高质量图像的相关性。通过筛选高质量的图像和与之相关的指令,可以显著提高训练数据的质量,从而提升模型的训练效率和最终性能。
技术框架:ViSA方法包含两个主要阶段:1) 图像信息量化:利用多个视觉智能体(Visual Agents)协作,从不同角度评估图像的质量和信息丰富度,例如清晰度、构图、物体数量等。通过集成这些智能体的评估结果,得到图像的整体质量评分。2) 指令质量评估:以高质量图像为中心,评估指令与图像的相关性和质量。例如,指令是否准确描述了图像的内容,是否包含了足够的细节等。最终,选择与高质量图像相关的高质量指令数据。
关键创新:ViSA的关键创新在于其视觉中心的数据选择策略和智能体协作的图像质量评估方法。与传统的数据选择方法不同,ViSA首先关注图像本身,然后评估指令,从而避免了选择低质量图像和不相关指令。智能体协作的方法可以更全面地评估图像的质量,避免了单一指标的局限性。
关键设计:在图像信息量化阶段,论文可能采用了多种视觉特征提取器和质量评估模型作为视觉智能体。这些智能体可能包括:清晰度评估模型、构图评估模型、物体检测器等。每个智能体输出一个评分,然后通过加权平均或更复杂的集成方法,得到图像的整体质量评分。在指令质量评估阶段,可能使用了预训练的语言模型来评估指令与图像的相关性,例如计算指令的文本嵌入和图像的视觉嵌入之间的相似度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ViSA方法仅使用原始数据的2.5%,在七个基准测试中取得了与SOTA模型相当甚至更好的性能。这表明ViSA能够有效地筛选出高质量的训练数据,显著提高数据利用率。消融实验验证了ViSA中各个组件的有效性,证明了视觉中心选择策略和智能体协作方法的优越性。
🎯 应用场景
ViSA方法可应用于各种多模态大语言模型的训练,尤其是在数据资源有限或数据质量参差不齐的情况下。该方法可以显著提高数据利用率,降低训练成本,并提升模型在视觉理解、图像描述、视觉问答等任务上的性能。未来,该方法可以推广到其他模态的数据选择,例如音频、视频等。
📄 摘要(原文)
To improve Multimodal Large Language Models' (MLLMs) ability to process images and complex instructions, researchers predominantly curate large-scale visual instruction tuning datasets, which are either sourced from existing vision tasks or synthetically generated using LLMs and image descriptions. However, they often suffer from critical flaws, including misaligned instruction-image pairs and low-quality images. Such issues hinder training efficiency and limit performance improvements, as models waste resources on noisy or irrelevant data with minimal benefit to overall capability. To address this issue, we propose a \textbf{Vi}sual-Centric \textbf{S}election approach via \textbf{A}gents Collaboration (ViSA), which centers on image quality assessment and image-instruction relevance evaluation. Specifically, our approach consists of 1) an image information quantification method via visual agents collaboration to select images with rich visual information, and 2) a visual-centric instruction quality assessment method to select high-quality instruction data related to high-quality images. Finally, we reorganize 80K instruction data from large open-source datasets. Extensive experiments demonstrate that ViSA outperforms or is comparable to current state-of-the-art models on seven benchmarks, using only 2.5\% of the original data, highlighting the efficiency of our data selection approach. Moreover, we conduct ablation studies to validate the effectiveness of each component of our method. The code is available at https://github.com/HITsz-TMG/ViSA.