SCRAMBLe : Enhancing Multimodal LLM Compositionality with Synthetic Preference Data

📄 arXiv: 2504.04740v2 📥 PDF

作者: Samarth Mishra, Kate Saenko, Venkatesh Saligrama

分类: cs.CV, cs.AI

发布日期: 2025-04-07 (更新: 2025-09-28)

备注: ICCV 2025 Findings

🔗 代码/项目: GITHUB


💡 一句话要点

SCRAMBLe:利用合成偏好数据提升多模态LLM的组合性推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 组合性推理 偏好学习 合成数据 视觉问答

📋 核心要点

  1. 多模态大语言模型在组合性推理方面存在不足,难以区分相似但语义不同的图像描述。
  2. SCRAMBLe通过合成偏好数据,训练模型区分正确和错误的图像描述,提升组合性推理能力。
  3. 实验表明,SCRAMBLe显著提升了模型在Winoground等组合性推理基准上的性能,并在通用视觉问答任务上有所改进。

📝 摘要(中文)

组合性,即正确地将场景识别为原子视觉概念的组合,对于多模态大型语言模型(MLLM)来说仍然很困难。即使是最先进的MLLM,如GPT-4o,在区分“狗追猫”与“猫追狗”等组合时也会出错。虽然在Winoground(一个衡量这种推理的基准)上,MLLM取得了显著进展,但仍远未达到人类的水平。我们表明,可以通过数据来阐明这些概念,从而提高这些模型中的组合推理能力,即训练模型以偏好图像的正确标题,而不是接近但错误的标题。我们介绍SCRAMBLe:使用二元偏好学习对MLLM进行合成组合推理增强,这是一种在完全自动化的方式下,从现有图像-标题数据生成的合成偏好数据上,对开放权重MLLM进行偏好调整的方法。SCRAMBLe全面提高了这些MLLM的组合推理能力,这可以通过多个视觉语言组合性基准的显著改进以及一般问答任务的较小但显著的改进来看到。例如,SCRAMBLe调整后的Molmo-7B模型在Winoground上的性能从49.5%提高到54.8%(迄今为止报告的最佳性能),同时在更一般的视觉问答任务上提高了约1%。SCRAMBLe的代码以及调整后的模型和我们的合成训练数据集可在https://github.com/samarth4149/SCRAMBLe上找到。

🔬 方法详解

问题定义:多模态大语言模型(MLLM)在理解和推理视觉概念的组合方面存在困难。例如,区分“狗追猫”和“猫追狗”这类细微的语义差异对现有MLLM来说仍然是一个挑战。现有方法在处理这种组合性推理问题时,泛化能力不足,难以达到人类水平。

核心思路:SCRAMBLe的核心思路是通过偏好学习,让模型学习区分图像的正确描述和相似但错误的描述。通过构建合成数据,模型可以学习到更细粒度的视觉概念组合,从而提升组合性推理能力。这种方法避免了人工标注大量数据的成本,并且可以灵活地应用于不同的MLLM。

技术框架:SCRAMBLe的整体框架包括以下几个主要步骤:1) 从现有的图像-标题数据集中提取图像和对应的标题。2) 通过对原始标题进行词语替换或顺序调整,生成错误的标题。3) 构建包含图像、正确标题和错误标题的偏好数据集。4) 使用偏好学习方法,训练MLLM,使其偏好正确的标题。5) 在组合性推理基准上评估模型的性能。

关键创新:SCRAMBLe的关键创新在于利用合成数据进行偏好学习,从而提升MLLM的组合性推理能力。与传统的监督学习方法相比,偏好学习能够更好地捕捉细微的语义差异。此外,SCRAMBLe采用全自动化的数据生成方式,降低了数据标注的成本。

关键设计:SCRAMBLe的关键设计包括:1) 错误标题的生成策略,例如随机替换或交换标题中的名词。2) 偏好学习的损失函数,例如hinge loss或cross-entropy loss。3) 模型微调的超参数设置,例如学习率、batch size和训练轮数。论文中使用了Molmo-7B模型作为backbone,并使用二元偏好学习进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SCRAMBLe在Winoground基准上取得了显著的性能提升,将Molmo-7B模型的准确率从49.5%提高到54.8%,达到了目前报告的最佳水平。此外,在通用视觉问答任务上也取得了约1%的性能提升。这些结果表明,SCRAMBLe能够有效提升MLLM的组合性推理能力,并在实际应用中具有潜力。

🎯 应用场景

SCRAMBLe技术可应用于需要精确理解图像内容的场景,例如图像搜索、视觉问答、机器人导航和自动驾驶。通过提升模型对视觉概念组合的理解能力,可以提高这些应用在复杂环境中的性能和可靠性。未来,该技术有望应用于更广泛的多模态任务,例如视频理解和人机交互。

📄 摘要(原文)

Compositionality, or correctly recognizing scenes as compositions of atomic visual concepts, remains difficult for multimodal large language models (MLLMs). Even state of the art MLLMs such as GPT-4o can make mistakes in distinguishing compositions like "dog chasing cat" vs "cat chasing dog". While on Winoground, a benchmark for measuring such reasoning, MLLMs have made significant progress, they are still far from a human's performance. We show that compositional reasoning in these models can be improved by elucidating such concepts via data, where a model is trained to prefer the correct caption for an image over a close but incorrect one. We introduce SCRAMBLe: Synthetic Compositional Reasoning Augmentation of MLLMs with Binary preference Learning, an approach for preference tuning open-weight MLLMs on synthetic preference data generated in a fully automated manner from existing image-caption data. SCRAMBLe holistically improves these MLLMs' compositional reasoning capabilities which we can see through significant improvements across multiple vision language compositionality benchmarks, as well as smaller but significant improvements on general question answering tasks. As a sneak peek, SCRAMBLe tuned Molmo-7B model improves on Winoground from 49.5% to 54.8% (best reported to date), while improving by ~1% on more general visual question answering tasks. Code for SCRAMBLe along with tuned models and our synthetic training dataset is available at https://github.com/samarth4149/SCRAMBLe.