MM-IFEngine: Towards Multimodal Instruction Following

📄 arXiv: 2504.07957v2 📥 PDF

作者: Shengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang, Haodong Duan, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Dahua Lin, Jiaqi Wang

分类: cs.CV

发布日期: 2025-04-10 (更新: 2025-04-27)

🔗 代码/项目: GITHUB


💡 一句话要点

提出MM-IFEngine,用于生成高质量多模态指令跟随数据,并构建评测基准。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 指令跟随 数据生成 基准测试 大语言模型 图像理解 人机交互

📋 核心要点

  1. 现有多模态指令跟随数据不足,基准测试简单,难以满足复杂指令和精确输出的需求。
  2. MM-IFEngine通过生成高质量图像-指令对,构建大规模、多样化的训练数据集,提升模型指令跟随能力。
  3. 实验表明,在MM-IFEngine生成的数据集上微调MLLM,在多个指令跟随基准测试中取得了显著的性能提升。

📝 摘要(中文)

本文提出了一种有效的多模态指令跟随(IF)数据生成流程MM-IFEngine,旨在解决现有多模态大语言模型(MLLM)指令跟随训练数据稀缺、评测基准简单以及评估策略不精确的问题。MM-IFEngine生成了大规模、多样化和高质量的训练数据MM-IFInstruct-23k,适用于监督微调(SFT),并扩展为MM-IFDPO-23k用于直接偏好优化(DPO)。此外,本文还提出了MM-IFEval,一个具有挑战性和多样性的多模态指令跟随基准,包含输出响应的组合级约束和与输入图像相关的感知级约束,以及一个包含基于规则的评估和判别模型的综合评估流程。通过在MM-IFInstruct-23k和MM-IFDPO-23k上进行SFT和DPO实验,证明了微调MLLM在各种IF基准上取得了显著的提升,例如MM-IFEval(+10.2%),MIA(+7.6%)和IFEval(+12.3%)。所有数据集(SFT和DPO)、评估代码和训练脚本均已开源。

🔬 方法详解

问题定义:现有的多模态指令跟随(IF)训练数据匮乏,导致多模态大语言模型(MLLM)难以准确理解用户指令并执行。现有的基准测试通常只包含原子指令,缺乏对复杂组合指令和感知级约束的评估。此外,现有的评估策略对于需要精确输出的任务来说不够精确,难以全面衡量模型的指令跟随能力。

核心思路:本文的核心思路是构建一个自动化的数据生成流程,即MM-IFEngine,用于生成大规模、多样化和高质量的图像-指令对。通过增加训练数据的规模和多样性,以及引入更具挑战性的评估基准,从而提升MLLM的指令跟随能力。这种方法旨在弥补现有数据的不足,并提供更全面的评估指标。

技术框架:MM-IFEngine包含数据生成和评估两个主要部分。数据生成流程包括指令生成、图像选择和指令-图像对的组合。生成的数据被用于监督微调(SFT)和直接偏好优化(DPO)。评估部分则包含MM-IFEval基准,该基准包含组合级约束和感知级约束,并采用基于规则的评估和判别模型相结合的综合评估流程。

关键创新:本文的关键创新在于MM-IFEngine数据生成流程,它能够自动生成大规模、多样化和高质量的图像-指令对,从而有效提升MLLM的指令跟随能力。此外,MM-IFEval基准的提出,为多模态指令跟随任务提供了一个更具挑战性和更全面的评估平台。与现有方法相比,MM-IFEngine能够生成更复杂、更贴近实际应用场景的数据,并提供更精确的评估指标。

关键设计:MM-IFEngine的数据生成流程中,指令生成模块采用了多种策略来保证指令的多样性,包括随机采样、模板填充和基于规则的生成。图像选择模块则根据指令的内容选择合适的图像,保证指令和图像之间的相关性。MM-IFEval基准中,组合级约束要求模型生成的文本满足特定的语法和语义规则,感知级约束则要求模型能够正确理解图像中的内容并将其与指令相结合。评估指标包括基于规则的评估和判别模型,前者用于评估输出的准确性,后者用于评估输出的流畅性和自然度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在MM-IFInstruct-23k和MM-IFDPO-23k上微调MLLM,在MM-IFEval基准上取得了10.2%的性能提升,在MIA基准上取得了7.6%的性能提升,在IFEval基准上取得了12.3%的性能提升。这些结果表明,MM-IFEngine生成的数据集能够有效提升MLLM的指令跟随能力。

🎯 应用场景

该研究成果可应用于智能助手、机器人导航、图像编辑等领域。通过提升多模态大语言模型的指令跟随能力,可以实现更自然、更智能的人机交互,例如,用户可以通过语音或文本指令引导机器人完成特定任务,或者通过图像和文字描述来编辑图像。

📄 摘要(原文)

The Instruction Following (IF) ability measures how well Multi-modal Large Language Models (MLLMs) understand exactly what users are telling them and whether they are doing it right. Existing multimodal instruction following training data is scarce, the benchmarks are simple with atomic instructions, and the evaluation strategies are imprecise for tasks demanding exact output constraints. To address this, we present MM-IFEngine, an effective pipeline to generate high-quality image-instruction pairs. Our MM-IFEngine pipeline yields large-scale, diverse, and high-quality training data MM-IFInstruct-23k, which is suitable for Supervised Fine-Tuning (SFT) and extended as MM-IFDPO-23k for Direct Preference Optimization (DPO). We further introduce MM-IFEval, a challenging and diverse multi-modal instruction-following benchmark that includes (1) both compose-level constraints for output responses and perception-level constraints tied to the input images, and (2) a comprehensive evaluation pipeline incorporating both rule-based assessment and judge model. We conduct SFT and DPO experiments and demonstrate that fine-tuning MLLMs on MM-IFInstruct-23k and MM-IFDPO-23k achieves notable gains on various IF benchmarks, such as MM-IFEval (+10.2$\%$), MIA (+7.6$\%$), and IFEval (+12.3$\%$). We have fully open-sourced the datasets (both SFT and DPO), evaluation code and training scripts at https://github.com/SYuan03/MM-IFEngine.