Instruction-Following Evaluation of Large Vision-Language Models

作者: Daiki Shiono, Shumpei Miyawaki, Ryota Tanaka, Jun Suzuki

分类: cs.CL, cs.CV

发布日期: 2025-12-29

备注: 21 pages, 7 figures

💡 一句话要点

研究表明视觉语言大模型微调后指令遵循能力下降，并提出改进方案

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 指令遵循 微调 输出格式 多模态学习

📋 核心要点

现有LVLMs在视觉指令微调后，其指令遵循能力相比于底层LLM有所下降，无法有效执行指令。
论文核心思想是通过在微调数据集中显式包含输出格式的指令，从而提升LVLMs的指令遵循能力。
实验结果表明，使用包含输出格式指令的数据集训练的LVLMs，指令遵循准确性显著优于未包含此类指令的模型。

📝 摘要（中文）

本文研究了大型视觉语言模型（LVLMs）在视觉指令微调后指令遵循能力下降的问题。观察发现，LVLMs在常用数据集上进行微调后，其指令遵循能力相比于集成前的LLM有所下降，导致模型无法按照预期执行任务指令。本文通过定量分析证实了LVLMs在微调后指令遵循能力的下降，并分析了其根本原因。特别地，作者构建了新的训练数据集，重点关注输出格式是否被明确指定。然后，研究了在微调期间显式地指示输出格式如何影响LVLMs的指令遵循能力。定量评估结果表明，使用常用数据集微调后，LVLMs的指令遵循能力确实会下降。此外，研究发现，使用包含输出格式指令的数据集训练的模型，比没有使用此类数据集训练的模型，更倾向于准确地遵循指令。这些发现表明，在（视觉）指令微调期间包含带有输出格式指令的样本，可能有助于减轻指令遵循能力的下降。

🔬 方法详解

问题定义：现有的大型视觉语言模型（LVLMs）在经过视觉指令微调后，其指令遵循能力反而下降，无法像预期的那样执行用户指令。这表明现有的微调方法可能破坏了LLM原有的指令遵循能力，使得模型在视觉任务中难以有效利用指令信息。

核心思路：论文的核心思路是，指令遵循能力的下降可能与微调数据集中缺乏对输出格式的明确指导有关。因此，通过在微调数据集中加入明确指定输出格式的样本，可以帮助LVLMs更好地理解和执行指令，从而提升其指令遵循能力。

技术框架：论文构建了新的训练数据集，这些数据集的关键特征是明确指定了输出格式。然后，使用这些数据集对LVLMs进行微调，并与使用传统数据集微调的模型进行比较。评估指标主要关注模型是否能够按照指令的要求生成特定格式的输出。整体流程包括：1. 构建包含输出格式指令的微调数据集；2. 使用该数据集微调LVLMs；3. 使用评估指标定量评估微调后模型的指令遵循能力。

关键创新：论文的关键创新在于发现了视觉指令微调可能导致指令遵循能力下降的问题，并提出了通过显式指定输出格式来缓解这一问题的方案。这种方法强调了输出格式在指令遵循中的重要性，并提供了一种简单有效的提升LVLMs指令遵循能力的方法。

关键设计：论文的关键设计在于如何构建包含输出格式指令的微调数据集。具体的技术细节未知，但可以推测，数据集的构建需要仔细设计指令，明确指定期望的输出格式，例如，要求模型以列表、表格或特定句式回答问题。此外，损失函数和网络结构可能没有进行特别的修改，主要关注数据集的构建和选择。

🖼️ 关键图片

📊 实验亮点

论文通过定量评估证实了LVLMs在常用数据集上微调后指令遵循能力下降的现象。更重要的是，实验结果表明，使用包含输出格式指令的数据集进行微调可以显著提升LVLMs的指令遵循能力。具体的性能提升数据未知，但结论明确支持了论文提出的方法。

🎯 应用场景

该研究成果可应用于各种需要视觉信息理解和指令遵循的场景，例如智能助手、自动驾驶、机器人导航等。通过提升LVLMs的指令遵循能力，可以使其更好地理解用户意图，从而提供更准确、更可靠的服务。未来，该研究可以推动LVLMs在实际应用中的广泛部署。

📄 摘要（原文）

Following the initial flourishing of large language models (LLMs), there has been a surge in proposed large vision-language models (LVLMs) that integrate LLMs with vision capabilities. However, it has been observed that LVLMs, after tuning to visual instruction using commonly used training datasets, often fail to exhibit the instruction-following ability that was present in the LLM before integration, leading to results in which they do not follow task instructions as expected. This study quantitatively demonstrates that LVLMs' instruction-following ability declines after fine-tuning and analyzes its underlying causes. In particular, we constructed new training datasets highlighting whether the output format is specified. Then, we investigated how explicitly indicating the output format during fine-tuning affects LVLMs' instruction-following ability. Our quantitative evaluation confirmed that LVLMs' instruction-following ability declines after fine-tuning with commonly used datasets. Furthermore, we found that LVLMs trained with datasets, including instructions on output format, tend to follow instructions more accurately than models that do not. These findings suggest that including samples with instructions on output format during (visual) instruction tuning may help mitigate the decline in instruction-following abilities.

Instruction-Following Evaluation of Large Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理