IF-VidCap: Can Video Caption Models Follow Instructions?

作者: Shihao Li, Yuanxing Zhang, Jiangtao Wu, Zhide Lei, Yiwen He, Runzhe Wen, Chenxi Liao, Chengkang Jiang, An Ping, Shuo Gao, Suhan Wang, Zhaozhou Bian, Zijun Zhou, Jingyi Xie, Jiayi Zhou, Jing Wang, Yifan Yao, Weihao Xie, Yingshui Tan, Yanghai Wang, Qianqian Xie, Zhaoxiang Zhang, Jiaheng Liu

分类: cs.CV

发布日期: 2025-10-21

备注: https://github.com/NJU-LINK/IF-VidCap

💡 一句话要点

提出IF-VidCap基准，评估视频字幕模型在指令遵循方面的能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频字幕 指令遵循 多模态大语言模型 基准测试 可控生成

📋 核心要点

现有视频字幕基准侧重描述全面性，忽略了模型遵循用户指令生成字幕的能力，限制了实际应用。
IF-VidCap基准通过系统框架，从格式和内容两个维度评估模型在可控视频字幕生成中的指令遵循能力。
实验表明，开源模型与专有模型差距缩小，但密集字幕模型在复杂指令下表现不佳，需同时提升描述和指令遵循能力。

📝 摘要（中文）

多模态大型语言模型(MLLM)在视频字幕生成方面表现出卓越的能力，但实际应用中，用户往往需要模型生成符合特定指令的字幕，而非宽泛的描述。现有基准主要评估描述的全面性，忽略了指令遵循能力。为了弥补这一差距，我们提出了IF-VidCap，一个新的用于评估可控视频字幕生成的基准，包含1400个高质量样本。与现有的视频字幕或通用指令遵循基准不同，IF-VidCap包含一个系统框架，从格式正确性和内容正确性两个维度评估字幕。对20多个主流模型的全面评估表明，尽管专有模型仍然占据主导地位，但性能差距正在缩小，顶级的开源解决方案现在几乎可以达到与专有模型相同的水平。此外，我们发现，在复杂指令下，专门用于密集字幕生成的模型表现不如通用MLLM，表明未来的工作应同时提高描述的丰富性和指令遵循的准确性。

🔬 方法详解

问题定义：现有视频字幕模型虽然在生成描述性字幕方面表现出色，但在实际应用中，用户往往需要模型根据特定指令生成字幕，例如指定字幕的长度、风格或关注点。现有的视频字幕基准主要关注描述的全面性和准确性，缺乏对模型指令遵循能力的有效评估，导致模型难以满足实际应用需求。

核心思路：IF-VidCap的核心思路是构建一个包含丰富指令的视频字幕数据集，并设计一个系统化的评估框架，从格式正确性和内容正确性两个维度来评估模型生成的字幕是否符合指令要求。通过这种方式，可以更全面地评估模型的可控视频字幕生成能力，并促进相关技术的发展。

技术框架：IF-VidCap基准包含以下几个主要组成部分：1) 视频数据集：包含1400个高质量视频样本。2) 指令集：包含多种类型的指令，例如指定字幕长度、风格、关注点等。3) 评估框架：包含格式正确性和内容正确性两个评估维度，并提供相应的评估指标。模型首先接收视频和指令作为输入，然后生成字幕。评估框架根据指令和生成的字幕，计算格式正确性和内容正确性得分，从而评估模型的指令遵循能力。

关键创新：IF-VidCap的关键创新在于其系统化的评估框架，该框架能够从格式和内容两个维度全面评估模型在可控视频字幕生成中的指令遵循能力。与现有的视频字幕基准相比，IF-VidCap更关注模型对用户指令的理解和执行能力，更贴近实际应用场景。

关键设计：IF-VidCap在指令设计方面考虑了多种因素，例如指令的类型、难度和多样性。在评估指标方面，采用了多种指标来衡量格式正确性和内容正确性，例如BLEU、ROUGE、CIDEr等。此外，还设计了一些专门用于评估指令遵循能力的指标，例如指令覆盖率和指令准确率。具体参数设置和网络结构取决于所评估的视频字幕模型。

🖼️ 关键图片

📊 实验亮点

对20多个主流模型的评估表明，开源模型在指令遵循能力上与专有模型的差距正在缩小，顶级的开源解决方案现在几乎可以达到与专有模型相同的水平。然而，专门用于密集字幕生成的模型在复杂指令下表现不如通用MLLM，表明未来的研究需要同时关注描述的丰富性和指令遵循的准确性。具体性能数据未知。

🎯 应用场景

IF-VidCap的研究成果可应用于智能视频编辑、辅助内容创作、人机交互等领域。例如，用户可以通过指定指令，让模型自动生成符合特定需求的视频字幕，提高视频内容的可访问性和用户体验。该基准的提出也将推动可控视频字幕生成技术的发展，促进多模态大语言模型在视频理解领域的应用。

📄 摘要（原文）

Although Multimodal Large Language Models (MLLMs) have demonstrated proficiency in video captioning, practical applications require captions that follow specific user instructions rather than generating exhaustive, unconstrained descriptions. Current benchmarks, however, primarily assess descriptive comprehensiveness while largely overlooking instruction-following capabilities. To address this gap, we introduce IF-VidCap, a new benchmark for evaluating controllable video captioning, which contains 1,400 high-quality samples. Distinct from existing video captioning or general instruction-following benchmarks, IF-VidCap incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our comprehensive evaluation of over 20 prominent models reveals a nuanced landscape: despite the continued dominance of proprietary models, the performance gap is closing, with top-tier open-source solutions now achieving near-parity. Furthermore, we find that models specialized for dense captioning underperform general-purpose MLLMs on complex instructions, indicating that future work should simultaneously advance both descriptive richness and instruction-following fidelity.

IF-VidCap: Can Video Caption Models Follow Instructions?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理