AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark

作者: Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jenq-Neng Hwang, Saining Xie, Christopher D. Manning

分类: cs.CV

发布日期: 2024-10-04 (更新: 2025-04-09)

备注: Accepted to ICLR 2025. Code, docs, weight, benchmark and training data are all avaliable at https://rese1f.github.io/aurora-web/

💡 一句话要点

提出AuroraCap，一种高效视频详细描述模型，并构建新的VDC评测基准。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频描述 多模态学习 长视频理解 token合并 大型语言模型 视频理解 VDC基准 VDCscore

📋 核心要点

现有视频描述模型难以处理长视频序列，且缺乏足够详细的描述能力，限制了视频理解和生成领域的研究。
AuroraCap采用简洁的架构，通过token合并策略降低计算开销，同时保持甚至提升了描述性能。
VDC基准提供更详细的视频描述，并提出VDCscore指标，更准确地评估视频描述的质量，与人类判断更一致。

📝 摘要（中文）

本文提出AuroraCap，一个基于大型多模态模型的视频描述器。该模型采用最简单的架构设计，无需额外的参数进行时间建模。为了解决长视频序列带来的开销，我们实施了token合并策略，减少了输入视觉token的数量，并且发现性能损失很小。AuroraCap在各种视频和图像描述基准测试中表现出卓越的性能，例如，在Flickr30k上获得了88.9的CIDEr，超过了GPT-4V (55.3)和Gemini-1.5 Pro (82.2)。此外，现有的视频描述基准仅包含简单的描述，限制了该领域的研究。因此，我们开发了VDC，一个包含一千多个精心标注的结构化描述的视频详细描述基准。此外，我们提出了一种新的LLM辅助指标VDCscore，用于改进评估，该指标采用分而治之的策略，将长描述评估转化为多个简短的问答对。通过人工Elo ranking，我们的实验表明，该基准更好地与人类对视频详细描述质量的判断相关联。

🔬 方法详解

问题定义：现有视频描述模型在处理长视频时计算开销大，且生成的描述通常较为简单，缺乏细节。这限制了模型对视频内容的深入理解和生成高质量的视频描述。现有的视频描述数据集也缺乏足够详细的标注，难以推动相关研究。

核心思路：AuroraCap的核心思路是在保持模型简洁性的前提下，通过token合并策略降低长视频序列的计算复杂度，并利用大型多模态模型强大的语言生成能力，生成更详细的视频描述。同时，构建新的VDC基准和VDCscore指标，以更有效地评估视频详细描述的质量。

技术框架：AuroraCap基于大型多模态模型，采用encoder-decoder架构。视频帧首先通过视觉编码器提取视觉特征，然后使用token合并策略减少token数量。合并后的token与文本提示一起输入到decoder中，生成视频描述。VDCscore指标则利用大型语言模型将长描述评估分解为多个问答对，从而更准确地评估描述的质量。

关键创新：AuroraCap的关键创新在于：1) 采用token合并策略，有效降低了长视频序列的计算开销，同时保持了描述性能。2) 构建了VDC基准，提供了更详细的视频描述标注，更符合实际应用需求。3) 提出了VDCscore指标，利用大型语言模型进行评估，更准确地反映了人类对视频描述质量的判断。

关键设计：AuroraCap没有引入额外的参数进行时间建模，而是依赖于大型多模态模型本身的上下文理解能力。Token合并策略的具体实现方式未知，但其目标是减少输入decoder的token数量，从而降低计算复杂度。VDCscore指标的具体实现方式是，将长描述分解为多个关于视频内容的问答对，然后利用大型语言模型判断答案的正确性，最终综合评估描述的质量。具体参数设置和损失函数细节未知。

🖼️ 关键图片

📊 实验亮点

AuroraCap在Flickr30k数据集上取得了88.9的CIDEr评分，显著优于GPT-4V (55.3)和Gemini-1.5 Pro (82.2)。VDC基准和VDCscore指标的实验结果表明，该基准能够更好地反映人类对视频详细描述质量的判断，为视频描述模型的评估提供了更可靠的依据。Token合并策略在降低计算开销的同时，几乎没有造成性能损失。

🎯 应用场景

AuroraCap和VDC基准在视频理解、视频生成、智能监控、视频搜索等领域具有广泛的应用前景。高质量的视频描述可以帮助人们更好地理解视频内容，提高视频检索的准确性，并为视频生成提供更丰富的信息。VDC基准的发布将促进视频详细描述领域的研究，推动相关技术的进步。

📄 摘要（原文）

Video detailed captioning is a key task which aims to generate comprehensive and coherent textual descriptions of video content, benefiting both video understanding and generation. In this paper, we propose AuroraCap, a video captioner based on a large multimodal model. We follow the simplest architecture design without additional parameters for temporal modeling. To address the overhead caused by lengthy video sequences, we implement the token merging strategy, reducing the number of input visual tokens. Surprisingly, we found that this strategy results in little performance loss. AuroraCap shows superior performance on various video and image captioning benchmarks, for example, obtaining a CIDEr of 88.9 on Flickr30k, beating GPT-4V (55.3) and Gemini-1.5 Pro (82.2). However, existing video caption benchmarks only include simple descriptions, consisting of a few dozen words, which limits research in this field. Therefore, we develop VDC, a video detailed captioning benchmark with over one thousand carefully annotated structured captions. In addition, we propose a new LLM-assisted metric VDCscore for bettering evaluation, which adopts a divide-and-conquer strategy to transform long caption evaluation into multiple short question-answer pairs. With the help of human Elo ranking, our experiments show that this benchmark better correlates with human judgments of video detailed captioning quality.

AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理