VideoAesBench: Benchmarking the Video Aesthetics Perception Capabilities of Large Multimodal Models

作者: Yunhao Li, Sijing Wu, Zhilin Gao, Zicheng Zhang, Qi Jia, Huiyu Duan, Xiongkuo Min, Guangtao Zhai

分类: cs.CV

发布日期: 2026-01-29

💡 一句话要点

VideoAesBench：用于评估大型多模态模型视频美学感知能力的综合基准测试。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频美学评估 大型多模态模型 基准测试 视觉感知 视频理解

📋 核心要点

现有大型多模态模型在视频美学质量评估方面能力不足，缺乏专门的评估基准。
提出VideoAesBench，一个包含多样化视频内容和多种问题形式的综合性视频美学评估基准。
通过对23个LMMs的基准测试，发现现有模型在视频美学感知方面仍存在局限性，性能有待提升。

📝 摘要（中文）

大型多模态模型（LMMs）在各种视觉感知任务中表现出卓越的能力，这使得对LMMs的评估变得非常重要。然而，视频美学质量评估作为人类的一项基本能力，在LMMs中仍未得到充分探索。为了解决这个问题，我们推出了VideoAesBench，这是一个综合性的基准，用于评估LMMs对视频美学质量的理解。VideoAesBench具有以下几个显著特征：（1）多样化的内容，包括来自多个视频源的1,804个视频，包括用户生成内容（UGC）、人工智能生成内容（AIGC）、压缩视频、机器人生成内容（RGC）和游戏视频。（2）多种问题形式，包括传统的单选题、多选题、判断题，以及一种用于视频美学描述的新型开放式问题。（3）整体的视频美学维度，包括来自5个方面的视觉形式相关问题、来自4个方面的视觉风格相关问题和3个方面的视觉情感相关问题。基于VideoAesBench，我们对23个开源和商业大型多模态模型进行了基准测试。我们的研究结果表明，当前的LMMs仅包含基本的视频美学感知能力，它们的性能仍然不完整和不精确。我们希望我们的VideoAesBench可以作为一个强大的测试平台，并为可解释的视频美学评估提供见解。

🔬 方法详解

问题定义：论文旨在解决大型多模态模型（LMMs）在视频美学质量评估方面能力不足的问题。现有方法缺乏一个专门的、全面的基准来评估LMMs对视频美学的理解，导致无法准确衡量和提升模型在该领域的性能。

核心思路：论文的核心思路是构建一个包含多样化视频内容和多种问题形式的基准测试集VideoAesBench，从而全面评估LMMs在视频美学方面的感知能力。通过设计不同类型的问题，从视觉形式、视觉风格和视觉情感三个维度考察模型对视频美学的理解程度。

技术框架：VideoAesBench的整体框架包括以下几个主要组成部分：1) 多样化的视频数据集，涵盖UGC、AIGC、压缩视频、RGC和游戏视频等多种来源；2) 多种问题形式，包括单选题、多选题、判断题和开放式问题；3) 整体的视频美学维度，包括视觉形式、视觉风格和视觉情感三个方面。

关键创新：该论文的关键创新在于构建了一个专门针对视频美学评估的综合性基准测试集VideoAesBench。与现有的通用视觉评估基准不同，VideoAesBench专注于视频美学质量的评估，并设计了多种问题形式和评估维度，从而更全面、更准确地评估LMMs在该领域的性能。

关键设计：VideoAesBench的关键设计包括：1) 视频数据集的多样性，确保基准测试的泛化能力；2) 问题形式的多样性，从不同角度考察模型对视频美学的理解；3) 评估维度的全面性，涵盖视觉形式、视觉风格和视觉情感三个方面。此外，论文还设计了一种新型的开放式问题，用于评估模型对视频美学的描述能力。

🖼️ 关键图片

📊 实验亮点

论文构建的VideoAesBench基准测试集包含1,804个视频，涵盖多种视频来源和内容。通过对23个LMMs的基准测试，发现现有模型在视频美学感知方面仍存在不足，例如在视觉风格和视觉情感方面的理解能力较弱。实验结果表明，VideoAesBench可以有效评估LMMs的视频美学感知能力，并为未来的研究提供参考。

🎯 应用场景

该研究成果可应用于视频内容理解、智能视频编辑、个性化推荐系统等领域。通过提升LMMs对视频美学的感知能力，可以实现更智能的视频分析和处理，例如自动识别高质量视频内容、优化视频压缩算法、提升用户观看体验等。未来，该研究还可以促进可解释的视频美学评估方法的发展。

📄 摘要（原文）

Large multimodal models (LMMs) have demonstrated outstanding capabilities in various visual perception tasks, which has in turn made the evaluation of LMMs significant. However, the capability of video aesthetic quality assessment, which is a fundamental ability for human, remains underexplored for LMMs. To address this, we introduce VideoAesBench, a comprehensive benchmark for evaluating LMMs' understanding of video aesthetic quality. VideoAesBench has several significant characteristics: (1) Diverse content including 1,804 videos from multiple video sources including user-generated (UGC), AI-generated (AIGC), compressed, robotic-generated (RGC), and game videos. (2) Multiple question formats containing traditional single-choice questions, multi-choice questions, True or False questions, and a novel open-ended questions for video aesthetics description. (3) Holistic video aesthetics dimensions including visual form related questions from 5 aspects, visual style related questions from 4 aspects, and visual affectiveness questions from 3 aspects. Based on VideoAesBench, we benchmark 23 open-source and commercial large multimodal models. Our findings show that current LMMs only contain basic video aesthetics perception ability, their performance remains incomplete and imprecise. We hope our VideoAesBench can be served as a strong testbed and offer insights for explainable video aesthetics assessment.

VideoAesBench: Benchmarking the Video Aesthetics Perception Capabilities of Large Multimodal Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理