Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

作者: Tianxiang Du, Hulingxiao He, Yuxin Peng

分类: cs.CV

发布日期: 2026-02-27

备注: Accepted by CVPR 2026

🔗 代码/项目: GITHUB

💡 一句话要点

Venus：提升多模态大语言模型的美学指导与裁剪能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 美学指导 美学裁剪 计算美学 链式思考

📋 核心要点

现有MLLM在美学指导方面存在不足，无法有效识别照片中的美学问题并提供改进建议。
Venus框架通过两阶段方法，首先提升MLLM的美学指导能力，然后利用该能力进行美学裁剪。
实验表明，Venus显著提升了美学指导能力，并在美学裁剪任务上取得了SOTA性能。

📝 摘要（中文）

智能手机的普及使得摄影无处不在，但普通用户与专业摄影师之间仍然存在差距，后者能够识别美学问题并在拍摄过程中提供可操作的指导。我们将这种能力定义为美学指导（AG），这是计算美学中一个重要但很大程度上未被探索的领域。现有的多模态大语言模型（MLLM）主要提供过于积极的反馈，无法识别问题或提供可操作的指导。由于缺乏AG能力，它们无法有效地识别分散注意力的区域或优化构图平衡，因此在美学裁剪方面也表现不佳，美学裁剪旨在通过拍摄后的重新构图来改进照片构图。为了解决这个问题，我们推出了AesGuide，这是第一个大规模的AG数据集和基准，包含10748张照片，并标注了美学分数、分析和指导。在此基础上，我们提出了Venus，这是一个两阶段框架，首先通过逐步复杂的美学问题来增强MLLM的AG能力，然后通过基于CoT的理由激活它们的美学裁剪能力。大量的实验表明，Venus大大提高了AG能力，并在美学裁剪方面实现了最先进的（SOTA）性能，从而能够在照片创作的两个阶段实现可解释和交互式的美学改进。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）在美学指导（AG）和美学裁剪方面的不足。现有MLLM通常给出过于积极的反馈，无法识别照片中的美学问题，也难以提供可操作的改进建议。这导致它们在美学裁剪任务中表现不佳，无法有效优化照片构图。

核心思路：论文的核心思路是分阶段提升MLLM的美学能力。首先，通过构建大规模美学指导数据集AesGuide，并设计逐步复杂的美学问题，来训练MLLM，使其具备识别和分析美学问题的能力。然后，利用CoT（Chain-of-Thought）推理，让MLLM在进行美学裁剪之前，先给出裁剪的理由，从而提高裁剪的合理性和可解释性。

技术框架：Venus框架包含两个主要阶段：1) 美学指导能力增强阶段：利用AesGuide数据集，通过逐步复杂的美学问题训练MLLM，使其能够识别照片中的美学问题并提供改进建议。2) 美学裁剪能力激活阶段：利用CoT推理，让MLLM在进行美学裁剪之前，先给出裁剪的理由，然后根据理由进行裁剪。

关键创新：论文的关键创新在于：1) 提出了美学指导（AG）的概念，并构建了大规模AG数据集AesGuide。2) 设计了一个两阶段框架Venus，通过逐步复杂的美学问题和CoT推理，有效提升了MLLM的美学指导和裁剪能力。3) 将CoT推理引入美学裁剪任务，提高了裁剪的可解释性和合理性。

关键设计：AesGuide数据集包含10748张照片，并标注了美学分数、分析和指导。在美学指导能力增强阶段，论文设计了一系列逐步复杂的美学问题，例如“这张照片的美学分数是多少？”，“这张照片有哪些美学问题？”，“如何改进这张照片的构图？”。在美学裁剪能力激活阶段，论文利用CoT推理，让MLLM先给出裁剪的理由，例如“裁剪掉左侧的干扰物，以突出主体”，然后根据理由进行裁剪。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Venus框架在美学指导和美学裁剪任务上均取得了显著的性能提升。在美学裁剪任务上，Venus达到了SOTA性能，超过了现有的基于深度学习的方法。此外，Venus框架还能够提供可解释的美学指导和裁剪理由，增强了用户对算法的信任感。

🎯 应用场景

该研究成果可应用于智能手机摄影应用、图像编辑软件和摄影教育等领域。通过集成Venus框架，这些应用可以为用户提供实时的美学指导和自动化的美学裁剪功能，帮助用户拍摄出更具美感的照片。此外，该研究还可以促进计算美学领域的发展，为开发更智能的图像处理算法提供新的思路。

📄 摘要（原文）

The widespread use of smartphones has made photography ubiquitous, yet a clear gap remains between ordinary users and professional photographers, who can identify aesthetic issues and provide actionable shooting guidance during capture. We define this capability as aesthetic guidance (AG) -- an essential but largely underexplored domain in computational aesthetics. Existing multimodal large language models (MLLMs) primarily offer overly positive feedback, failing to identify issues or provide actionable guidance. Without AG capability, they cannot effectively identify distracting regions or optimize compositional balance, thus also struggling in aesthetic cropping, which aims to refine photo composition through reframing after capture. To address this, we introduce AesGuide, the first large-scale AG dataset and benchmark with 10,748 photos annotated with aesthetic scores, analyses, and guidance. Building upon it, we propose Venus, a two-stage framework that first empowers MLLMs with AG capability through progressively complex aesthetic questions and then activates their aesthetic cropping power via CoT-based rationales. Extensive experiments show that Venus substantially improves AG capability and achieves state-of-the-art (SOTA) performance in aesthetic cropping, enabling interpretable and interactive aesthetic refinement across both stages of photo creation. Code is available at https://github.com/PKU-ICST-MIPL/Venus_CVPR2026.

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理