HumanAesExpert: Advancing a Multi-Modality Foundation Model for Human Image Aesthetic Assessment

📄 arXiv: 2503.23907v2 📥 PDF

作者: Zhichao Liao, Xiaokun Liu, Wenyu Qin, Qingyu Li, Qiulin Wang, Pengfei Wan, Di Zhang, Long Zeng, Pingfa Feng

分类: cs.CV, cs.AI

发布日期: 2025-03-31 (更新: 2025-05-28)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出HumanAesExpert以解决人像美学评估问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人像美学评估 多模态模型 视觉语言模型 数据集构建 美学标准 模型评估 深度学习

📋 核心要点

  1. 人像美学评估(HIAA)研究相对较少,现有方法在细粒度评估上存在不足。
  2. 提出HumanAesExpert模型,结合语言建模与回归,设计Expert头部以整合美学子维度知识。
  3. 实验表明,HumanAesExpert在HIAA任务上性能显著优于其他先进模型,提升效果明显。

📝 摘要(中文)

图像美学评估(IAA)是一个长期存在且具有挑战性的研究任务,而人像美学评估(HIAA)作为其子集,尚未得到充分探索。为填补这一研究空白,本文提出了一个针对HIAA的整体实施框架,特别是引入了HumanBeauty数据集,这是首个专门为HIAA构建的数据集,包含108,000张高质量人像图像及其手动注释。基于HumanBeauty数据库,本文提出了HumanAesExpert,一个强大的视觉语言模型,用于人像图像的美学评估。通过创新设计的Expert头部,结合语言建模和回归头部,模型在整体和细粒度HIAA方面表现出色。实验结果表明,HumanAesExpert在HIAA任务上显著优于其他最先进的模型。

🔬 方法详解

问题定义:本文旨在解决人像美学评估(HIAA)中的研究空白,现有方法在细粒度评估和人像特征理解上存在不足。

核心思路:提出HumanAesExpert模型,通过引入Expert头部,结合语言建模和回归头部,整合人类对美学子维度的知识,以实现更全面的评估。

技术框架:整体架构包括HumanBeauty数据集的构建、Expert头部的设计、语言建模与回归头部的联合训练,以及MetaVoter的引入以平衡各头部的能力。

关键创新:最重要的创新在于设计了Expert头部,能够有效整合美学子维度的知识,提升模型在细粒度评估上的能力,与现有方法相比具有本质区别。

关键设计:模型采用12维美学标准进行注释,Expert头部与语言建模和回归头部共同训练,MetaVoter用于聚合各头部的评分,优化评估精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,HumanAesExpert在HIAA任务上的表现显著优于其他最先进模型,具体性能提升幅度达到XX%(具体数据待补充),验证了模型在整体和细粒度评估上的有效性。

🎯 应用场景

该研究在艺术创作、社交媒体内容审核、在线购物推荐等领域具有广泛应用潜力。通过准确评估人像图像的美学质量,可以提升用户体验,促进内容的个性化推荐和优化。未来,该模型还可扩展至其他图像类型的美学评估,推动相关领域的发展。

📄 摘要(原文)

Image Aesthetic Assessment (IAA) is a long-standing and challenging research task. However, its subset, Human Image Aesthetic Assessment (HIAA), has been scarcely explored. To bridge this research gap, our work pioneers a holistic implementation framework tailored for HIAA. Specifically, we introduce HumanBeauty, the first dataset purpose-built for HIAA, which comprises 108k high-quality human images with manual annotations. To achieve comprehensive and fine-grained HIAA, 50K human images are manually collected through a rigorous curation process and annotated leveraging our trailblazing 12-dimensional aesthetic standard, while the remaining 58K with overall aesthetic labels are systematically filtered from public datasets. Based on the HumanBeauty database, we propose HumanAesExpert, a powerful Vision Language Model for aesthetic evaluation of human images. We innovatively design an Expert head to incorporate human knowledge of aesthetic sub-dimensions while jointly utilizing the Language Modeling (LM) and Regression heads. This approach empowers our model to achieve superior proficiency in both overall and fine-grained HIAA. Furthermore, we introduce a MetaVoter, which aggregates scores from all three heads, to effectively balance the capabilities of each head, thereby realizing improved assessment precision. Extensive experiments demonstrate that our HumanAesExpert models deliver significantly better performance in HIAA than other state-of-the-art models. Project webpage: https://humanaesexpert.github.io/HumanAesExpert/