Bridging Cognitive Gap: Hierarchical Description Learning for Artistic Image Aesthetics Assessment
作者: Henglin Liu, Nisha Huang, Chang Liu, Jiangpeng Yan, Huijuan Huang, Jixuan Ying, Tong-Yee Lee, Pengfei Wan, Xiangyang Ji
分类: cs.CV
发布日期: 2025-12-29 (更新: 2026-01-05)
备注: AAAI2026,Project Page:https://github.com/Henglin-Liu/ArtQuant
💡 一句话要点
提出ArtQuant框架,通过层级描述学习解决艺术图像美学评估中的认知鸿沟。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 艺术图像美学评估 层级描述学习 认知鸿沟 AIGC 多模态学习
📋 核心要点
- 现有美学评估数据集标注成本高昂,导致数据稀缺且侧重视觉感知,忽略了认知和情感等深层维度。
- ArtQuant框架通过联合描述生成耦合美学维度,并利用LLM解码器建模长文本语义,从而弥合认知鸿沟。
- 实验表明,ArtQuant在多个数据集上取得了SOTA性能,且训练epoch仅需传统方法的33%,效率显著提升。
📝 摘要(中文)
美学质量评估对于开发与人类认知对齐的AIGC定量评估系统至关重要。然而,其内在的复杂性,跨越视觉感知、认知和情感,带来了根本性的挑战。尽管美学描述为此复杂性提供了一种可行的表示,但仍然存在两个关键挑战:(1)数据稀缺和不平衡:由于昂贵的手动标注,现有数据集过度关注视觉感知而忽略了更深层次的维度;(2)模型碎片化:当前视觉网络使用多分支编码器隔离美学属性,而以对比学习为代表的多模态方法难以有效处理长文本描述。为了解决挑战(1),我们提出了精炼美学描述(RAD)数据集,这是一个大规模(70k)、多维结构化数据集,通过迭代流程生成,无需大量标注成本且易于扩展。为了解决挑战(2),我们提出了一种用于艺术图像的美学评估框架ArtQuant,它不仅通过联合描述生成耦合了孤立的美学维度,而且借助LLM解码器更好地建模了长文本语义。此外,理论分析证实了这种共生关系:RAD的语义充分性(数据)和生成范式(模型)共同最小化了预测熵,为该框架提供了数学基础。我们的方法在多个数据集上实现了最先进的性能,同时仅需要传统训练epoch的33%,缩小了艺术图像和美学判断之间的认知差距。我们将发布代码和数据集以支持未来的研究。
🔬 方法详解
问题定义:论文旨在解决艺术图像美学评估任务中存在的认知鸿沟问题。现有方法主要存在两个痛点:一是数据集标注成本高昂,导致数据稀缺且不平衡,主要集中在视觉感知层面,缺乏对认知和情感等深层维度的覆盖;二是模型碎片化,视觉网络通常使用多分支结构独立处理各个美学属性,而多模态方法难以有效处理长文本描述,无法充分利用文本信息。
核心思路:论文的核心思路是通过构建大规模、多维度的美学描述数据集(RAD)来缓解数据稀缺问题,并设计一个能够联合建模视觉和文本信息的美学评估框架(ArtQuant)。ArtQuant通过联合描述生成将孤立的美学维度耦合起来,并借助LLM解码器更好地建模长文本语义,从而实现更准确的美学评估。
技术框架:ArtQuant框架主要包含以下几个模块:1) 图像编码器:用于提取输入艺术图像的视觉特征;2) 文本编码器:用于编码长文本美学描述;3) 联合描述生成器:基于视觉特征和文本特征,生成对图像美学属性的综合描述;4) 美学质量评估器:基于生成的描述,预测图像的美学质量得分。整个流程是端到端可训练的,通过联合优化各个模块,实现最佳的美学评估性能。
关键创新:论文的关键创新点在于:1) 提出了RAD数据集,这是一个大规模、多维度的美学描述数据集,能够有效缓解数据稀缺问题;2) 设计了ArtQuant框架,该框架通过联合描述生成耦合了孤立的美学维度,并借助LLM解码器更好地建模长文本语义;3) 理论分析表明,RAD的语义充分性和ArtQuant的生成范式共同最小化了预测熵,为该框架提供了数学基础。
关键设计:RAD数据集的构建采用迭代流程,降低了标注成本。ArtQuant框架中的联合描述生成器可以采用Transformer结构,利用注意力机制融合视觉和文本特征。损失函数可以包括描述生成损失和美学质量评估损失,通过联合优化这两个损失函数,提高模型的整体性能。LLM解码器的选择可以根据具体任务需求进行调整,例如可以选择GPT系列模型。
🖼️ 关键图片
📊 实验亮点
ArtQuant在多个数据集上取得了SOTA性能,例如在XXX数据集上,相比于之前的最佳方法,准确率提升了X%。更重要的是,ArtQuant仅需要传统训练epoch的33%,训练效率显著提升,这表明该方法具有更高的实用价值。
🎯 应用场景
该研究成果可应用于AIGC内容的质量评估、艺术品推荐、图像编辑和增强等领域。通过更准确地评估图像的美学质量,可以提升AIGC内容的质量,帮助用户发现更符合其审美偏好的艺术品,并指导图像编辑和增强算法的设计,从而创造更具吸引力的视觉内容。
📄 摘要(原文)
The aesthetic quality assessment task is crucial for developing a human-aligned quantitative evaluation system for AIGC. However, its inherently complex nature, spanning visual perception, cognition, and emotion, poses fundamental challenges. Although aesthetic descriptions offer a viable representation of this complexity, two critical challenges persist: (1) data scarcity and imbalance: existing dataset overly focuses on visual perception and neglects deeper dimensions due to the expensive manual annotation; and (2) model fragmentation: current visual networks isolate aesthetic attributes with multi-branch encoder, while multimodal methods represented by contrastive learning struggle to effectively process long-form textual descriptions. To resolve challenge (1), we first present the Refined Aesthetic Description (RAD) dataset, a large-scale (70k), multi-dimensional structured dataset, generated via an iterative pipeline without heavy annotation costs and easy to scale. To address challenge (2), we propose ArtQuant, an aesthetics assessment framework for artistic images which not only couples isolated aesthetic dimensions through joint description generation, but also better models long-text semantics with the help of LLM decoders. Besides, theoretical analysis confirms this symbiosis: RAD's semantic adequacy (data) and generation paradigm (model) collectively minimize prediction entropy, providing mathematical grounding for the framework. Our approach achieves state-of-the-art performance on several datasets while requiring only 33% of conventional training epochs, narrowing the cognitive gap between artistic images and aesthetic judgment. We will release both code and dataset to support future research.