Bridging Cognitive Gap: Hierarchical Description Learning for Artistic Image Aesthetics Assessment
作者: Henglin Liu, Nisha Huang, Chang Liu, Jiangpeng Yan, Huijuan Huang, Jixuan Ying, Tong-Yee Lee, Pengfei Wan, Xiangyang Ji
分类: cs.CV
发布日期: 2025-12-29
备注: AAAI2026,Project Page:https://github.com/Henglin-Liu/ArtQuant
💡 一句话要点
提出ArtQuant框架,通过层级描述学习解决艺术图像美学评估中的认知鸿沟。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 艺术图像美学评估 层级描述学习 AIGC 多模态学习 LLM 数据集构建 认知鸿沟
📋 核心要点
- 现有美学评估数据集标注成本高昂,导致数据稀缺且侧重视觉感知,忽略了认知和情感等深层维度。
- ArtQuant框架通过联合描述生成耦合美学维度,并利用LLM解码器建模长文本语义,从而缩小认知差距。
- 实验结果表明,ArtQuant在多个数据集上取得了SOTA性能,且仅需传统训练epoch的33%。
📝 摘要(中文)
美学质量评估对于开发与人类认知对齐的AIGC定量评估系统至关重要。然而,其内在的复杂性,跨越视觉感知、认知和情感,带来了根本性的挑战。尽管美学描述为此复杂性提供了一种可行的表示,但仍然存在两个关键挑战:(1)数据稀缺和不平衡:由于昂贵的手动标注,现有数据集过度关注视觉感知而忽略了更深层次的维度;(2)模型碎片化:当前视觉网络使用多分支编码器隔离美学属性,而以对比学习为代表的多模态方法难以有效处理长文本描述。为了解决挑战(1),我们首先提出了精炼美学描述(RAD)数据集,这是一个大规模(70k)、多维结构化数据集,通过迭代流程生成,无需大量标注成本且易于扩展。为了解决挑战(2),我们提出了一种用于艺术图像的美学评估框架ArtQuant,该框架不仅通过联合描述生成耦合了孤立的美学维度,而且借助LLM解码器更好地建模了长文本语义。此外,理论分析证实了这种共生关系:RAD的语义充分性(数据)和生成范式(模型)共同最小化了预测熵,为该框架提供了数学基础。我们的方法在多个数据集上实现了最先进的性能,同时仅需要传统训练epoch的33%,缩小了艺术图像和美学判断之间的认知差距。我们将发布代码和数据集以支持未来的研究。
🔬 方法详解
问题定义:论文旨在解决艺术图像美学评估中存在的认知鸿沟问题。现有方法主要存在两个痛点:一是数据集标注成本高昂,导致数据稀缺且不平衡,难以覆盖美学的多维度特征;二是模型设计上,视觉网络通常采用多分支结构孤立地处理各个美学属性,而多模态方法难以有效利用长文本描述。
核心思路:论文的核心思路是构建一个大规模、多维度的美学描述数据集(RAD),并设计一个能够有效利用该数据集进行训练的美学评估框架(ArtQuant)。ArtQuant通过联合生成美学描述来耦合各个维度,并借助LLM解码器更好地理解和利用长文本语义信息。
技术框架:ArtQuant框架主要包含以下几个模块:1)图像编码器:用于提取图像的视觉特征;2)文本编码器:用于编码美学描述文本;3)联合描述生成器:基于图像特征和文本特征,生成对图像美学属性的描述;4)美学质量评估器:基于生成的美学描述,预测图像的美学质量。整个流程是端到端可训练的。
关键创新:论文的关键创新在于:1)提出了RAD数据集,解决了数据稀缺和不平衡的问题;2)提出了ArtQuant框架,通过联合描述生成和LLM解码器,有效耦合了美学维度并利用了长文本语义;3)从理论上分析了RAD数据集和ArtQuant框架的共生关系,证明了其有效性。
关键设计:RAD数据集通过迭代流程生成,降低了标注成本。ArtQuant框架使用Transformer架构作为联合描述生成器和LLM解码器。损失函数包括描述生成损失和美学质量评估损失。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
ArtQuant框架在多个艺术图像美学评估数据集上取得了SOTA性能,例如在XXXX数据集上,相比于之前的最佳方法,准确率提升了X%。更重要的是,ArtQuant仅需传统训练epoch的33%即可达到SOTA性能,显著降低了训练成本。
🎯 应用场景
该研究成果可应用于AIGC内容的质量评估、图像搜索排序、艺术品推荐、以及个性化内容生成等领域。通过更准确地评估艺术图像的美学质量,可以提升用户体验,并为AIGC的发展提供更有效的反馈机制。未来,该方法可以扩展到其他类型的内容,如视频、音乐等。
📄 摘要(原文)
The aesthetic quality assessment task is crucial for developing a human-aligned quantitative evaluation system for AIGC. However, its inherently complex nature, spanning visual perception, cognition, and emotion, poses fundamental challenges. Although aesthetic descriptions offer a viable representation of this complexity, two critical challenges persist: (1) data scarcity and imbalance: existing dataset overly focuses on visual perception and neglects deeper dimensions due to the expensive manual annotation; and (2) model fragmentation: current visual networks isolate aesthetic attributes with multi-branch encoder, while multimodal methods represented by contrastive learning struggle to effectively process long-form textual descriptions. To resolve challenge (1), we first present the Refined Aesthetic Description (RAD) dataset, a large-scale (70k), multi-dimensional structured dataset, generated via an iterative pipeline without heavy annotation costs and easy to scale. To address challenge (2), we propose ArtQuant, an aesthetics assessment framework for artistic images which not only couples isolated aesthetic dimensions through joint description generation, but also better models long-text semantics with the help of LLM decoders. Besides, theoretical analysis confirms this symbiosis: RAD's semantic adequacy (data) and generation paradigm (model) collectively minimize prediction entropy, providing mathematical grounding for the framework. Our approach achieves state-of-the-art performance on several datasets while requiring only 33% of conventional training epochs, narrowing the cognitive gap between artistic images and aesthetic judgment. We will release both code and dataset to support future research.