AI Outperforms Humans in Personalized Image Aesthetics Assessment via LLM-Based Interviews and Semantic Feature Extraction

📄 arXiv: 2605.14761v1 📥 PDF

作者: Yoshia Abe, Tatsuya Daikoku, Yasuo Kuniyoshi

分类: cs.AI, cs.HC

发布日期: 2026-05-14

备注: 25 pages, 13 figures


💡 一句话要点

提出基于LLM访谈和语义特征提取的AI个性化图像美学评估系统,超越人类表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个性化美学评估 大型语言模型 深度学习 图像语义特征 用户偏好

📋 核心要点

  1. 现有图像美学评估方法依赖客观低级特征,忽略了个体主观偏好和高级语义信息。
  2. 提出集成DL-LLM系统,通过LLM访谈主动获取用户偏好,结合低级和高级特征进行预测。
  3. 实验表明,该系统在个性化美学评估中超越了传统方法、人类预测者和个体自身评估。

📝 摘要(中文)

准确预测图像的个体美学评价是人工智能领域的一项基础挑战。现有的基于深度学习(DL)的模型主要依赖于图像评估数据训练,提取客观的低级特征。然而,美学偏好本质上是主观且个体相关的。因此,准确的预测需要提取图像的高级语义特征,并主动收集目标个体的偏好信息。为了解决这个问题,我们关注于在大量文本数据上预训练的大型语言模型(LLM)的效用,并开发了一个集成的DL-LLM系统。该系统通过基于LLM的半结构化访谈主动引出美学偏好,并通过利用低级和高级特征来预测美学评估。实验结果表明,该系统优于传统系统、人类预测者以及目标个体在一段时间后的自我重新评估。尤其是在高评分图像上表现出色。此外,该系统的预测误差小于个体内部的变异性,而人类预测者表现出最大的误差,这可能是由于他们自身的美学价值观的影响。这些结果表明,AI可能比其他人或未来的自己更能捕捉到特定时间点的个体美学偏好。这引发了一个新的问题,即AI是否可以成为比人类本身更深刻的人类审美感受的解释者。

🔬 方法详解

问题定义:现有图像美学评估方法主要依赖于深度学习模型提取图像的低级特征,忽略了美学评价的主观性和个体差异。这些方法无法有效捕捉个体用户对图像的独特偏好,导致预测准确率较低。此外,现有方法缺乏与用户的交互,无法主动获取用户的审美偏好信息。

核心思路:论文的核心思路是利用大型语言模型(LLM)的语义理解和对话能力,主动与用户进行半结构化访谈,从而获取用户对图像的高级语义特征的偏好信息。然后,将这些偏好信息与深度学习模型提取的低级特征相结合,进行个性化的美学评估预测。这样设计的目的是为了弥补传统方法在捕捉主观偏好和高级语义信息方面的不足。

技术框架:该系统主要包含以下几个模块:1) 图像特征提取模块:使用深度学习模型(如ResNet)提取图像的低级视觉特征。2) LLM访谈模块:使用预训练的LLM(如GPT-3)与用户进行半结构化访谈,询问用户对图像的语义特征的偏好。3) 偏好编码模块:将LLM访谈的结果编码成向量表示,用于表示用户的审美偏好。4) 美学评估预测模块:将图像的低级特征和用户的偏好向量相结合,输入到预测模型中,预测用户对图像的美学评分。

关键创新:该论文最重要的技术创新点在于将大型语言模型(LLM)引入到个性化图像美学评估中。通过LLM的主动访谈,系统能够有效地获取用户对图像的高级语义特征的偏好信息,从而实现更准确的个性化美学评估。与现有方法相比,该方法能够更好地捕捉个体用户的主观审美偏好。

关键设计:LLM访谈模块采用了半结构化访谈的方式,预先定义了一系列与图像语义特征相关的提问,例如“你觉得这张照片的构图如何?”、“你喜欢这张照片的色彩吗?”。偏好编码模块使用了一种基于注意力机制的方法,将LLM访谈的结果编码成向量表示,以便与图像的低级特征进行融合。美学评估预测模块可以使用多种机器学习模型,例如支持向量机(SVM)或神经网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该系统在个性化图像美学评估任务中优于传统方法、人类预测者以及个体自身评估。具体来说,该系统在预测高评分图像时的表现尤为出色。此外,该系统的预测误差小于个体内部的变异性,表明其能够更准确地捕捉个体用户的审美偏好。而人类预测者的误差最大,表明人类容易受到自身审美价值观的影响。

🎯 应用场景

该研究成果可应用于个性化推荐系统、图像编辑软件、艺术品评估等领域。例如,在电商平台上,可以根据用户的审美偏好推荐更符合其口味的商品图片。在图像编辑软件中,可以根据用户的偏好自动调整图像的色彩、构图等参数。此外,该技术还可以用于艺术品评估,帮助人们更好地理解艺术品的价值。

📄 摘要(原文)

Accurately predicting individual aesthetic evaluation for images is a fundamental challenge for AI. Various deep learning (DL)-based models have been proposed for this task, training on image evaluation data to extract objective low-level features. However, aesthetic preferences are inherently subjective and individual-dependent. Accurate prediction thus requires the extraction of high-level semantic features of images and the active collection of preference information from the target individual. To address this issue, we focus on the utility of Large Language Models (LLMs) pretrained on vast amounts of textual data, and develop an integrated DL-LLM system. The system actively elicits aesthetic preferences through LLM-based semi-structured interviews and predicts aesthetic evaluation by leveraging both low-level and high-level features. In our experiments, we compare the proposed system against conventional systems, human predictors, and the target individual's own re-evaluations after a certain time interval. Our results show that the proposed system outperforms all of them, with particularly strong performance on highly-rated images. Moreover, the prediction error of the proposed system is smaller than within-person variability, while human predictors show the largest error, likely due to the influence of their own aesthetic values. These results suggest that AI may be better positioned than others or one's future self to capture individual aesthetic preferences at a given point. This opens a new question of whether AI could serve as a deeper interpreter of human aesthetic sensibility than humans themselves.