Attribute-Grounded Selective Reasoning for Artwork Emotion Understanding with Multimodal Large Language Models

📄 arXiv: 2605.15755v1 📥 PDF

作者: Cheng Zhang, Yuer Liu, Zhiyu Zhou, Hongxia Xie, Wen-Huang Cheng

分类: cs.CV

发布日期: 2026-05-15

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出FAB-G框架,通过属性引导的选择性推理提升多模态大模型在艺术作品情感理解上的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 情感理解 艺术作品分析 属性引导推理 选择性推理

📋 核心要点

  1. 现有MLLM在艺术作品情感理解中存在属性泛滥问题,无法有效区分情感相关的属性。
  2. 论文提出属性引导的选择性推理(AGSR)框架FAB-G,通过预测属性显著性来约束情感分析。
  3. 实验表明FAB-G在情感预测、显著性一致性和解释简洁性方面均优于现有方法,并具有跨数据集迁移能力。

📝 摘要(中文)

多模态大语言模型(MLLM)能够流畅地解释艺术作品的情感,但常常受到属性泛滥的影响:它们会列举许多可见的形式属性,而没有识别出哪些线索真正支持情感判断。因此,我们将艺术作品情感理解定义为属性引导的选择性推理(AGSR),其中预定义的形式属性作为证据单元,只有情感上起作用的属性才应进入最终解释。为了使这个问题可衡量,我们扩展了EmoArt数据集,通过添加一个由15位艺术训练有素的注释者标注的1,400件艺术作品的人工显著性扩展。该扩展提供了实例级别的监督,用于区分仅仅存在的属性和情感上显著的属性。我们进一步提出了FAB-G(形式属性瓶颈引导推理),一个监督的多智能体框架,它首先预测属性级别的显著性,然后将下游情感分析限制在保留的线索上。实验表明,FAB-G在情感、唤醒和效价预测方面产生了持续的收益,在Dice和Tversky指标下实现了与人工标记的显著属性更强的一致性,并且比基于提示的基线产生了更紧凑的最终解释。跨数据集评估进一步表明,基于属性的显著性选择可以迁移到EmoArt的源分布之外,同时也揭示了属性特定的边界情况。

🔬 方法详解

问题定义:现有方法在利用多模态大语言模型进行艺术作品情感理解时,容易受到“属性泛滥”的影响,即模型会罗列大量视觉属性,而无法有效区分哪些属性是真正影响情感判断的关键因素。这导致模型解释冗余且不准确,缺乏对情感相关属性的针对性推理。

核心思路:论文的核心思路是引入“属性引导的选择性推理”(AGSR),将预定义的艺术作品形式属性作为证据单元,并通过学习属性级别的显著性,筛选出对情感判断具有重要影响的属性。这样,模型就可以专注于情感相关的线索,避免不必要的属性干扰,从而提高情感理解的准确性和解释性。

技术框架:FAB-G框架是一个监督的多智能体框架,主要包含以下几个阶段:1) 属性显著性预测:使用多模态信息(图像和文本)预测每个属性的显著性得分。2) 属性瓶颈:根据显著性得分,选择保留显著性较高的属性,过滤掉不相关的属性。3) 情感分析:基于选择后的属性,进行情感、唤醒和效价的预测。4) 解释生成:生成基于所选属性的情感解释。

关键创新:该论文的关键创新在于:1) 将艺术作品情感理解问题形式化为属性引导的选择性推理(AGSR)问题。2) 提出了FAB-G框架,通过属性显著性预测来约束下游情感分析,从而解决属性泛滥问题。3) 构建了一个包含人工标注属性显著性的扩展数据集,为模型训练和评估提供了支持。

关键设计:在属性显著性预测阶段,可以使用各种多模态模型,例如视觉Transformer和文本编码器,来提取图像和文本特征,然后使用一个分类器预测每个属性的显著性得分。损失函数可以包括交叉熵损失,用于优化显著性预测的准确性。在情感分析阶段,可以使用基于Transformer的模型,将选择后的属性特征作为输入,预测情感、唤醒和效价。关键在于如何设计有效的属性选择机制,例如使用阈值或Top-K选择,以及如何将选择后的属性特征有效地融入到情感分析模型中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FAB-G框架在情感、唤醒和效价预测方面均优于基线方法,与人工标注的显著属性具有更高的一致性(Dice和Tversky指标),并且生成的解释更加简洁。跨数据集评估表明,该方法具有一定的泛化能力。

🎯 应用场景

该研究成果可应用于艺术品推荐系统、艺术教育、情感计算等领域。通过理解艺术作品的情感,可以为用户提供更个性化的艺术体验,辅助艺术学习者理解作品内涵,并为情感计算提供更丰富的多模态数据。

📄 摘要(原文)

Multimodal large language models (MLLMs) can produce fluent artwork emotion explanations, but they often suffer from attribute flooding: they enumerate many visible formal attributes without identifying which cues actually support the affective judgment. We therefore formulate artwork emotion understanding as Attribute-Grounded Selective Reasoning (AGSR), where predefined formal attributes serve as evidence units and only emotionally operative attributes should enter the final interpretation. To make this problem measurable, we extend EmoArt, originally introduced at ACM MM 2025 as a 132,664-artwork resource with content, formal-attribute, valence-arousal, and emotion annotations, by adding a 1,400-artwork human salience extension annotated by 15 art-trained annotators. This extension provides instance-level supervision for distinguishing attributes that are merely present from those that are emotionally salient. We further propose FAB-G (Formal-Attribute Bottleneck-Guided reasoning), a supervised multi-agent framework that first predicts attribute-level salience and then constrains downstream emotional analysis to the retained cues. Experiments show that FAB-G yields consistent gains in emotion, arousal, and valence prediction, achieves stronger agreement with human-marked salient attributes under Dice and Tversky metrics, and produces substantially more compact final explanations than prompting-based baselines. Cross-dataset evaluation further suggests that attribute-grounded salience selection transfers beyond the source distribution of EmoArt, while also revealing attribute-specific boundary cases. The dataset and project page are available at https://zhiliangzhang.github.io/EmoArt-130k/