AICA-Bench: Holistically Examining the Capabilities of VLMs in Affective Image Content Analysis

📄 arXiv: 2604.05900v1 📥 PDF

作者: Dong She, Xianrong Yao, Liqun Chen, Jinghe Yu, Yang Gao, Zhanpeng Jin

分类: cs.CV

发布日期: 2026-04-07

备注: Accepted by Findings of ACL 2026


💡 一句话要点

提出AICA-Bench基准测试,用于全面评估VLMs在情感图像内容分析中的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感图像内容分析 视觉-语言模型 情感理解 情感推理 内容生成 分层推理 视觉支架

📋 核心要点

  1. 现有视觉-语言模型在情感图像内容分析方面存在强度校准弱和描述深度不足的问题。
  2. 论文提出Grounded Affective Tree (GAT) Prompting,利用视觉信息和分层推理提升模型性能。
  3. 实验表明,GAT Prompting能有效降低情感强度误差,并生成更深入的情感描述。

📝 摘要(中文)

视觉-语言模型(VLMs)在感知方面表现出强大的能力,但整体情感图像内容分析(AICA)仍然未被充分探索,AICA将感知、推理和生成整合到一个统一的框架中。为了解决这一差距,我们引入了AICA-Bench,这是一个全面的基准,包含三个核心任务:情感理解(EU)、情感推理(ER)和情感引导的内容生成(EGCG)。我们评估了23个VLMs,并发现了两个主要限制:弱强度校准和浅层的开放式描述。为了解决这些问题,我们提出了Grounded Affective Tree (GAT) Prompting,这是一个无需训练的框架,它结合了视觉支架和分层推理。实验表明,GAT减少了强度误差并提高了描述深度,为未来情感多模态理解和生成的研究提供了强大的基线。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型(VLMs)在情感图像内容分析(AICA)方面的不足。现有VLMs在处理AICA任务时,存在两个主要痛点:一是情感强度校准不准确,二是生成的描述较为浅显,缺乏深度。这些问题限制了VLMs在情感理解和生成方面的应用。

核心思路:论文的核心思路是利用视觉信息作为支架,结合分层推理,来引导VLMs进行更准确和深入的情感分析。通过将情感分析过程分解为多个层次,并利用视觉信息来约束每个层次的推理,从而提高模型的情感理解能力和生成描述的质量。GAT Prompting的关键在于构建一个情感树,该树的每个节点代表一个情感概念,并通过视觉信息来确定节点之间的关系。

技术框架:GAT Prompting是一个无需训练的框架,主要包含以下几个阶段:1) 视觉信息提取:利用预训练的视觉模型提取图像的视觉特征。2) 情感树构建:基于视觉特征和预定义的情感词汇,构建一个情感树。树的根节点代表图像的整体情感,子节点代表图像中与情感相关的对象或属性。3) 分层推理:从根节点开始,逐层向下进行情感推理。在每个节点,利用视觉信息和父节点的情感信息,来预测当前节点的情感。4) 描述生成:基于情感树,生成图像的情感描述。描述的深度和细节程度取决于情感树的结构。

关键创新:论文最重要的技术创新点是Grounded Affective Tree (GAT) Prompting。GAT Prompting通过将视觉信息与分层推理相结合,有效地解决了VLMs在情感图像内容分析中存在的强度校准和描述深度问题。与现有方法相比,GAT Prompting不需要额外的训练数据,并且可以灵活地应用于不同的VLMs。

关键设计:GAT Prompting的关键设计包括:1) 情感树的构建方式:情感树的构建需要考虑视觉信息和情感词汇之间的关系。论文采用了一种基于视觉相似度的情感词汇选择方法,来确保情感树的节点与图像内容相关。2) 分层推理的策略:分层推理需要考虑父节点和视觉信息对子节点的影响。论文采用了一种基于注意力机制的推理方法,来动态地调整父节点和视觉信息对子节点的影响权重。3) 描述生成的策略:描述生成需要考虑情感树的结构和节点的情感信息。论文采用了一种基于模板的描述生成方法,来确保生成的描述具有一定的流畅性和可读性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GAT Prompting在AICA-Bench的三个任务上均取得了显著的性能提升。具体来说,GAT Prompting能够有效降低情感强度误差,并生成更深入的情感描述。与现有基线方法相比,GAT Prompting在情感理解和情感推理任务上取得了明显的优势,证明了其有效性。

🎯 应用场景

该研究成果可应用于情感图像搜索、情感对话系统、心理健康评估等领域。通过提升视觉-语言模型的情感理解能力,可以更准确地理解用户的情感需求,并提供更个性化的服务。未来,该研究还可以扩展到视频情感分析、社交媒体情感分析等领域,具有广阔的应用前景。

📄 摘要(原文)

Vision-Language Models (VLMs) have demonstrated strong capabilities in perception, yet holistic Affective Image Content Analysis (AICA), which integrates perception, reasoning, and generation into a unified framework, remains underexplored. To address this gap, we introduce AICA-Bench, a comprehensive benchmark with three core tasks: Emotion Understanding (EU), Emotion Reasoning (ER), and Emotion-Guided Content Generation (EGCG). We evaluate 23 VLMs and identify two major limitations: weak intensity calibration and shallow open-ended descriptions. To address these issues, we propose Grounded Affective Tree (GAT) Prompting, a training-free framework that combines visual scaffolding with hierarchical reasoning. Experiments show that GAT reduces intensity errors and improves descriptive depth, providing a strong baseline for future research on affective multimodal understanding and generation.