A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding
作者: Shuai Wang, Hongyi Zhu, Jia-Hong Huang, Yixian Shen, Chengxi Zeng, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring
分类: cs.AI
发布日期: 2026-04-21
期刊: ICMR 2026, ACM International Conference on Multimedia Retrieval
🔗 代码/项目: GITHUB
💡 一句话要点
提出A-MAR,基于Agent的多模态艺术品检索框架,用于细粒度的艺术品理解。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态艺术品检索 Agent-based框架 细粒度艺术品理解 推理计划 知识密集型任务
📋 核心要点
- 现有方法依赖隐式推理和内化知识,缺乏可解释性和显式证据基础,难以进行细粒度的艺术品理解。
- A-MAR通过将任务分解为结构化的推理计划,并以此为条件进行检索,实现有针对性的证据选择和逐步解释。
- 实验表明,A-MAR在解释质量、证据基础和多步骤推理能力方面优于现有方法和强大的多模态大型语言模型。
📝 摘要(中文)
理解艺术品需要对视觉内容以及文化、历史和风格背景进行多步骤推理。虽然最近的多模态大型语言模型在艺术品解释方面显示出潜力,但它们依赖于隐式推理和内化的知识,限制了解释性和显式证据基础。我们提出了A-MAR,一个基于Agent的多模态艺术品检索框架,它显式地将检索建立在结构化的推理计划之上。给定一件艺术品和一个用户查询,A-MAR首先将任务分解为一个结构化的推理计划,该计划指定了每个步骤的目标和证据需求。然后,检索以该计划为条件,从而能够进行有针对性的证据选择,并支持逐步的、有根据的解释。为了评估艺术领域中基于Agent的多模态推理,我们引入了ArtCoT-QA。这个诊断基准具有针对各种艺术相关查询的多步骤推理链,能够进行超出简单最终答案准确性的细粒度分析。在SemArt和Artpedia上的实验表明,A-MAR在最终解释质量方面始终优于静态的、非计划的检索和强大的MLLM基线,而ArtCoT-QA上的评估进一步证明了其在证据基础和多步骤推理能力方面的优势。这些结果突出了推理条件检索对于知识密集型多模态理解的重要性,并将A-MAR定位为迈向可解释的、目标驱动的AI系统的一步,尤其与文化产业相关。代码和数据可在https://github.com/ShuaiWang97/A-MAR获得。
🔬 方法详解
问题定义:现有方法在理解艺术品时,依赖于大型语言模型内部的隐式知识和推理,缺乏明确的推理步骤和可解释性。这使得模型难以提供有根据的解释,并且难以进行细粒度的分析和理解。因此,需要一种能够显式地进行多步骤推理,并能基于检索到的证据进行解释的方法。
核心思路:A-MAR的核心思路是将艺术品理解任务分解为结构化的推理计划,并利用该计划来指导证据检索。通过显式地定义每个步骤的目标和证据需求,A-MAR能够更有针对性地选择相关证据,并支持逐步的、有根据的解释。这种方法模仿了人类专家在理解艺术品时的推理过程,提高了模型的可解释性和推理能力。
技术框架:A-MAR框架主要包含以下几个模块:1) 任务分解模块:将用户查询分解为结构化的推理计划,明确每个步骤的目标和所需的证据类型。2) 证据检索模块:根据推理计划,从外部知识库(如SemArt和Artpedia)中检索相关证据。3) 多模态融合模块:将艺术品的视觉内容和检索到的文本证据进行融合,形成统一的表示。4) 答案生成模块:基于融合后的表示,生成最终的解释或答案。整个流程是一个迭代的过程,每个步骤的输出都会影响后续步骤的执行。
关键创新:A-MAR的关键创新在于将推理计划显式地融入到检索过程中。传统的检索方法通常是基于用户查询直接进行检索,而A-MAR则首先生成一个推理计划,然后根据该计划来指导检索。这种方法能够更有效地利用外部知识,并提供更具解释性的结果。此外,ArtCoT-QA数据集的提出也为评估多步骤推理能力提供了一个新的基准。
关键设计:A-MAR的具体实现细节包括:1) 推理计划的表示方式:使用结构化的图来表示推理计划,节点表示目标,边表示依赖关系。2) 证据检索策略:使用基于Transformer的模型来对查询和文档进行编码,并计算相似度得分。3) 多模态融合方法:使用注意力机制来融合视觉特征和文本特征。4) 损失函数:使用交叉熵损失函数来训练模型,并使用奖励函数来鼓励模型生成更准确的推理计划。
🖼️ 关键图片
📊 实验亮点
A-MAR在SemArt和Artpedia数据集上取得了显著的性能提升,在最终解释质量方面优于静态检索和强大的MLLM基线。在ArtCoT-QA数据集上的评估表明,A-MAR在证据基础和多步骤推理能力方面具有优势。这些实验结果验证了A-MAR框架的有效性,并证明了推理条件检索对于知识密集型多模态理解的重要性。
🎯 应用场景
A-MAR具有广泛的应用前景,尤其是在文化产业领域。它可以用于艺术品导览、艺术教育、艺术品鉴定等方面,帮助用户更深入地理解艺术品的内涵。此外,A-MAR的框架也可以推广到其他知识密集型领域,例如历史研究、科学研究等,为用户提供更具解释性和可信度的信息。
📄 摘要(原文)
Understanding artworks requires multi-step reasoning over visual content and cultural, historical, and stylistic context. While recent multimodal large language models show promise in artwork explanation, they rely on implicit reasoning and internalized knowl- edge, limiting interpretability and explicit evidence grounding. We propose A-MAR, an Agent-based Multimodal Art Retrieval framework that explicitly conditions retrieval on structured reasoning plans. Given an artwork and a user query, A-MAR first decomposes the task into a structured reasoning plan that specifies the goals and evidence requirements for each step. Retrieval is then conditionedon this plan, enabling targeted evidence selection and supporting step-wise, grounded explanations. To evaluate agent-based multi- modal reasoning within the art domain, we introduce ArtCoT-QA. This diagnostic benchmark features multi-step reasoning chains for diverse art-related queries, enabling a granular analysis that extends beyond simple final answer accuracy. Experiments on SemArt and Artpedia show that A-MAR consistently outperforms static, non planned retrieval and strong MLLM baselines in final explanation quality, while evaluations on ArtCoT-QA further demonstrate its advantages in evidence grounding and multi-step reasoning ability. These results highlight the importance of reasoning-conditioned retrieval for knowledge-intensive multimodal understanding and position A-MAR as a step toward interpretable, goal-driven AI systems, with particular relevance to cultural industries. The code and data are available at: https://github.com/ShuaiWang97/A-MAR.