CiQi-Agent: Aligning Vision, Tools and Aesthetics in Multimodal Agent for Cultural Reasoning on Chinese Porcelains
作者: Wenhan Wang, Zhixiang Zhou, Zhongtian Ma, Yanzhu Chen, Ziyu Lin, Hao Sheng, Pengfei Liu, Honglin Ma, Wenqi Shao, Qiaosheng Zhang, Yu Qiao
分类: cs.CV, cs.AI
发布日期: 2026-03-30
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
CiQi-Agent:面向中国瓷器文化推理的多模态智能体,对齐视觉、工具与美学
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态智能体 瓷器鉴定 视觉问答 工具增强推理 文化遗产 知识图谱 视觉特征提取
📋 核心要点
- 现有方法在古董瓷器鉴定方面面临挑战,需要深厚的历史知识、材料理解和审美敏感性,非专业人士难以参与。
- CiQi-Agent通过整合视觉工具和多模态检索增强生成,实现对瓷器朝代、窑址等属性的细粒度分析和可解释的鉴定描述。
- 实验结果表明,CiQi-Agent在瓷器鉴定基准测试中显著优于现有模型,平均准确率比GPT-5高12.2%。
📝 摘要(中文)
本文提出了CiQi-Agent,一个领域特定的瓷器鉴定智能体,用于智能分析中国古董瓷器,旨在普及文化遗产知识并辅助专家鉴定。CiQi-Agent支持多图像瓷器输入,并能调用视觉工具和多模态检索增强生成,对六个属性进行细粒度的鉴定分析:朝代、年号、窑址、釉色、纹饰和器型。除了属性分类,它还能捕捉细微的视觉细节,检索相关的领域知识,并整合视觉和文本证据,生成连贯、可解释的鉴定描述。为此,构建了一个大规模的专家标注数据集CiQi-VQA,包含29,596件瓷器样本、51,553张图像和557,940个视觉问答对,并建立了一个全面的基准CiQi-Bench,与上述六个属性对齐。CiQi-Agent通过监督微调、强化学习和工具增强的推理框架进行训练,该框架集成了视觉工具和多模态检索工具。实验结果表明,CiQi-Agent (7B) 在 CiQi-Bench 的所有六个属性上均优于所有竞争性的开源和闭源模型,平均准确率比 GPT-5 高 12.2%。该模型和数据集已公开发布。
🔬 方法详解
问题定义:论文旨在解决古董瓷器鉴定中专业知识门槛高、非专业人士难以参与的问题。现有方法通常依赖专家经验,缺乏可解释性和自动化能力,难以满足大众对文化遗产知识的需求。
核心思路:论文的核心思路是构建一个多模态智能体,通过整合视觉信息、领域知识和推理能力,模拟专家鉴定过程。该智能体能够利用视觉工具提取瓷器特征,并通过多模态检索获取相关知识,最终生成可解释的鉴定报告。
技术框架:CiQi-Agent的整体架构包含以下几个主要模块:1) 多模态输入处理模块,用于接收瓷器图像和相关问题;2) 视觉工具调用模块,用于提取瓷器的视觉特征,例如纹饰、器型等;3) 多模态检索模块,用于检索相关的领域知识,例如历史背景、制作工艺等;4) 推理生成模块,用于整合视觉特征和领域知识,生成可解释的鉴定报告。该框架采用工具增强的推理方式,将外部工具集成到智能体的推理过程中,提高了智能体的知识获取和推理能力。
关键创新:论文的关键创新在于构建了一个领域特定的瓷器鉴定智能体,并提出了一个工具增强的推理框架。该框架能够有效地整合视觉信息、领域知识和推理能力,实现对瓷器的细粒度鉴定和可解释的描述。此外,论文还构建了一个大规模的专家标注数据集CiQi-VQA,为智能体的训练和评估提供了数据支持。
关键设计:CiQi-Agent采用监督微调和强化学习相结合的训练方式。监督微调用于学习瓷器属性分类和描述生成任务,强化学习用于优化智能体的推理策略。在网络结构方面,采用了Transformer架构,并针对瓷器鉴定的特点进行了优化。损失函数包括交叉熵损失和强化学习奖励函数,用于优化模型的分类精度和推理能力。
🖼️ 关键图片
📊 实验亮点
CiQi-Agent在CiQi-Bench基准测试中取得了显著的性能提升,在所有六个属性上均优于所有竞争性的开源和闭源模型,平均准确率比GPT-5高12.2%。这表明CiQi-Agent在瓷器鉴定方面具有强大的能力,能够有效地整合视觉信息、领域知识和推理能力。
🎯 应用场景
CiQi-Agent可应用于文化遗产保护、艺术品鉴定、博物馆展览等领域。它可以帮助非专业人士了解中国瓷器文化,辅助专家进行鉴定工作,并为博物馆提供智能化的展览方案。该研究有助于推动文化遗产的数字化和智能化,促进文化交流和传播。
📄 摘要(原文)
The connoisseurship of antique Chinese porcelain demands extensive historical expertise, material understanding, and aesthetic sensitivity, making it difficult for non-specialists to engage. To democratize cultural-heritage understanding and assist expert connoisseurship, we introduce CiQi-Agent -- a domain-specific Porcelain Connoisseurship Agent for intelligent analysis of antique Chinese porcelain. CiQi-Agent supports multi-image porcelain inputs and enables vision tool invocation and multimodal retrieval-augmented generation, performing fine-grained connoisseurship analysis across six attributes: dynasty, reign period, kiln site, glaze color, decorative motif, and vessel shape. Beyond attribute classification, it captures subtle visual details, retrieves relevant domain knowledge, and integrates visual and textual evidence to produce coherent, explainable connoisseurship descriptions. To achieve this capability, we construct a large-scale, expert-annotated dataset CiQi-VQA, comprising 29,596 porcelain specimens, 51,553 images, and 557,940 visual question--answering pairs, and further establish a comprehensive benchmark CiQi-Bench aligned with the previously mentioned six attributes. CiQi-Agent is trained through supervised fine-tuning, reinforcement learning, and a tool-augmented reasoning framework that integrates two categories of tools: a vision tool and multimodal retrieval tools. Experimental results show that CiQi-Agent (7B) outperforms all competitive open- and closed-source models across all six attributes on CiQi-Bench, achieving on average 12.2\% higher accuracy than GPT-5. The model and dataset have been released and are publicly available at https://huggingface.co/datasets/SII-Monument-Valley/CiQi-VQA.