Automating Iconclass: LLMs and RAG for Large-Scale Classification of Religious Woodcuts
作者: Drew B. Thomas
分类: cs.IR, cs.CV
发布日期: 2025-10-22
备注: 29 pages, 7 figures. First presented at the "Digital Humanities and Artificial Intelligence" conference at the University of Reading on 17 June 2024
💡 一句话要点
利用LLM和RAG自动化宗教木刻图像的Iconclass大规模分类
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像分类 大型语言模型 检索增强生成 Iconclass 早期现代图像
📋 核心要点
- 现有图像分类方法在处理早期现代宗教图像时,难以有效利用图像上下文信息,导致分类精度不高。
- 该论文提出利用LLM和RAG框架,结合整页图像的视觉和文本信息,生成详细描述,从而提升分类准确率。
- 实验结果表明,该方法在Iconclass分类任务上显著优于传统方法,精度达到87%和92%。
📝 摘要(中文)
本文提出了一种新颖的方法,通过结合大型语言模型(LLM)和向量数据库,并结合检索增强生成(RAG),对早期现代宗教图像进行分类。该方法利用神圣罗马帝国书籍插图的整页上下文,使LLM能够生成包含视觉和文本元素的详细描述。然后,通过混合向量搜索将这些描述与相关的Iconclass代码进行匹配。该方法在五个和四个分类级别上分别实现了87%和92%的精度,显著优于传统的图像和基于关键词的搜索。通过采用整页描述和RAG,该系统提高了分类精度,为大规模分析早期现代视觉档案提供了一个强大的工具。这种跨学科的方法展示了LLM和RAG在推进艺术史和数字人文领域研究方面的日益增长的潜力。
🔬 方法详解
问题定义:论文旨在解决早期现代宗教木刻图像的大规模自动分类问题。现有方法,如传统的图像搜索和基于关键词的搜索,无法充分利用图像的上下文信息(例如,书籍的文本内容),导致分类精度较低。此外,人工标注Iconclass代码耗时且成本高昂。
核心思路:论文的核心思路是利用大型语言模型(LLM)理解图像的视觉内容和相关的文本信息,生成图像的详细描述,然后使用检索增强生成(RAG)框架,将这些描述与Iconclass代码进行匹配。通过结合视觉和文本信息,并利用LLM的强大理解能力,可以显著提高分类精度。
技术框架:整体框架包括以下几个主要阶段:1) 数据准备:收集包含图像和相关文本信息的早期现代宗教木刻图像数据集。2) LLM描述生成:使用LLM处理整页图像,生成包含视觉和文本元素的详细描述。3) 向量嵌入:将生成的描述和Iconclass代码转换为向量嵌入。4) 混合向量搜索:使用混合向量搜索方法,将图像描述的向量嵌入与Iconclass代码的向量嵌入进行匹配,找到最相关的Iconclass代码。5) 分类结果评估:评估分类结果的精度和召回率。
关键创新:最重要的技术创新点在于结合了LLM和RAG框架,利用LLM生成图像的详细描述,并使用混合向量搜索方法进行匹配。与传统的图像搜索方法相比,该方法能够更好地利用图像的上下文信息,从而提高分类精度。此外,该方法还能够自动化Iconclass代码的标注过程,降低人工成本。
关键设计:论文中没有明确提及关键的参数设置、损失函数、网络结构等技术细节。但是,可以推断,LLM的选择和训练、向量嵌入的生成方法、混合向量搜索的权重设置等都会对最终的分类结果产生影响。具体的技术细节可能需要参考相关的LLM和RAG文献。
📊 实验亮点
该方法在五个和四个分类级别上分别实现了87%和92%的精度,显著优于传统的图像和基于关键词的搜索。这表明,通过结合LLM和RAG框架,可以有效地提高图像分类的精度,并自动化Iconclass代码的标注过程。
🎯 应用场景
该研究成果可应用于大规模早期现代视觉档案的自动分类和分析,例如艺术史研究、数字人文研究等。通过自动标注Iconclass代码,可以方便研究人员检索和分析相关的图像资源,从而促进相关领域的研究进展。此外,该方法还可以推广到其他类型的图像分类任务中,例如医学图像分析、遥感图像分析等。
📄 摘要(原文)
This paper presents a novel methodology for classifying early modern religious images by using Large Language Models (LLMs) and vector databases in combination with Retrieval-Augmented Generation (RAG). The approach leverages the full-page context of book illustrations from the Holy Roman Empire, allowing the LLM to generate detailed descriptions that incorporate both visual and textual elements. These descriptions are then matched to relevant Iconclass codes through a hybrid vector search. This method achieves 87% and 92% precision at five and four levels of classification, significantly outperforming traditional image and keyword-based searches. By employing full-page descriptions and RAG, the system enhances classification accuracy, offering a powerful tool for large-scale analysis of early modern visual archives. This interdisciplinary approach demonstrates the growing potential of LLMs and RAG in advancing research within art history and digital humanities.