ZSE-Cap: A Zero-Shot Ensemble for Image Retrieval and Prompt-Guided Captioning

📄 arXiv: 2507.20564v1 📥 PDF

作者: Duc-Tai Dinh, Duc Anh Khoa Dinh

分类: cs.CL, cs.IR

发布日期: 2025-07-28

🔗 代码/项目: GITHUB


💡 一句话要点

ZSE-Cap:一种用于图像检索和提示引导字幕生成的零样本集成方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 图像检索 图像字幕生成 模型集成 提示工程

📋 核心要点

  1. 现有方法在零样本图像检索和字幕生成方面存在挑战,难以有效利用预训练模型。
  2. ZSE-Cap通过集成多个视觉模型和提示工程,实现了零样本条件下的图像检索和字幕生成。
  3. 该方法在EVENTA比赛中取得了优异成绩,证明了集成和提示策略在零样本学习中的有效性。

📝 摘要(中文)

本文提出了ZSE-Cap(用于字幕生成的零样本集成),该系统在事件增强图像分析(EVENTA)共享任务的文章引导图像检索和字幕生成中排名第四。该零样本方法无需在比赛数据上进行微调。在检索方面,集成了来自CLIP、SigLIP和DINOv2的相似度得分。在字幕生成方面,利用精心设计的提示来引导Gemma 3模型,使其能够将文章中的高级事件与图像中的视觉内容联系起来。该系统最终得分0.42002,在私有测试集上名列前茅,证明了通过集成和提示组合基础模型的有效性。代码可在https://github.com/ductai05/ZSE-Cap获取。

🔬 方法详解

问题定义:论文旨在解决在没有特定领域数据微调的情况下,如何有效地利用预训练的视觉模型进行图像检索和字幕生成的问题。现有方法通常需要大量的标注数据进行微调,或者在零样本场景下表现不佳,难以将文章中的事件信息与图像内容有效关联。

核心思路:论文的核心思路是利用模型集成来提升检索性能,并结合提示工程来引导语言模型生成更准确、更符合文章内容的图像描述。通过集成多个模型的优势,可以提高检索的鲁棒性和准确性。通过精心设计的提示,可以引导语言模型关注图像中的关键信息,并将其与文章中的事件信息联系起来。

技术框架:ZSE-Cap系统主要包含两个模块:图像检索模块和字幕生成模块。图像检索模块首先使用CLIP、SigLIP和DINOv2等预训练模型提取图像和文本的特征,然后计算它们之间的相似度得分,最后通过集成这些得分来获得最终的检索结果。字幕生成模块则使用Gemma 3模型,并利用精心设计的提示来引导模型生成图像描述。提示包含文章中的事件信息,以及一些关于图像内容的提示词。

关键创新:该方法的主要创新在于将模型集成和提示工程结合起来,用于解决零样本图像检索和字幕生成问题。通过集成多个模型的优势,可以提高检索的鲁棒性和准确性。通过精心设计的提示,可以引导语言模型关注图像中的关键信息,并将其与文章中的事件信息联系起来,从而生成更准确、更符合文章内容的图像描述。

关键设计:在图像检索模块中,论文采用了简单的加权平均集成方法,对CLIP、SigLIP和DINOv2的相似度得分进行加权平均。在字幕生成模块中,论文设计了包含事件信息和图像内容提示词的提示模板,并对Gemma 3模型进行了微调,以提高其生成图像描述的质量。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

ZSE-Cap在EVENTA共享任务中取得了0.42002的最终得分,并在私有测试集上名列前茅,证明了该方法在零样本图像检索和字幕生成方面的有效性。该方法无需在比赛数据上进行微调,具有很强的泛化能力。

🎯 应用场景

该研究成果可应用于新闻报道、社交媒体内容理解、智能客服等领域。例如,可以根据新闻文章自动检索相关图片,或者根据用户上传的图片自动生成描述性文字。该技术还可以用于辅助视觉障碍人士理解图像内容,提高信息获取的效率。

📄 摘要(原文)

We present ZSE-Cap (Zero-Shot Ensemble for Captioning), our 4th place system in Event-Enriched Image Analysis (EVENTA) shared task on article-grounded image retrieval and captioning. Our zero-shot approach requires no finetuning on the competition's data. For retrieval, we ensemble similarity scores from CLIP, SigLIP, and DINOv2. For captioning, we leverage a carefully engineered prompt to guide the Gemma 3 model, enabling it to link high-level events from the article to the visual content in the image. Our system achieved a final score of 0.42002, securing a top-4 position on the private test set, demonstrating the effectiveness of combining foundation models through ensembling and prompting. Our code is available at https://github.com/ductai05/ZSE-Cap.