Leveraging Lightweight Entity Extraction for Scalable Event-Based Image Retrieval

📄 arXiv: 2512.21221v1 📥 PDF

作者: Dao Sy Duy Minh, Huynh Trung Kiet, Nguyen Lam Phu Quy, Phu-Hoa Pham, Tran Chi Nguyen

分类: cs.CV, cs.AI

发布日期: 2025-12-24

备注: System description paper for EVENTA Grand Challenge Track 2 at ACM Multimedia 2025 (MM '25). Ranked 4th place. 6 pages, 1 figure, 2 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于事件实体提取的两阶段图像检索方法,提升复杂场景下的检索精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像检索 事件提取 多模态学习 BEiT-3 BM25 视觉语言 信息检索 深度学习

📋 核心要点

  1. 真实场景下的图像文本检索面临模糊查询、语言多样性和可扩展性挑战。
  2. 利用事件相关的实体提取,结合BM25过滤和BEiT-3重排序,提升检索效率和精度。
  3. 在OpenEvents v1数据集上,该方法显著优于现有基线,验证了其有效性。

📝 摘要(中文)

本文提出了一种轻量级的两阶段图像检索流程,该流程利用事件中心的实体提取来整合真实场景字幕中的时间和上下文信息。第一阶段基于显著实体,使用BM25算法进行高效的候选过滤。第二阶段应用BEiT-3模型来捕捉深层的多模态语义,并对结果进行重排序。在OpenEvents v1基准测试中,该方法实现了0.559的平均精度均值(mAP),显著优于先前的基线方法。这些结果突显了将事件引导的过滤与长文本视觉-语言建模相结合,在复杂的真实场景中实现准确高效检索的有效性。代码已开源。

🔬 方法详解

问题定义:论文旨在解决复杂真实场景下,基于自然语言描述的图像检索问题。现有方法在处理模糊或上下文相关的查询、语言变异性以及保证检索的可扩展性方面存在不足。特别是在事件相关的图像检索中,如何有效利用事件信息是一个挑战。

核心思路:论文的核心思路是利用事件相关的实体信息来指导图像检索过程。通过提取图像描述中的关键实体,可以有效地缩小检索范围,并结合深度多模态语义模型进行精确匹配。这种两阶段的方法旨在提高检索的效率和准确性。

技术框架:该方法包含两个主要阶段:1) 基于BM25的候选过滤阶段:从图像描述中提取显著实体,并使用BM25算法对图像数据库进行初步筛选,得到候选图像集合。2) 基于BEiT-3的重排序阶段:利用BEiT-3模型对候选图像和文本描述进行多模态语义建模,计算它们之间的相似度,并根据相似度对候选图像进行重排序,最终返回检索结果。

关键创新:该方法的主要创新在于将轻量级的事件实体提取与强大的视觉-语言模型相结合,形成一个高效且准确的图像检索流程。通过事件实体提取,可以有效地利用图像描述中的上下文信息,从而提高检索的针对性和准确性。此外,两阶段的检索框架也提高了检索的效率。

关键设计:在第一阶段,使用预训练的实体识别模型提取图像描述中的实体,并选择显著性较高的实体作为BM25算法的查询词。在第二阶段,使用预训练的BEiT-3模型进行多模态语义建模,并使用余弦相似度作为图像和文本之间的相似度度量。具体的参数设置和网络结构细节可以参考BEiT-3的原始论文。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

该方法在OpenEvents v1基准测试中取得了显著的成果,平均精度均值(mAP)达到了0.559,大幅超越了现有的基线方法。这一结果表明,结合事件引导的过滤和长文本视觉-语言建模能够有效提升复杂真实场景下的图像检索性能。

🎯 应用场景

该研究成果可应用于搜索引擎、媒体存档和数字内容管理等领域。通过更准确地理解图像内容和用户查询意图,可以提升图像检索的效率和用户体验。未来,该方法可以扩展到视频检索、跨模态检索等更广泛的应用场景。

📄 摘要(原文)

Retrieving images from natural language descriptions is a core task at the intersection of computer vision and natural language processing, with wide-ranging applications in search engines, media archiving, and digital content management. However, real-world image-text retrieval remains challenging due to vague or context-dependent queries, linguistic variability, and the need for scalable solutions. In this work, we propose a lightweight two-stage retrieval pipeline that leverages event-centric entity extraction to incorporate temporal and contextual signals from real-world captions. The first stage performs efficient candidate filtering using BM25 based on salient entities, while the second stage applies BEiT-3 models to capture deep multimodal semantics and rerank the results. Evaluated on the OpenEvents v1 benchmark, our method achieves a mean average precision of 0.559, substantially outperforming prior baselines. These results highlight the effectiveness of combining event-guided filtering with long-text vision-language modeling for accurate and efficient retrieval in complex, real-world scenarios. Our code is available at https://github.com/PhamPhuHoa-23/Event-Based-Image-Retrieval