SORCE: Small Object Retrieval in Complex Environments

📄 arXiv: 2505.24441v1 📥 PDF

作者: Chunxu Liu, Chi Xie, Xiaxu Chen, Wei Li, Feng Zhu, Rui Zhao, Limin Wang

分类: cs.CV

发布日期: 2025-05-30

备注: Project Page: https://github.com/MCG-NJU/SORCE


💡 一句话要点

SORCE:提出复杂环境中基于文本的小目标检索新基准与多嵌入表示方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本图像检索 小目标检测 多模态学习 大型语言模型 区域提示 复杂环境 图像嵌入

📋 核心要点

  1. 现有T2IR方法难以捕捉复杂环境中不显眼的小目标,导致检索性能不佳。
  2. 提出使用多模态大型语言模型(MLLM)和区域提示(ReP)为每个图像提取多个嵌入。
  3. 实验表明,该方法在SORCE-1K基准上显著优于现有T2IR方法,验证了其有效性。

📝 摘要(中文)

本文提出了文本到图像检索(T2IR)的一个新子领域:复杂环境中基于文本的小目标检索(SORCE)。现有基准测试主要关注描述整体图像语义或前景显著对象的文本查询,可能忽略了复杂环境中不显眼的小目标。针对这一问题,本文提出了SORCE-1K基准,包含复杂环境图像和描述不显眼小目标的文本查询,这些查询几乎没有来自其他显著对象的上下文线索。初步分析表明,现有的T2IR方法难以捕捉小目标并将所有语义编码到单个嵌入中,导致在SORCE-1K上的检索性能较差。因此,本文提出用多个不同的嵌入来表示每个图像。利用多模态大型语言模型(MLLM),通过一组区域提示(ReP)提取每个图像的多个嵌入。实验结果表明,通过MLLM和ReP的多嵌入方法显著优于现有的T2IR方法。实验验证了SORCE-1K在基准测试SORCE性能方面的有效性,突出了多嵌入表示和文本定制的MLLM特征在解决该任务方面的潜力。

🔬 方法详解

问题定义:论文旨在解决复杂环境中基于文本的小目标检索问题。现有T2IR方法主要关注显著对象,忽略了图像中不显眼的小目标,导致在实际应用中无法有效检索用户感兴趣的特定小物体。现有方法通常将图像编码为单个全局嵌入,难以捕捉小目标的细粒度特征和上下文信息。

核心思路:论文的核心思路是使用多嵌入表示图像,而非传统的单嵌入。通过多嵌入,模型可以更好地捕捉图像中不同区域和对象的特征,从而提高小目标检索的准确性。利用多模态大型语言模型(MLLM)提取图像的多个区域特征,并结合文本查询进行匹配。

技术框架:整体框架包含以下几个主要步骤:1) 使用区域提示(ReP)指导MLLM关注图像的不同区域。2) MLLM根据区域提示提取每个区域的特征嵌入。3) 将所有区域嵌入与文本查询的嵌入进行匹配,计算相似度。4) 根据相似度对图像进行排序,返回检索结果。

关键创新:关键创新在于使用MLLM和区域提示相结合的方式,为图像生成多个具有区分性的区域嵌入。这种方法能够更有效地捕捉小目标的特征,并克服了传统单嵌入方法的局限性。通过文本定制的MLLM特征,模型可以更好地理解文本查询的意图,并找到与查询相关的小目标。

关键设计:区域提示(ReP)的设计是关键。论文可能采用预定义的区域划分策略,或者使用目标检测算法自动生成区域建议。损失函数的设计也至关重要,可能采用对比学习损失或三元组损失,以鼓励相似的图像-文本对具有更接近的嵌入表示,而不相似的图像-文本对具有更远的嵌入表示。具体的MLLM模型选择和参数设置未知,但选择合适的MLLM模型至关重要。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了SORCE-1K基准,填补了复杂环境中基于文本的小目标检索领域的空白。实验结果表明,提出的多嵌入方法显著优于现有的T2IR方法,验证了该方法的有效性。具体的性能提升数据未知,但强调了MLLM和ReP在提高检索性能方面的潜力。

🎯 应用场景

该研究成果可应用于智能安防、智能零售、工业质检等领域。例如,在智能安防中,可以通过文本描述快速检索监控视频中出现的特定小物体,如遗失物品或可疑物品。在智能零售中,可以帮助用户根据文本描述找到货架上的特定商品。未来,该技术有望进一步提升图像检索的精度和效率,并扩展到更多实际应用场景。

📄 摘要(原文)

Text-to-Image Retrieval (T2IR) is a highly valuable task that aims to match a given textual query to images in a gallery. Existing benchmarks primarily focus on textual queries describing overall image semantics or foreground salient objects, possibly overlooking inconspicuous small objects, especially in complex environments. Such small object retrieval is crucial, as in real-world applications, the targets of interest are not always prominent in the image. Thus, we introduce SORCE (Small Object Retrieval in Complex Environments), a new subfield of T2IR, focusing on retrieving small objects in complex images with textual queries. We propose a new benchmark, SORCE-1K, consisting of images with complex environments and textual queries describing less conspicuous small objects with minimal contextual cues from other salient objects. Preliminary analysis on SORCE-1K finds that existing T2IR methods struggle to capture small objects and encode all the semantics into a single embedding, leading to poor retrieval performance on SORCE-1K. Therefore, we propose to represent each image with multiple distinctive embeddings. We leverage Multimodal Large Language Models (MLLMs) to extract multiple embeddings for each image instructed by a set of Regional Prompts (ReP). Experimental results show that our multi-embedding approach through MLLM and ReP significantly outperforms existing T2IR methods on SORCE-1K. Our experiments validate the effectiveness of SORCE-1K for benchmarking SORCE performances, highlighting the potential of multi-embedding representation and text-customized MLLM features for addressing this task.