Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions
作者: Prajwal Gatti, Kshitij Parikh, Dhriti Prasanna Paul, Manish Gupta, Anand Mishra
分类: cs.CV, cs.AI, cs.CL, cs.IR, cs.MM
发布日期: 2025-02-12
备注: Accepted at AAAI 2024, 9 pages. Project Website: https://vl2g.github.io/projects/cstbir
💡 一句话要点
提出STNET模型,解决复合草图+文本查询的图像检索难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像检索 草图检索 文本检索 多模态融合 Transformer 复合查询 CSTBIR数据集
📋 核心要点
- 现有图像检索方法难以处理用户既无法准确描述又难以绘制的复杂场景和对象。
- 提出STNET模型,利用草图定位对象,结合文本描述场景交互,实现复合模态检索。
- 实验结果表明,STNET在CSTBIR数据集上优于现有文本、草图和复合查询检索方法。
📝 摘要(中文)
本文针对非母语人士在词汇量有限的情况下,难以用文字描述特定物体,但能够通过草图表达的问题,以及用户希望搜索难以通过草图表达的复杂交互场景的问题,提出了复合草图+文本的图像检索任务。为此,作者构建了一个名为CSTBIR的数据集,包含约200万个查询和10.8万张自然场景图像。同时,提出了一个基于预训练多模态Transformer的基线模型STNET,该模型利用手绘草图定位自然场景图像中的相关对象,并编码文本和图像以执行图像检索。除了对比学习之外,还提出了多个训练目标来提高模型的性能。大量实验表明,所提出的方法优于几种最先进的文本、草图和复合查询模态的检索方法。数据集和代码已在项目网站上公开。
🔬 方法详解
问题定义:论文旨在解决用户在搜索特定对象时,可能面临无法准确用文字描述对象名称,但可以绘制草图,以及难以用草图表达对象间的复杂交互的问题。现有基于文本或草图的图像检索方法(TBIR和SBIR)无法有效处理这种复合查询的情况,导致检索结果不理想。
核心思路:论文的核心思路是结合草图和文本两种模态的优势,利用草图定位图像中的目标对象,并利用文本描述对象的属性或与场景的交互。通过融合两种模态的信息,模型能够更准确地理解用户的查询意图,从而提高检索的准确率。
技术框架:STNET模型基于Transformer架构,包含以下主要模块:1) 草图编码器:用于提取草图的特征表示。2) 文本编码器:用于提取文本描述的特征表示。3) 图像编码器:用于提取自然场景图像的特征表示。4) 多模态融合模块:将草图、文本和图像的特征进行融合,得到统一的特征表示。5) 检索模块:根据融合后的特征表示,计算查询与图像之间的相似度,并返回最相似的图像。
关键创新:该论文的关键创新在于提出了复合草图+文本的图像检索任务,并构建了相应的CSTBIR数据集。此外,STNET模型通过多模态Transformer架构,有效地融合了草图和文本的信息,从而提高了检索的准确率。
关键设计:STNET模型采用了预训练的Transformer模型作为基础架构,并针对复合查询任务进行了优化。在训练过程中,除了使用对比学习损失函数外,还引入了多个辅助训练目标,例如草图-图像匹配损失、文本-图像匹配损失等,以提高模型的性能。具体的网络结构和参数设置在论文中有详细描述,但具体数值未知。
🖼️ 关键图片
📊 实验亮点
STNET模型在CSTBIR数据集上进行了广泛的实验,结果表明,该模型在文本、草图和复合查询模态下均优于现有的检索方法。具体的性能提升幅度未知,但论文强调了STNET在处理复合查询方面的优势,证明了结合草图和文本信息能够显著提高图像检索的准确率。
🎯 应用场景
该研究成果可应用于图像搜索引擎,特别是针对具有复杂交互场景或用户难以准确描述的对象的搜索。例如,在教育领域,学生可以通过绘制草图并结合文字描述来查找特定动植物的图片;在电商领域,用户可以通过草图和文字描述来搜索具有特定属性或功能的商品。该技术还可应用于辅助视觉障碍人士进行图像理解和检索。
📄 摘要(原文)
Non-native speakers with limited vocabulary often struggle to name specific objects despite being able to visualize them, e.g., people outside Australia searching for numbats. Further, users may want to search for such elusive objects with difficult-to-sketch interactions, e.g., numbat digging in the ground. In such common but complex situations, users desire a search interface that accepts composite multimodal queries comprising hand-drawn sketches of difficult-to-name but easy-to-draw objects and text describing difficult-to-sketch but easy-to-verbalize object attributes or interaction with the scene. This novel problem statement distinctly differs from the previously well-researched TBIR (text-based image retrieval) and SBIR (sketch-based image retrieval) problems. To study this under-explored task, we curate a dataset, CSTBIR (Composite Sketch+Text Based Image Retrieval), consisting of approx. 2M queries and 108K natural scene images. Further, as a solution to this problem, we propose a pretrained multimodal transformer-based baseline, STNET (Sketch+Text Network), that uses a hand-drawn sketch to localize relevant objects in the natural scene image, and encodes the text and image to perform image retrieval. In addition to contrastive learning, we propose multiple training objectives that improve the performance of our model. Extensive experiments show that our proposed method outperforms several state-of-the-art retrieval methods for text-only, sketch-only, and composite query modalities. We make the dataset and code available at our project website.