TIGER-FG: Text-Guided Implicit Fine-Grained Grounding for E-commerce Retrieval

📄 arXiv: 2605.18434v1 📥 PDF

作者: Xinyu Sun, Huangyu Dai, Lingtao Mao, Zexin Zheng, Zihan Liang, Ben Chen, Chenyi Lei, Wenwu Ou

分类: cs.IR, cs.CV

发布日期: 2026-05-18


💡 一句话要点

提出TIGER-FG框架,利用文本引导的隐式细粒度 grounding 解决电商检索中的模态和粒度差异问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电商检索 图文匹配 细粒度 grounding 文本引导 多模态融合

📋 核心要点

  1. 电商图像检索面临模态和粒度差异挑战,现有方法或依赖目标检测导致误差传递,或易受背景干扰。
  2. TIGER-FG 利用商品文本作为语义引导,隐式地聚焦于目标区域,生成更具区分性的商品表征。
  3. 在 ECom-RF-IMMR 数据集上,TIGER-FG 显著提升了检索性能,Recall@1 最高提升 34.4 个百分点。

📝 摘要(中文)

本文提出了一种文本引导的隐式细粒度 grounding 框架 TIGER-FG,用于电商检索中的图文匹配问题。该框架旨在解决视觉查询与图文商品之间的模态差异(视觉 vs. 图文)和粒度差异(裁剪图像 vs. 完整图像)问题。TIGER-FG 利用商品文本作为语义引导,生成目标聚焦的商品表征,无需目标检测。此外,引入双重蒸馏目标,保持目标区域的空间一致性和查询-商品相似度结构,从而产生更稳定和具有区分性的多模态表征。同时,构建了一个名为 ECom-RF-IMMR 的真实基准数据集,包含一个 10M 对的训练集和两个评估基准,涵盖标准和杂乱的商品布局。实验结果表明,TIGER-FG 在两个评估基准上,Recall@1 相对于最强基线分别提高了 6.1 和 34.4 个百分点,且仅使用 85.7M 的查询侧参数和 256 维的嵌入。在公共电商基准上的结果进一步证明了其对噪声和一对多检索场景的泛化能力。

🔬 方法详解

问题定义:电商图像检索任务中,查询通常是裁剪后的商品图像,而候选集是包含完整商品图像和结构化文本的多模态数据。这导致了两个主要问题:一是模态差异,即视觉查询需要匹配图文混合的数据;二是粒度差异,即裁剪的查询图像需要与包含背景和干扰因素的完整图像进行比较。现有的基于检测的方法虽然可以定位目标,但会引入额外的计算成本和误差传递。而 CLIP 风格的编码器虽然避免了检测,但容易受到背景或无关商品的影响。

核心思路:TIGER-FG 的核心思路是利用商品文本作为语义引导,隐式地将模型注意力集中在目标商品区域,从而生成目标聚焦的商品表征。通过文本引导,模型可以更好地理解图像中哪些区域是重要的,从而减少背景和干扰因素的影响。这种方法避免了显式的目标检测,降低了计算成本和误差传递的风险。

技术框架:TIGER-FG 的整体框架包含图像编码器、文本编码器和多模态融合模块。图像编码器负责提取查询图像和商品图像的视觉特征。文本编码器负责提取商品文本的语义特征。多模态融合模块将视觉特征和语义特征进行融合,生成最终的商品表征。此外,框架还包含双重蒸馏目标,用于保持目标区域的空间一致性和查询-商品相似度结构。

关键创新:TIGER-FG 的关键创新在于使用文本引导的隐式细粒度 grounding。与传统的基于检测的方法相比,TIGER-FG 避免了显式的目标检测,从而降低了计算成本和误差传递的风险。与 CLIP 风格的编码器相比,TIGER-FG 利用文本信息来引导模型关注目标区域,从而减少了背景和干扰因素的影响。

关键设计:TIGER-FG 使用预训练的视觉 Transformer 作为图像编码器,使用预训练的文本 Transformer 作为文本编码器。多模态融合模块使用 cross-attention 机制将视觉特征和语义特征进行融合。双重蒸馏目标包含两个部分:一是空间一致性蒸馏,用于保持目标区域的空间结构;二是相似度结构蒸馏,用于保持查询-商品之间的相似度关系。损失函数由交叉熵损失和蒸馏损失加权组成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TIGER-FG 在自建的 ECom-RF-IMMR 数据集上取得了显著的性能提升。在标准商品布局的评估基准上,Recall@1 提升了 6.1 个百分点;在杂乱商品布局的评估基准上,Recall@1 提升了 34.4 个百分点。此外,TIGER-FG 仅使用 85.7M 的查询侧参数和 256 维的嵌入,表明其具有较高的效率。

🎯 应用场景

TIGER-FG 可应用于电商平台的图像搜索和推荐系统,提升用户通过裁剪图像查找商品或相似商品的能力。该技术能够有效处理复杂背景和干扰因素,提高检索准确率和用户体验。未来可扩展到其他多模态检索场景,如社交媒体内容检索、视频内容分析等。

📄 摘要(原文)

E-commerce image search often takes a cropped image as the query, while each candidate is represented by full item images and structured text. This image-to-multimodal retrieval setting presents two asymmetries: a modality disparity -- a visual query must match image--text items, and a granularity disparity -- a cropped query must be compared with full images containing background context and possible distractors. Detection-based pipelines handle the granularity disparity through explicit localization but incur extra cost and error propagation, whereas CLIP-style encoders avoid detection, but are vulnerable to backgrounds or irrelevant items. To address these limitations, we propose TIGER-FG, a text-guided implicit fine-grained grounding framework for image-to-multimodal e-commerce retrieval. TIGER-FG uses item text as semantic guidance to produce target-focused item representations without object detection for retrieval. We further introduce dual distillation objectives that preserve target-region spatial consistency and query--item similarity structure, yielding more stable and discriminative multimodal representations. In addition, we construct ECom-RF-IMMR, a realistic benchmark suite with a 10M-pair training set and two evaluation benchmarks covering standard and cluttered item layouts. TIGER-FG improves Recall@1 over the strongest baseline by 6.1 and 34.4 percentage points on the two evaluation benchmarks, respectively, with only 85.7M query-side parameters and 256-dim embeddings. Results on public e-commerce benchmarks further demonstrate its generalization to noisy and one-to-many retrieval scenarios. Code and data will be released.