What Matters for Grocery Product Retrieval with Open Source Vision Language Models

📄 arXiv: 2605.18029v1 📥 PDF

作者: Emmanuel G. Maminta, Rowel O. Atienza

分类: cs.CV

发布日期: 2026-05-18

备注: Accepted in the 28th International Conference on Pattern Recognition (ICPR 2026)

🔗 代码/项目: GITHUB


💡 一句话要点

提出系统评估方法以提升杂货产品检索精度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态产品检索 视觉语言模型 数据质量 模型效率 SKU区分

📋 核心要点

  1. 现有的视觉语言模型在细粒度SKU区分上存在不足,无法满足无结账零售和自动化库存系统的需求。
  2. 本文通过系统评估开源视觉语言模型,提出了数据质量、模型效率和精度差距等关键发现,以提升MPR任务的表现。
  3. 实验结果表明,使用过滤数据集可提高准确率,MobileCLIP-B在参数较少的情况下超越了更大模型,且存在显著的Recall@1和Recall@5的精度差距。

📝 摘要(中文)

多模态产品检索(MPR)是无结账零售和自动化库存系统的基础,但现有的视觉语言基准无法有效捕捉细粒度的SKU区分。本文首次对190种开源视觉语言模型(VLMs)在GroceryVision挑战中的MPR任务进行系统的零-shot评估,分析了预训练数据、架构和输入分辨率的影响。研究发现:数据质量优于规模,使用过滤数据集可提高16.6%的准确率;高效模型表现优异,MobileCLIP-B在150M参数下超越了351M的噪声数据模型;尽管最先进模型在Recall@5上达到94.5%,但在Recall@1上却下降17.5%,显示对比嵌入在类别聚类上有效,但在视觉相似SKU排名上存在不足。

🔬 方法详解

问题定义:本文旨在解决多模态产品检索(MPR)中SKU的细粒度区分问题,现有方法在这一方面表现不佳,无法满足实际应用需求。

核心思路:通过对190种开源视觉语言模型进行系统的零-shot评估,分析不同因素对MPR任务的影响,提出数据质量和模型效率的重要性。

技术框架:研究首先对预训练数据进行过滤,然后评估不同模型架构和输入分辨率的影响,最后对模型的性能进行比较和分析。

关键创新:提出了“语义功率密度”(semantic power density)作为评估模型效率的新指标,强调了数据质量在模型性能中的重要性。

关键设计:在实验中,使用了过滤后的数据集,评估了不同模型参数设置对准确率的影响,特别关注了Recall@1和Recall@5的表现差异。通过这些设计,研究揭示了模型在视觉相似SKU排名中的不足。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,使用过滤数据集可提高多达16.6%的准确率,MobileCLIP-B在150M参数下超越了351M参数的模型,尽管在Recall@5上表现优异,但在Recall@1上存在17.5%的精度下降,揭示了模型在SKU排名中的不足之处。

🎯 应用场景

该研究的成果可广泛应用于无结账零售、自动化库存管理和智能购物助手等领域,提升产品检索的准确性和效率,推动相关技术的商业化进程。未来,随着模型和数据集的不断优化,预计将进一步改善用户体验和运营效率。

📄 摘要(原文)

Multimodal product retrieval (MPR) underpins checkout-free retail and automated inventory systems, yet it demands fine-grained SKU discrimination that standard vision-language benchmarks fail to capture. We present the first systematic zero-shot evaluation of 190 open-source VLMs on the MPR task of the GroceryVision Challenge, isolating pre-training data, architecture, and input resolution. Our analysis yields three actionable findings. \textbf{(1) Data quality trumps scale.} Switching from raw web-scrapes to filtered datasets delivers up to 16.6\% accuracy gains, exceeding the benefit of doubling model parameters. \textbf{(2) Efficient models can win.} MobileCLIP-B (150M parameters) outperforms 351M counterparts trained on noisy data. We introduce \textit{semantic power density} ($φ$), an efficiency metric that penalizes sub-threshold accuracy. \textbf{(3) A precision gap persists.} State-of-the-art models achieve 94.5\% Recall@5 but suffer a 17.5\% drop at Recall@1, revealing that contrastive embeddings cluster categories effectively but fail to rank visually similar SKUs. Code and evaluation scripts are available at \url{https://github.com/upeee/openmpr}.