What Matters for Grocery Product Retrieval with Open Source Vision Language Models

作者: Emmanuel G. Maminta, Rowel O. Atienza

分类: cs.CV

发布日期: 2026-05-18

备注: Accepted in the 28th International Conference on Pattern Recognition (ICPR 2026)

🔗 代码/项目: GITHUB

💡 一句话要点

提出系统评估方法以提升杂货产品检索精度

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态产品检索 视觉语言模型 数据质量 模型效率 SKU区分

📋 核心要点

现有的视觉语言模型在细粒度SKU区分上存在不足，无法满足无结账零售和自动化库存系统的需求。
本文通过系统评估开源视觉语言模型，提出了数据质量、模型效率和精度差距等关键发现，以提升MPR任务的表现。
实验结果表明，使用过滤数据集可提高准确率，MobileCLIP-B在参数较少的情况下超越了更大模型，且存在显著的Recall@1和Recall@5的精度差距。

📝 摘要（中文）

多模态产品检索（MPR）是无结账零售和自动化库存系统的基础，但现有的视觉语言基准无法有效捕捉细粒度的SKU区分。本文首次对190种开源视觉语言模型（VLMs）在GroceryVision挑战中的MPR任务进行系统的零-shot评估，分析了预训练数据、架构和输入分辨率的影响。研究发现：数据质量优于规模，使用过滤数据集可提高16.6%的准确率；高效模型表现优异，MobileCLIP-B在150M参数下超越了351M的噪声数据模型；尽管最先进模型在Recall@5上达到94.5%，但在Recall@1上却下降17.5%，显示对比嵌入在类别聚类上有效，但在视觉相似SKU排名上存在不足。

🔬 方法详解

问题定义：本文旨在解决多模态产品检索（MPR）中SKU的细粒度区分问题，现有方法在这一方面表现不佳，无法满足实际应用需求。

核心思路：通过对190种开源视觉语言模型进行系统的零-shot评估，分析不同因素对MPR任务的影响，提出数据质量和模型效率的重要性。

技术框架：研究首先对预训练数据进行过滤，然后评估不同模型架构和输入分辨率的影响，最后对模型的性能进行比较和分析。

关键创新：提出了“语义功率密度”（semantic power density）作为评估模型效率的新指标，强调了数据质量在模型性能中的重要性。

关键设计：在实验中，使用了过滤后的数据集，评估了不同模型参数设置对准确率的影响，特别关注了Recall@1和Recall@5的表现差异。通过这些设计，研究揭示了模型在视觉相似SKU排名中的不足。

🖼️ 关键图片

📊 实验亮点

实验结果显示，使用过滤数据集可提高多达16.6%的准确率，MobileCLIP-B在150M参数下超越了351M参数的模型，尽管在Recall@5上表现优异，但在Recall@1上存在17.5%的精度下降，揭示了模型在SKU排名中的不足之处。

🎯 应用场景

该研究的成果可广泛应用于无结账零售、自动化库存管理和智能购物助手等领域，提升产品检索的准确性和效率，推动相关技术的商业化进程。未来，随着模型和数据集的不断优化，预计将进一步改善用户体验和运营效率。

📄 摘要（原文）

Multimodal product retrieval (MPR) underpins checkout-free retail and automated inventory systems, yet it demands fine-grained SKU discrimination that standard vision-language benchmarks fail to capture. We present the first systematic zero-shot evaluation of 190 open-source VLMs on the MPR task of the GroceryVision Challenge, isolating pre-training data, architecture, and input resolution. Our analysis yields three actionable findings. \textbf{(1) Data quality trumps scale.} Switching from raw web-scrapes to filtered datasets delivers up to 16.6\% accuracy gains, exceeding the benefit of doubling model parameters. \textbf{(2) Efficient models can win.} MobileCLIP-B (150M parameters) outperforms 351M counterparts trained on noisy data. We introduce \textit{semantic power density} ($φ$), an efficiency metric that penalizes sub-threshold accuracy. \textbf{(3) A precision gap persists.} State-of-the-art models achieve 94.5\% Recall@5 but suffer a 17.5\% drop at Recall@1, revealing that contrastive embeddings cluster categories effectively but fail to rank visually similar SKUs. Code and evaluation scripts are available at \url{https://github.com/upeee/openmpr}.

What Matters for Grocery Product Retrieval with Open Source Vision Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理