Benchmarking Image Embeddings for E-Commerce: Evaluating Off-the Shelf Foundation Models, Fine-Tuning Strategies and Practical Trade-offs
作者: Urszula Czerwinska, Cenk Bircanoglu, Jeremy Chamoux
分类: cs.CV, cs.AI, cs.CE, cs.IR, cs.LG
发布日期: 2025-04-10
备注: accepted at Future Technologies Conference (FTC 2025)
💡 一句话要点
电商图像嵌入基准测试:评估预训练模型、微调策略与实际权衡
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像嵌入 电商 基准测试 预训练模型 微调策略
📋 核心要点
- 现有电商图像嵌入方法在模型选择和微调策略上缺乏系统性的评估和指导,难以在效率和性能之间取得平衡。
- 通过对多种预训练模型和微调策略进行基准测试,为电商图像嵌入提供实用的选择和微调指南,平衡效率和性能。
- 实验表明,全微调性能稳定,文本-图像和自监督嵌入通过顶层微调能以更少训练量达到相近性能,顶层微调是高效替代方案。
📝 摘要(中文)
本文对电商领域的图像分类和检索任务中的图像嵌入进行了基准测试,评估了它们在实际应用中的适用性。研究涵盖了通过监督学习、自监督学习和文本-图像对比学习预训练的卷积和Transformer模型的嵌入。评估了在六个不同的电商数据集(时尚、消费品、汽车、食品和零售)上的全微调和迁移学习(顶层微调)。结果表明,全微调始终表现良好,而文本-图像和自监督嵌入可以通过较少的训练达到与其相当的性能。虽然监督嵌入在不同架构中保持稳定,但SSL和对比嵌入差异显著,通常受益于顶层微调。顶层微调成为全微调的一种高效替代方案,降低了计算成本。还探讨了交叉微调,发现其影响取决于数据集特征。研究结果为嵌入选择和微调策略提供了实用的指导,平衡了效率和性能。
🔬 方法详解
问题定义:电商图像分类和检索任务需要高质量的图像嵌入,但现有方法在选择合适的预训练模型和微调策略时面临挑战。不同的预训练方法(监督、自监督、对比学习)和微调策略(全微调、顶层微调)在不同数据集上的表现差异很大,缺乏统一的评估标准和实践指导。计算资源有限的情况下,如何选择最优的嵌入模型和微调策略是一个关键问题。
核心思路:通过对多种预训练的卷积和Transformer模型进行全面的基准测试,评估它们在不同电商数据集上的分类和检索性能。比较全微调和顶层微调等不同微调策略的效率和效果,并分析不同预训练方法(监督、自监督、对比学习)对嵌入性能的影响。核心在于找到在计算资源和性能之间取得最佳平衡的嵌入模型和微调策略。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 选择具有代表性的预训练图像嵌入模型,包括基于卷积神经网络(CNN)和Transformer的模型,以及通过监督学习、自监督学习和文本-图像对比学习训练的模型。2) 选择六个不同的电商数据集,涵盖时尚、消费品、汽车、食品和零售等领域。3) 对选定的模型在各个数据集上进行全微调和顶层微调,并评估其分类和检索性能。4) 分析不同预训练方法和微调策略对嵌入性能的影响,并提出实用的选择和微调指南。
关键创新:该研究的关键创新在于对电商领域的图像嵌入进行了全面的基准测试,系统地比较了不同预训练模型和微调策略的性能。与以往的研究相比,该研究不仅关注模型的性能,还考虑了计算效率,为实际应用提供了更实用的指导。此外,该研究还探讨了交叉微调的影响,并分析了其与数据集特征的关系。
关键设计:在实验设计方面,该研究采用了多种评估指标,包括分类准确率和检索性能指标,以全面评估嵌入的质量。在微调策略方面,该研究比较了全微调和顶层微调,并分析了它们的优缺点。在模型选择方面,该研究涵盖了多种预训练模型,包括基于CNN和Transformer的模型,以及通过不同预训练方法训练的模型。损失函数根据具体任务选择,例如分类任务使用交叉熵损失,检索任务可能使用对比损失或三元组损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,全微调始终表现良好,但文本-图像和自监督嵌入可以通过顶层微调以更少的训练量达到相近性能。顶层微调作为全微调的高效替代方案,显著降低了计算成本。此外,监督嵌入在不同架构中表现稳定,而SSL和对比嵌入差异较大,通常受益于顶层微调。在特定数据集上,顶层微调相比全微调,性能差距小于1%。
🎯 应用场景
该研究成果可广泛应用于电商领域的图像相关任务,例如商品分类、相似商品推荐、图像搜索等。通过选择合适的预训练模型和微调策略,可以提高电商平台的商品识别和检索效率,提升用户体验,并降低计算成本。该研究还为其他领域的图像嵌入应用提供了参考。
📄 摘要(原文)
We benchmark foundation models image embeddings for classification and retrieval in e-Commerce, evaluating their suitability for real-world applications. Our study spans embeddings from pre-trained convolutional and transformer models trained via supervised, self-supervised, and text-image contrastive learning. We assess full fine-tuning and transfer learning (top-tuning) on six diverse e-Commerce datasets: fashion, consumer goods, cars, food, and retail. Results show full fine-tuning consistently performs well, while text-image and self-supervised embeddings can match its performance with less training. While supervised embeddings remain stable across architectures, SSL and contrastive embeddings vary significantly, often benefiting from top-tuning. Top-tuning emerges as an efficient alternative to full fine-tuning, reducing computational costs. We also explore cross-tuning, noting its impact depends on dataset characteristics. Our findings offer practical guidelines for embedding selection and fine-tuning strategies, balancing efficiency and performance.