Zero-Shot Product Attribute Labeling with Vision-Language Models: A Three-Tier Evaluation Framework

作者: Shubham Shukla, Kunal Sonalkar

分类: cs.CV

发布日期: 2026-01-22

备注: Accepted to WACV 2026 Workshop on Physical Retail AI (PRAW)

💡 一句话要点

提出三层评估框架，利用视觉-语言模型实现零样本产品属性标注

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 零样本学习 属性标注 时尚零售 评估框架

📋 核心要点

现有方法在时尚属性预测中，忽略了属性适用性的检测，导致模型在不适用的情况下进行分类，影响整体性能。
论文提出一个三层评估框架，将属性预测分解为总体性能、适用性检测和细粒度分类三个层次，从而更全面地评估模型。
实验结果表明，视觉-语言模型在细粒度分类上表现出色，但在适用性检测上存在瓶颈，高效模型在性能和成本之间取得了较好的平衡。

📝 摘要（中文）

细粒度属性预测对于时尚零售应用至关重要，包括目录丰富、视觉搜索和推荐系统。视觉-语言模型(VLM)提供无需特定任务训练的零样本预测，但其在多属性时尚任务上的系统评估仍未被充分探索。一个关键挑战是时尚属性通常是条件性的。例如，当没有外部服装可见时，“外部面料”是未定义的。这要求模型在尝试分类之前检测属性适用性。我们引入了一个三层评估框架来分解这个挑战：(1)所有属性的所有类别（包括NA类：表示属性不适用）的总体任务性能，(2)属性适用性检测，(3)属性可确定时的细粒度分类。使用DeepFashion-MultiModal，它在属性标签空间中显式定义了NA（意味着属性不存在或不可见），我们针对在预训练的Fashion-CLIP嵌入上训练的分类器，在18个属性的5,000张图像上，对九个VLM进行了基准测试，这些VLM涵盖了旗舰级（GPT-5，Gemini 2.5 Pro）、高效级（GPT-5 Mini，Gemini 2.5 Flash）和超高效级（GPT-5 Nano，Gemini 2.5 Flash-Lite）。我们的发现表明：(1)零样本VLM实现了64.0%的宏F1，比预训练的Fashion-CLIP嵌入上的逻辑回归提高了三倍；(2)VLM擅长细粒度分类（第三层：70.8% F1），但在适用性检测方面表现不佳（第二层：34.1% NA-F1），这是一个关键瓶颈；(3)高效模型以较低的成本实现了超过90%的旗舰性能，提供了实际的部署路径。这种诊断框架使从业者能够查明错误是源于可见性检测还是分类，从而指导针对生产系统的有针对性的改进。

🔬 方法详解

问题定义：论文旨在解决时尚产品属性的零样本标注问题，特别关注属性适用性的判断。现有方法通常直接进行属性分类，忽略了某些属性可能并不适用于特定图像的情况（例如，图像中没有外套，则“外套面料”属性不适用）。这种忽略导致模型在不适用的情况下进行错误的分类，降低了整体性能。

核心思路：论文的核心思路是将属性标注任务分解为三个层次的评估：首先评估整体任务性能，包括所有类别（包括“不适用”类别）；然后评估模型检测属性适用性的能力；最后评估在属性适用情况下的细粒度分类能力。通过这种分层评估，可以更清晰地了解模型的优势和不足。

技术框架：论文提出的三层评估框架包含以下几个阶段：1) 数据准备：使用DeepFashion-MultiModal数据集，该数据集明确标注了属性的“不适用”情况。2) 模型选择：选择多个视觉-语言模型（VLMs）进行评估，包括旗舰级、高效级和超高效级模型。3) 评估指标：使用宏F1分数作为评估指标，分别评估整体任务性能、属性适用性检测和细粒度分类能力。4) 基线模型：使用在预训练的Fashion-CLIP嵌入上训练的逻辑回归分类器作为基线模型。

关键创新：论文的关键创新在于提出了一个三层评估框架，该框架能够诊断VLMs在零样本属性标注任务中的性能瓶颈。通过将任务分解为属性适用性检测和细粒度分类两个子任务，可以更准确地评估模型的性能，并指导模型改进的方向。

关键设计：该框架的关键设计在于明确区分了属性适用性检测和细粒度分类两个阶段。在第一层评估中，模型需要预测所有类别，包括“不适用”类别。在第二层评估中，只评估模型预测“不适用”类别的能力。在第三层评估中，只评估在属性适用情况下的细粒度分类能力。这种分层评估方式能够更全面地了解模型的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，零样本VLM在整体任务上实现了64.0%的宏F1分数，比基于Fashion-CLIP嵌入的逻辑回归分类器提高了三倍。VLM在细粒度分类方面表现出色（70.8% F1），但在属性适用性检测方面存在瓶颈（34.1% NA-F1）。高效模型以较低的成本实现了超过90%的旗舰模型性能。

🎯 应用场景

该研究成果可应用于时尚零售领域的多个方面，例如自动目录丰富、视觉搜索和推荐系统。通过提高产品属性标注的准确性，可以改善用户体验，提高销售额。此外，该研究提出的评估框架可以用于评估其他视觉-语言模型在类似任务中的性能，并指导模型改进。

📄 摘要（原文）

Fine-grained attribute prediction is essential for fashion retail applications including catalog enrichment, visual search, and recommendation systems. Vision-Language Models (VLMs) offer zero-shot prediction without task-specific training, yet their systematic evaluation on multi-attribute fashion tasks remains underexplored. A key challenge is that fashion attributes are often conditional. For example, "outer fabric" is undefined when no outer garment is visible. This requires models to detect attribute applicability before attempting classification. We introduce a three-tier evaluation framework that decomposes this challenge: (1) overall task performance across all classes (including NA class: suggesting attribute is not applicable) for all attributes, (2) attribute applicability detection, and (3) fine-grained classification when attributes are determinable. Using DeepFashion-MultiModal, which explicitly defines NA (meaning attribute doesn't exist or is not visible) within attribute label spaces, we benchmark nine VLMs spanning flagship (GPT-5, Gemini 2.5 Pro), efficient (GPT-5 Mini, Gemini 2.5 Flash), and ultra-efficient tiers (GPT-5 Nano, Gemini 2.5 Flash-Lite) against classifiers trained on pretrained Fashion-CLIP embeddings on 5,000 images across 18 attributes. Our findings reveal that: (1) zero-shot VLMs achieve 64.0% macro-F1, a threefold improvement over logistic regression on pretrained Fashion-CLIP embeddings; (2) VLMs excel at fine-grained classification (Tier 3: 70.8% F1) but struggle with applicability detection (Tier 2: 34.1% NA-F1), identifying a key bottleneck; (3) efficient models achieve over 90% of flagship performance at lower cost, offering practical deployment paths. This diagnostic framework enables practitioners to pinpoint whether errors stem from visibility detection or classification, guiding targeted improvements for production systems.

Zero-Shot Product Attribute Labeling with Vision-Language Models: A Three-Tier Evaluation Framework

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理