Efficient Learning for Product Attributes with Compact Multimodal Models

作者: Mandar Kulkarni

分类: cs.CV, cs.AI

发布日期: 2025-07-25

💡 一句话要点

提出基于DPO的半监督精调方法，提升电商产品属性预测中紧凑型多模态模型的效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 产品属性预测 半监督学习 直接偏好优化 视觉语言模型 参数高效微调 电商 多模态学习

📋 核心要点

电商产品属性预测依赖大量标注数据，但人工标注成本高昂，API标注也面临规模挑战。
利用直接偏好优化（DPO）和少量标注数据，结合未标注数据进行半监督微调，提升模型性能。
实验表明，该方法在多个电商垂直领域的数据集上，显著优于监督模型，且性能随未标注数据增加而提升。

📝 摘要（中文）

本文研究了电商中基于图像的产品属性预测任务，该任务具有广泛的应用。由于人工或API标注的成本，对视觉语言模型（VLMs）进行监督微调面临巨大的规模挑战。本文探索了针对紧凑型VLMs（2B-3B参数）的标签高效半监督微调策略，该策略利用直接偏好优化（DPO）来利用未标记的产品列表。从一个小的、基于API的、带注释和标记的数据集开始，我们首先采用PEFT来训练低秩适配器模块。为了使用未标记的数据更新适配器权重，我们为每个未标记的样本生成多个推理和答案链，并根据自我一致性将这些链分为首选和非首选。然后，我们使用DPO损失对模型进行微调，并将更新后的模型用于下一次迭代。通过使用带有DPO的PEFT微调，我们的方法实现了高效的收敛，且计算开销最小。在一个跨越十二个电子商务垂直领域的数据集上，仅使用未标记数据的基于DPO的微调，证明了相对于监督模型的显着改进。此外，实验表明，通过DPO训练，准确性随着更多未标记数据的增加而提高，这表明可以有效地利用大量的未标记样本来提高性能。

🔬 方法详解

问题定义：论文旨在解决电商领域中，基于图像的产品属性预测任务中，视觉语言模型（VLMs）因标注数据不足而难以有效微调的问题。现有方法依赖大量人工或API标注数据，成本高昂，限制了模型在实际场景中的应用。

核心思路：论文的核心思路是利用半监督学习，结合少量标注数据和大量未标注数据，通过直接偏好优化（DPO）来提升模型的性能。DPO通过学习不同推理链的偏好关系，使模型能够从未标注数据中学习知识，从而减少对标注数据的依赖。

技术框架：整体框架包括以下几个阶段：1) 使用少量标注数据，通过PEFT（Parameter-Efficient Fine-Tuning）训练低秩适配器模块；2) 对于每个未标注样本，生成多个推理和答案链；3) 基于自我一致性，将这些推理链分为首选和非首选；4) 使用DPO损失函数，基于首选和非首选推理链对适配器权重进行微调；5) 将更新后的模型用于下一轮迭代。

关键创新：论文的关键创新在于将直接偏好优化（DPO）应用于半监督的产品属性预测任务中。与传统的监督学习方法相比，DPO能够有效地利用未标注数据，从而在标注数据有限的情况下，显著提升模型的性能。此外，结合PEFT技术，进一步降低了计算开销。

关键设计：论文的关键设计包括：1) 使用低秩适配器模块进行PEFT微调，降低计算成本；2) 基于自我一致性生成和选择推理链，为DPO提供偏好信号；3) 使用DPO损失函数，直接优化模型的偏好策略；4) 通过迭代的方式，逐步提升模型的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在跨越十二个电商垂直领域的数据集上，基于DPO的微调方法，仅使用未标记数据，就显著优于监督模型。此外，模型准确率随着未标记数据量的增加而提高，验证了该方法能够有效利用大量未标记数据来提升性能。具体提升幅度未知，原文未提供具体数值。

🎯 应用场景

该研究成果可广泛应用于电商平台，提升商品属性预测的准确性和效率，从而改善搜索推荐、商品分类、智能导购等用户体验。此外，该方法也适用于其他需要利用图像和文本信息进行属性预测的场景，例如服装搭配、家居设计等，具有重要的实际应用价值和商业潜力。

📄 摘要（原文）

Image-based product attribute prediction in e-commerce is a crucial task with numerous applications. The supervised fine-tuning of Vision Language Models (VLMs) faces significant scale challenges due to the cost of manual or API based annotation. In this paper, we investigate label-efficient semi-supervised fine-tuning strategies for compact VLMs (2B-3B parameters) that leverage unlabeled product listings through Direct Preference Optimization (DPO). Beginning with a small, API-based, annotated, and labeled set, we first employ PEFT to train low-rank adapter modules. To update the adapter weights with unlabeled data, we generate multiple reasoning-and-answer chains per unlabeled sample and segregate these chains into preferred and dispreferred based on self-consistency. We then fine-tune the model with DPO loss and use the updated model for the next iteration. By using PEFT fine-tuning with DPO, our method achieves efficient convergence with minimal compute overhead. On a dataset spanning twelve e-commerce verticals, DPO-based fine-tuning, which utilizes only unlabeled data, demonstrates a significant improvement over the supervised model. Moreover, experiments demonstrate that accuracy with DPO training improves with more unlabeled data, indicating that a large pool of unlabeled samples can be effectively leveraged to improve performance.

Efficient Learning for Product Attributes with Compact Multimodal Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理