Efficient Learning for Product Attributes with Compact Multimodal Models

📄 arXiv: 2507.19679v1 📥 PDF

作者: Mandar Kulkarni

分类: cs.CV, cs.AI

发布日期: 2025-07-25


💡 一句话要点

提出基于DPO的半监督精调方法,提升电商产品属性预测中紧凑型多模态模型的效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 产品属性预测 半监督学习 直接偏好优化 视觉语言模型 参数高效微调 电商 多模态学习

📋 核心要点

  1. 电商产品属性预测依赖大量标注数据,但人工标注成本高昂,API标注也面临规模挑战。
  2. 利用直接偏好优化(DPO)和少量标注数据,结合未标注数据进行半监督微调,提升模型性能。
  3. 实验表明,该方法在多个电商垂直领域的数据集上,显著优于监督模型,且性能随未标注数据增加而提升。

📝 摘要(中文)

本文研究了电商中基于图像的产品属性预测任务,该任务具有广泛的应用。由于人工或API标注的成本,对视觉语言模型(VLMs)进行监督微调面临巨大的规模挑战。本文探索了针对紧凑型VLMs(2B-3B参数)的标签高效半监督微调策略,该策略利用直接偏好优化(DPO)来利用未标记的产品列表。从一个小的、基于API的、带注释和标记的数据集开始,我们首先采用PEFT来训练低秩适配器模块。为了使用未标记的数据更新适配器权重,我们为每个未标记的样本生成多个推理和答案链,并根据自我一致性将这些链分为首选和非首选。然后,我们使用DPO损失对模型进行微调,并将更新后的模型用于下一次迭代。通过使用带有DPO的PEFT微调,我们的方法实现了高效的收敛,且计算开销最小。在一个跨越十二个电子商务垂直领域的数据集上,仅使用未标记数据的基于DPO的微调,证明了相对于监督模型的显着改进。此外,实验表明,通过DPO训练,准确性随着更多未标记数据的增加而提高,这表明可以有效地利用大量的未标记样本来提高性能。

🔬 方法详解

问题定义:论文旨在解决电商领域中,基于图像的产品属性预测任务中,视觉语言模型(VLMs)因标注数据不足而难以有效微调的问题。现有方法依赖大量人工或API标注数据,成本高昂,限制了模型在实际场景中的应用。

核心思路:论文的核心思路是利用半监督学习,结合少量标注数据和大量未标注数据,通过直接偏好优化(DPO)来提升模型的性能。DPO通过学习不同推理链的偏好关系,使模型能够从未标注数据中学习知识,从而减少对标注数据的依赖。

技术框架:整体框架包括以下几个阶段:1) 使用少量标注数据,通过PEFT(Parameter-Efficient Fine-Tuning)训练低秩适配器模块;2) 对于每个未标注样本,生成多个推理和答案链;3) 基于自我一致性,将这些推理链分为首选和非首选;4) 使用DPO损失函数,基于首选和非首选推理链对适配器权重进行微调;5) 将更新后的模型用于下一轮迭代。

关键创新:论文的关键创新在于将直接偏好优化(DPO)应用于半监督的产品属性预测任务中。与传统的监督学习方法相比,DPO能够有效地利用未标注数据,从而在标注数据有限的情况下,显著提升模型的性能。此外,结合PEFT技术,进一步降低了计算开销。

关键设计:论文的关键设计包括:1) 使用低秩适配器模块进行PEFT微调,降低计算成本;2) 基于自我一致性生成和选择推理链,为DPO提供偏好信号;3) 使用DPO损失函数,直接优化模型的偏好策略;4) 通过迭代的方式,逐步提升模型的性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在跨越十二个电商垂直领域的数据集上,基于DPO的微调方法,仅使用未标记数据,就显著优于监督模型。此外,模型准确率随着未标记数据量的增加而提高,验证了该方法能够有效利用大量未标记数据来提升性能。具体提升幅度未知,原文未提供具体数值。

🎯 应用场景

该研究成果可广泛应用于电商平台,提升商品属性预测的准确性和效率,从而改善搜索推荐、商品分类、智能导购等用户体验。此外,该方法也适用于其他需要利用图像和文本信息进行属性预测的场景,例如服装搭配、家居设计等,具有重要的实际应用价值和商业潜力。

📄 摘要(原文)

Image-based product attribute prediction in e-commerce is a crucial task with numerous applications. The supervised fine-tuning of Vision Language Models (VLMs) faces significant scale challenges due to the cost of manual or API based annotation. In this paper, we investigate label-efficient semi-supervised fine-tuning strategies for compact VLMs (2B-3B parameters) that leverage unlabeled product listings through Direct Preference Optimization (DPO). Beginning with a small, API-based, annotated, and labeled set, we first employ PEFT to train low-rank adapter modules. To update the adapter weights with unlabeled data, we generate multiple reasoning-and-answer chains per unlabeled sample and segregate these chains into preferred and dispreferred based on self-consistency. We then fine-tune the model with DPO loss and use the updated model for the next iteration. By using PEFT fine-tuning with DPO, our method achieves efficient convergence with minimal compute overhead. On a dataset spanning twelve e-commerce verticals, DPO-based fine-tuning, which utilizes only unlabeled data, demonstrates a significant improvement over the supervised model. Moreover, experiments demonstrate that accuracy with DPO training improves with more unlabeled data, indicating that a large pool of unlabeled samples can be effectively leveraged to improve performance.