AFMRL: Attribute-Enhanced Fine-Grained Multi-Modal Representation Learning in E-commerce

📄 arXiv: 2604.20135v1 📥 PDF

作者: Biao Zhang, Lixin Chen, Bin Zhang, Zongwei Wang, Tong Liu, Bo Zheng

分类: cs.CL, cs.IR

发布日期: 2026-04-22

备注: Accepted by ACL 2026


💡 一句话要点

提出AFMRL,通过属性增强细粒度多模态表征学习解决电商场景下的商品检索难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态表征学习 细粒度语义理解 电商商品检索 属性增强 对比学习

📋 核心要点

  1. 现有大型多模态模型在电商商品检索中,缺乏对细粒度语义的理解,难以区分高度相似的商品。
  2. AFMRL利用多模态大语言模型的生成能力,提取商品图像和文本的关键属性,并以此增强表征学习。
  3. 实验表明,AFMRL在多个下游检索任务上取得了SOTA性能,证明了其在细粒度表征学习上的有效性。

📝 摘要(中文)

多模态表征对于电商任务(如相同商品检索)至关重要。大型表征模型(如VLM2Vec)展现了强大的多模态理解能力,但难以进行细粒度的语义理解,这对于区分高度相似的商品至关重要。为了解决这个问题,我们提出了属性增强的细粒度多模态表征学习(AFMRL),它将产品细粒度理解定义为属性生成任务。AFMRL利用多模态大型语言模型(MLLM)的生成能力,从产品图像和文本中提取关键属性,并通过两阶段训练框架来增强表征学习:1) 属性引导的对比学习(AGCL),其中MLLM生成的关键属性用于图像-文本对比学习训练过程中,以识别困难样本并过滤掉噪声负样本。2) 检索感知的属性强化(RAR),其中属性集成后表征模型检索性能的提升作为奖励信号,以增强MLLM在多模态微调期间的属性生成。在大型电商数据集上的大量实验表明,我们的方法在多个下游检索任务上实现了最先进的性能,验证了利用生成模型来推进细粒度表征学习的有效性。

🔬 方法详解

问题定义:论文旨在解决电商场景下,现有模型在细粒度商品检索任务中表现不佳的问题。现有方法,如VLM2Vec,虽然具备强大的多模态理解能力,但在区分高度相似的商品时,由于缺乏对细粒度语义的理解,检索精度较低。痛点在于如何有效地提取和利用商品的关键属性信息,从而提升模型对细微差别的感知能力。

核心思路:论文的核心思路是将商品细粒度理解问题转化为属性生成任务,并利用多模态大语言模型(MLLM)的生成能力来提取商品的关键属性。通过将这些属性信息融入到表征学习过程中,可以有效地提升模型对细粒度语义的理解能力,从而提高检索精度。这样设计的目的是充分利用MLLM的知识和生成能力,弥补现有模型在细粒度语义理解方面的不足。

技术框架:AFMRL包含两个主要阶段:属性引导的对比学习(AGCL)和检索感知的属性强化(RAR)。在AGCL阶段,首先利用MLLM从商品图像和文本中生成关键属性。然后,将这些属性信息用于图像-文本对比学习,以识别困难样本并过滤噪声负样本。在RAR阶段,将AGCL阶段训练得到的表征模型应用于商品检索任务,并根据检索性能的提升情况,对MLLM进行微调,以进一步提升其属性生成能力。

关键创新:该论文的关键创新在于提出了一个两阶段的训练框架,将MLLM的生成能力与对比学习相结合,从而实现了属性增强的细粒度多模态表征学习。与现有方法相比,AFMRL能够更有效地提取和利用商品的关键属性信息,从而提升模型对细粒度语义的理解能力。此外,RAR阶段通过检索性能的反馈来优化MLLM的属性生成能力,形成了一个正向循环,进一步提升了模型的整体性能。

关键设计:在AGCL阶段,使用了对比学习损失函数,并根据MLLM生成的属性信息来调整样本的权重,从而更加关注困难样本。在RAR阶段,使用了强化学习算法,将检索性能的提升作为奖励信号,对MLLM进行微调。具体的损失函数和强化学习算法的选择以及参数设置,论文中应该有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AFMRL在多个大规模电商数据集上取得了SOTA性能。与现有方法相比,AFMRL在商品检索任务上的精度显著提升,验证了其在细粒度表征学习上的有效性。具体的性能数据和提升幅度在论文中应该有详细的量化结果(未知)。

🎯 应用场景

该研究成果可广泛应用于电商平台的商品检索、推荐系统、智能客服等领域。通过提升模型对商品细粒度语义的理解能力,可以提高检索精度,改善用户体验,并为商家提供更精准的营销策略。未来,该方法还可以扩展到其他多模态场景,如图像搜索、视频理解等。

📄 摘要(原文)

Multimodal representation is crucial for E-commerce tasks such as identical product retrieval. Large representation models (e.g., VLM2Vec) demonstrate strong multimodal understanding capabilities, yet they struggle with fine-grained semantic comprehension, which is essential for distinguishing highly similar items. To address this, we propose Attribute-Enhanced Fine-Grained Multi-Modal Representation Learning (AFMRL), which defines product fine-grained understanding as an attribute generation task. It leverages the generative power of Multimodal Large Language Models (MLLMs) to extract key attributes from product images and text, and enhances representation learning through a two-stage training framework: 1) Attribute-Guided Contrastive Learning (AGCL), where the key attributes generated by the MLLM are used in the image-text contrastive learning training process to identify hard samples and filter out noisy false negatives. 2) Retrieval-aware Attribute Reinforcement (RAR), where the improved retrieval performance of the representation model post-attribute integration serves as a reward signal to enhance MLLM's attribute generation during multimodal fine-tuning. Extensive experiments on large-scale E-commerce datasets demonstrate that our method achieves state-of-the-art performance on multiple downstream retrieval tasks, validating the effectiveness of harnessing generative models to advance fine-grained representation learning.