Benchmarking Multimodal Large Language Models for Missing Modality Completion in Product Catalogues
作者: Junchen Fu, Wenhao Deng, Kaiwen Zheng, Alexandros Karatzoglou, Ioannis Arapakis, Yu Ye, Yongxin Ni, Joemon M. Jose, Xuri Ge
分类: cs.MM, cs.CV, cs.IR
发布日期: 2026-01-27
💡 一句话要点
提出MMPCBench基准,评估多模态大语言模型在电商产品目录中缺失模态补全的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 缺失模态补全 电商产品目录 MMPCBench 组相对策略优化
📋 核心要点
- 电商平台产品信息缺失问题严重影响用户体验和下游任务,现有方法难以有效解决。
- 提出MMPCBench基准,包含内容质量和推荐两个子基准,用于评估MLLM在缺失模态补全任务中的性能。
- 实验表明,MLLM在高层语义理解方面表现良好,但在细粒度对齐方面存在不足,且模型规模与性能无明显相关性。
📝 摘要(中文)
电商平台中缺失模态信息(如产品图片或文本描述缺失)通常由标注错误或不完整的元数据引起,这会损害产品展示和推荐系统等下游应用。受多模态大语言模型(MLLM)生成能力的启发,本文研究了一个基本但未被充分探索的问题:MLLM能否为电商产品生成缺失的模态?我们提出了缺失模态产品补全基准(MMPCBench),它由内容质量补全基准和推荐基准两个子基准组成。我们进一步评估了来自Qwen2.5-VL和Gemma-3模型系列的六个最先进的MLLM在九个真实电商类别中的表现,重点关注图文和文图补全任务。实验结果表明,虽然MLLM可以捕捉高层语义,但它们在细粒度的词级和像素/块级对齐方面存在困难。此外,性能在不同产品类别和模型规模之间差异很大,并且我们观察到模型大小与性能之间没有明显的关联,这与主流基准中常见的趋势相反。我们还探索了组相对策略优化(GRPO)以更好地使MLLM与此任务对齐。GRPO改进了图文补全,但没有提高文图补全的效果。总的来说,这些发现揭示了当前MLLM在真实世界跨模态生成中的局限性,并代表了朝着更有效的缺失模态产品补全迈出的初步一步。
🔬 方法详解
问题定义:论文旨在解决电商产品目录中由于标注错误或元数据不完整导致的模态信息缺失问题。现有方法在处理此类问题时,无法有效利用跨模态信息进行补全,导致产品展示效果差,影响用户体验和推荐系统性能。
核心思路:论文的核心思路是利用多模态大语言模型(MLLM)强大的生成能力,通过学习已有的产品信息(如图片或文本描述),生成缺失的模态信息,从而补全产品目录,提升产品展示效果和下游任务性能。这种方法充分利用了MLLM的跨模态理解和生成能力。
技术框架:论文构建了缺失模态产品补全基准(MMPCBench),包含两个子基准:内容质量补全基准和推荐基准。内容质量补全基准用于评估MLLM生成模态信息的质量,包括图文补全和文图补全两个任务。推荐基准则评估补全后的产品信息对推荐系统性能的影响。同时,论文还探索了组相对策略优化(GRPO)方法,以进一步提升MLLM在缺失模态补全任务中的性能。
关键创新:论文的关键创新在于提出了MMPCBench基准,这是一个专门针对电商产品目录缺失模态补全任务的评估基准,填补了该领域缺乏标准评估方法的空白。此外,论文还探索了GRPO方法在MLLM上的应用,并分析了模型规模、产品类别等因素对MLLM性能的影响。
关键设计:在实验中,论文选择了Qwen2.5-VL和Gemma-3模型系列的六个MLLM进行评估,涵盖了不同规模的模型。针对图文补全和文图补全任务,采用了不同的评估指标,如BLEU、ROUGE等。在GRPO的实现中,采用了特定的奖励函数和策略梯度算法,以优化MLLM的生成策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MLLM在电商产品目录缺失模态补全任务中表现出一定的潜力,但仍存在局限性,尤其是在细粒度对齐方面。GRPO方法在图文补全任务中取得了一定的提升,但在文图补全任务中效果不明显。此外,模型规模与性能之间没有明显的正相关关系,这与传统认知有所不同。
🎯 应用场景
该研究成果可应用于电商平台,自动补全缺失的产品图片或文本描述,提升产品展示效果,改善用户体验。同时,补全后的产品信息可以提高推荐系统的准确性和个性化程度,从而增加销售额。未来,该技术还可扩展到其他领域,如知识图谱补全、多媒体内容生成等。
📄 摘要(原文)
Missing-modality information on e-commerce platforms, such as absent product images or textual descriptions, often arises from annotation errors or incomplete metadata, impairing both product presentation and downstream applications such as recommendation systems. Motivated by the multimodal generative capabilities of recent Multimodal Large Language Models (MLLMs), this work investigates a fundamental yet underexplored question: can MLLMs generate missing modalities for products in e-commerce scenarios? We propose the Missing Modality Product Completion Benchmark (MMPCBench), which consists of two sub-benchmarks: a Content Quality Completion Benchmark and a Recommendation Benchmark. We further evaluate six state-of-the-art MLLMs from the Qwen2.5-VL and Gemma-3 model families across nine real-world e-commerce categories, focusing on image-to-text and text-to-image completion tasks. Experimental results show that while MLLMs can capture high-level semantics, they struggle with fine-grained word-level and pixel- or patch-level alignment. In addition, performance varies substantially across product categories and model scales, and we observe no trivial correlation between model size and performance, in contrast to trends commonly reported in mainstream benchmarks. We also explore Group Relative Policy Optimization (GRPO) to better align MLLMs with this task. GRPO improves image-to-text completion but does not yield gains for text-to-image completion. Overall, these findings expose the limitations of current MLLMs in real-world cross-modal generation and represent an early step toward more effective missing-modality product completion.