EffiMiniVLM: A Compact Dual-Encoder Regression Framework

📄 arXiv: 2604.03172 📥 PDF

作者: Yin-Loon Khor, Yi-Jie Wong, Yan Chai Hum

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

提出EffiMiniVLM,一种紧凑的双编码器回归框架,用于解决冷启动场景下的产品质量预测问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 冷启动推荐 产品质量预测 双编码器 EfficientNet MiniLM 加权Huber损失 多模态融合

📋 核心要点

  1. 现有视觉-语言模型依赖大型架构和外部数据集,计算成本高昂,难以应用于冷启动场景下的产品质量预测。
  2. EffiMiniVLM采用紧凑的双编码器结构,结合EfficientNet-B0和MiniLM,并引入加权Huber损失提高训练效率。
  3. 实验表明,EffiMiniVLM仅用少量数据训练,参数量小,计算成本低,即可达到与大型模型相当甚至更好的性能。

📝 摘要(中文)

本文提出了一种名为EffiMiniVLM的紧凑型双编码器视觉-语言回归框架,旨在解决冷启动场景下基于多模态商品信息预测产品质量的问题。该模型集成了EfficientNet-B0图像编码器、基于MiniLM的文本编码器和一个轻量级回归头。为了提高训练样本效率,引入了一种加权Huber损失,利用评分计数来强调更可靠的样本,从而获得持续的性能提升。仅使用Amazon Reviews 2023数据集的20%进行训练,该模型包含2770万个参数,需要6.8 GFLOPs,但实现了0.40的CES评分,且资源成本为基准测试中最低。尽管体积小巧,但它仍与更大的模型相比具有竞争力,在资源效率方面比其他前五名方法高约4到8倍,并且是唯一不使用外部数据集的方法。进一步的分析表明,仅将数据扩展到40%就足以使我们的模型超越其他使用更大模型和数据集的方法,突显了模型紧凑设计下的强大可扩展性。

🔬 方法详解

问题定义:论文旨在解决冷启动场景下,如何仅利用商品的多模态信息(图像和文本描述)准确预测产品质量的问题。现有方法通常依赖于大型的视觉-语言模型,这些模型参数量巨大,计算资源需求高,并且往往需要大量的外部数据集进行预训练,这使得它们难以应用于资源受限的场景,例如冷启动推荐系统。

核心思路:论文的核心思路是设计一个轻量级的视觉-语言模型,在保证预测精度的前提下,尽可能地降低模型的参数量和计算复杂度。同时,为了提高模型的训练效率,论文还提出了一种加权Huber损失函数,以更好地利用训练数据中的信息。

技术框架:EffiMiniVLM框架包含三个主要模块:图像编码器、文本编码器和回归头。图像编码器采用EfficientNet-B0,用于提取图像的视觉特征;文本编码器采用基于MiniLM的模型,用于提取文本描述的语义特征;回归头则将提取到的视觉和语义特征进行融合,并预测产品的质量评分。

关键创新:该论文的关键创新在于:1) 提出了一个紧凑的双编码器结构,在保证性能的同时显著降低了模型的参数量和计算复杂度;2) 引入了一种加权Huber损失函数,通过对不同样本赋予不同的权重,提高了模型的训练效率和泛化能力。

关键设计:图像编码器使用预训练的EfficientNet-B0,文本编码器使用预训练的MiniLM。加权Huber损失函数的设计是根据每个样本的评分数量来确定权重,评分数量越多的样本,权重越大,反之亦然。回归头采用简单的多层感知机(MLP)结构,将视觉和语义特征进行融合。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

EffiMiniVLM在Amazon Reviews 2023数据集上取得了显著的成果。仅使用20%的数据进行训练,模型参数量为27.7M,计算量为6.8 GFLOPs,CES评分达到0.40,资源成本为基准测试中最低。在资源效率方面,比其他前五名方法高约4到8倍,并且是唯一不使用外部数据集的方法。当数据扩展到40%时,模型性能超越了使用更大模型和数据集的其他方法。

🎯 应用场景

EffiMiniVLM可应用于冷启动推荐系统、电商平台商品质量评估、以及其他需要根据多模态信息进行预测的场景。该模型体积小、计算效率高,易于部署在资源受限的设备上,具有广泛的应用前景。未来可以进一步探索其在其他多模态任务中的应用,例如图像描述生成、视觉问答等。

📄 摘要(原文)

Predicting product quality from multimodal item information is critical in cold-start scenarios, where user interaction history is unavailable and predictions must rely on images and textual metadata. However, existing vision-language models typically depend on large architectures and/or extensive external datasets, resulting in high computational cost. To address this, we propose EffiMiniVLM, a compact dual-encoder vision-language regression framework that integrates an EfficientNet-B0 image encoder and a MiniLM-based text encoder with a lightweight regression head. To improve training sample efficiency, we introduce a weighted Huber loss that leverages rating counts to emphasize more reliable samples, yielding consistent performance gains. Trained using only 20% of the Amazon Reviews 2023 dataset, the proposed model contains 27.7M parameters and requires 6.8 GFLOPs, yet achieves a CES score of 0.40 with the lowest resource cost in the benchmark. Despite its small size, it remains competitive with significantly larger models, achieving comparable performance while being approximately 4x to 8x more resource-efficient than other top-5 methods and being the only approach that does not use external datasets. Further analysis shows that scaling the data to 40% alone allows our model to overtake other methods, which use larger models and datasets, highlighting strong scalability despite the model's compact design.