LLM-based Fusion of Multi-modal Features for Commercial Memorability Prediction

📄 arXiv: 2510.22829v1 📥 PDF

作者: Aleksandar Pramov

分类: cs.CV, cs.AI, cs.MM

发布日期: 2025-10-26

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于LLM的多模态融合方法,用于提升商业广告记忆度预测的鲁棒性和泛化性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 大型语言模型 商业广告记忆度预测 理由提示 LoRA微调

📋 核心要点

  1. 现有商业广告记忆度预测方法泛化性不足,难以适应复杂多变的数据。
  2. 利用LLM生成基于专家知识的理由提示,引导多模态特征融合,提升模型理解能力。
  3. 实验结果表明,基于LLM的系统相比基线模型,在测试集上展现出更强的鲁棒性和泛化能力。

📝 摘要(中文)

本文针对MediaEval 2025 workshop竞赛中“记忆度:预测电影和商业广告的记忆度”任务中的“子任务2:商业/广告记忆度预测”问题,提出了一种基于Gemma-3 LLM的多模态融合系统。该系统通过多模态投影整合了预先计算的视觉(ViT)和文本(E5)特征。模型采用Low-Rank Adaptation (LoRA)进行适配。一个经过大量调优的梯度提升树集成模型作为基线。一个关键贡献是使用LLM生成的、基于专家导出的记忆度方面的理由提示,来指导融合模型。结果表明,与基线相比,基于LLM的系统在最终测试集上表现出更强的鲁棒性和泛化性能。

🔬 方法详解

问题定义:论文旨在解决商业广告记忆度预测问题,现有方法在处理多模态数据时,特征融合方式较为简单,无法充分利用文本和视觉信息之间的关联性,导致模型泛化能力不足。此外,缺乏对广告内容深层语义的理解,难以捕捉影响记忆度的关键因素。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大语义理解能力,结合专家知识,生成理由提示(Rationale Prompts),引导多模态特征的融合过程。通过LLM对视觉和文本特征进行更深层次的关联和推理,从而提升模型对广告记忆度的预测能力。

技术框架:整体框架包含以下几个主要模块:1) 特征提取:使用ViT提取视觉特征,使用E5模型提取文本特征。2) 理由提示生成:利用LLM,基于专家知识生成与广告内容相关的理由提示。3) 多模态融合:将视觉特征、文本特征和理由提示通过多模态投影进行融合,输入到Gemma-3 LLM中。4) 模型适配:使用LoRA对LLM进行适配,使其更好地适应记忆度预测任务。

关键创新:最重要的技术创新点在于使用LLM生成理由提示,并将其融入多模态特征融合过程中。这种方法能够有效地利用LLM的语义理解能力,将专家知识融入模型中,从而提升模型对广告内容的理解和推理能力。与现有方法相比,该方法能够更有效地捕捉影响记忆度的关键因素。

关键设计:论文使用了Gemma-3 LLM作为 backbone,并采用LoRA进行参数高效的微调。理由提示的生成方式是基于专家知识,针对广告内容生成相关的解释性文本。多模态投影的具体结构未知,但其目的是将不同模态的特征映射到同一语义空间。损失函数未知,但推测是回归损失,用于预测记忆度得分。

📊 实验亮点

该研究表明,基于LLM的多模态融合系统在商业广告记忆度预测任务中表现出优越的性能。与经过大量调优的梯度提升树集成基线模型相比,该系统在最终测试集上展现出更强的鲁棒性和泛化能力。具体的性能提升数据未知,但摘要强调了其优于基线。

🎯 应用场景

该研究成果可应用于广告效果评估、广告内容优化、以及个性化广告推荐等领域。通过预测广告的记忆度,可以帮助广告主更好地评估广告效果,优化广告内容,提高广告的传播效果。此外,还可以根据用户的兴趣和偏好,推荐更具记忆度的广告,提升用户体验。

📄 摘要(原文)

This paper addresses the prediction of commercial (brand) memorability as part of "Subtask 2: Commercial/Ad Memorability" within the "Memorability: Predicting movie and commercial memorability" task at the MediaEval 2025 workshop competition. We propose a multimodal fusion system with a Gemma-3 LLM backbone that integrates pre-computed visual (ViT) and textual (E5) features by multi-modal projections. The model is adapted using Low-Rank Adaptation (LoRA). A heavily-tuned ensemble of gradient boosted trees serves as a baseline. A key contribution is the use of LLM-generated rationale prompts, grounded in expert-derived aspects of memorability, to guide the fusion model. The results demonstrate that the LLM-based system exhibits greater robustness and generalization performance on the final test set, compared to the baseline. The paper's codebase can be found at https://github.com/dsgt-arc/mediaeval-2025-memorability