LLM-based Fusion of Multi-modal Features for Commercial Memorability Prediction

作者: Aleksandar Pramov

分类: cs.CV, cs.AI, cs.MM

发布日期: 2025-10-26

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于LLM的多模态融合方法，用于提升商业广告记忆度预测的鲁棒性和泛化性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 大型语言模型 商业广告记忆度预测 理由提示 LoRA微调

📋 核心要点

现有商业广告记忆度预测方法泛化性不足，难以适应复杂多变的数据。
利用LLM生成基于专家知识的理由提示，引导多模态特征融合，提升模型理解能力。
实验结果表明，基于LLM的系统相比基线模型，在测试集上展现出更强的鲁棒性和泛化能力。

📝 摘要（中文）

本文针对MediaEval 2025 workshop竞赛中“记忆度：预测电影和商业广告的记忆度”任务中的“子任务2：商业/广告记忆度预测”问题，提出了一种基于Gemma-3 LLM的多模态融合系统。该系统通过多模态投影整合了预先计算的视觉（ViT）和文本（E5）特征。模型采用Low-Rank Adaptation (LoRA)进行适配。一个经过大量调优的梯度提升树集成模型作为基线。一个关键贡献是使用LLM生成的、基于专家导出的记忆度方面的理由提示，来指导融合模型。结果表明，与基线相比，基于LLM的系统在最终测试集上表现出更强的鲁棒性和泛化性能。

🔬 方法详解

问题定义：论文旨在解决商业广告记忆度预测问题，现有方法在处理多模态数据时，特征融合方式较为简单，无法充分利用文本和视觉信息之间的关联性，导致模型泛化能力不足。此外，缺乏对广告内容深层语义的理解，难以捕捉影响记忆度的关键因素。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大语义理解能力，结合专家知识，生成理由提示（Rationale Prompts），引导多模态特征的融合过程。通过LLM对视觉和文本特征进行更深层次的关联和推理，从而提升模型对广告记忆度的预测能力。

技术框架：整体框架包含以下几个主要模块：1) 特征提取：使用ViT提取视觉特征，使用E5模型提取文本特征。2) 理由提示生成：利用LLM，基于专家知识生成与广告内容相关的理由提示。3) 多模态融合：将视觉特征、文本特征和理由提示通过多模态投影进行融合，输入到Gemma-3 LLM中。4) 模型适配：使用LoRA对LLM进行适配，使其更好地适应记忆度预测任务。

关键创新：最重要的技术创新点在于使用LLM生成理由提示，并将其融入多模态特征融合过程中。这种方法能够有效地利用LLM的语义理解能力，将专家知识融入模型中，从而提升模型对广告内容的理解和推理能力。与现有方法相比，该方法能够更有效地捕捉影响记忆度的关键因素。

关键设计：论文使用了Gemma-3 LLM作为 backbone，并采用LoRA进行参数高效的微调。理由提示的生成方式是基于专家知识，针对广告内容生成相关的解释性文本。多模态投影的具体结构未知，但其目的是将不同模态的特征映射到同一语义空间。损失函数未知，但推测是回归损失，用于预测记忆度得分。

📊 实验亮点

该研究表明，基于LLM的多模态融合系统在商业广告记忆度预测任务中表现出优越的性能。与经过大量调优的梯度提升树集成基线模型相比，该系统在最终测试集上展现出更强的鲁棒性和泛化能力。具体的性能提升数据未知，但摘要强调了其优于基线。

🎯 应用场景

该研究成果可应用于广告效果评估、广告内容优化、以及个性化广告推荐等领域。通过预测广告的记忆度，可以帮助广告主更好地评估广告效果，优化广告内容，提高广告的传播效果。此外，还可以根据用户的兴趣和偏好，推荐更具记忆度的广告，提升用户体验。

📄 摘要（原文）

This paper addresses the prediction of commercial (brand) memorability as part of "Subtask 2: Commercial/Ad Memorability" within the "Memorability: Predicting movie and commercial memorability" task at the MediaEval 2025 workshop competition. We propose a multimodal fusion system with a Gemma-3 LLM backbone that integrates pre-computed visual (ViT) and textual (E5) features by multi-modal projections. The model is adapted using Low-Rank Adaptation (LoRA). A heavily-tuned ensemble of gradient boosted trees serves as a baseline. A key contribution is the use of LLM-generated rationale prompts, grounded in expert-derived aspects of memorability, to guide the fusion model. The results demonstrate that the LLM-based system exhibits greater robustness and generalization performance on the final test set, compared to the baseline. The paper's codebase can be found at https://github.com/dsgt-arc/mediaeval-2025-memorability

LLM-based Fusion of Multi-modal Features for Commercial Memorability Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理