MER-Bench: A Comprehensive Benchmark for Multimodal Meme Reappraisal
作者: Yiqi Nie, Fei Wang, Junjie Chen, Kun Li, Yudi Cai, Dan Guo, Chenglong Li, Meng Wang
分类: cs.CV, cs.CL
发布日期: 2026-03-16
🔗 代码/项目: GITHUB
💡 一句话要点
提出MER-Bench:一个用于多模态Meme内容重构的综合基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 Meme重构 情感分析 图像编辑 自然语言生成
📋 核心要点
- 现有Meme理解或生成工作缺乏情感可控和结构保持的多模态转换能力,难以实现Meme内容的建设性重构。
- 提出Meme重构任务,旨在将负面Meme转化为积极Meme,同时保持场景、实体和结构不变,实现情感可控的生成。
- 构建MER-Bench基准数据集,包含细粒度多模态标注,并提出基于MLLM的结构化评估框架,为Meme重构研究提供支持。
📝 摘要(中文)
Meme是一种紧密耦合的多模态社交表达形式,其中视觉上下文和叠加文本共同传达细微的情感和评论。受心理学中认知重构的启发,我们引入了Meme重构,这是一个新颖的多模态生成任务,旨在将负面框架的Meme转化为建设性的Meme,同时保留其底层场景、实体和结构布局。与先前关于Meme理解或生成的工作不同,Meme重构需要在多个语义和风格约束下进行情感可控、结构保持的多模态转换。为了支持这项任务,我们构建了MER-Bench,这是一个包含真实世界Meme的基准,具有细粒度的多模态注释,包括源和目标情感、积极重写的Meme文本、视觉编辑规范以及涵盖视觉类型、情感极性和布局结构的分类标签。我们进一步提出了一个基于多模态大型语言模型(MLLM)作为评判范式的结构化评估框架,将性能分解为模态级生成质量、情感可控性、结构保真度和全局情感对齐。对代表性的图像编辑和多模态生成系统进行的大量实验表明,在满足结构保持、语义一致性和情感转换的约束方面存在显著差距。我们相信MER-Bench为可控Meme编辑和情感感知多模态生成的研究奠定了基础。
🔬 方法详解
问题定义:论文旨在解决如何将负面情绪的Meme内容转化为积极、建设性的内容,同时保持Meme原有的视觉场景、实体和结构布局。现有方法在Meme理解和生成方面有所进展,但缺乏对情感可控性和结构保持的关注,难以满足Meme重构任务的需求。
核心思路:论文的核心思路是借鉴认知重构的概念,通过多模态生成技术,在语义和风格约束下,对Meme进行情感转换,使其从负面转向正面。这种方法强调在改变情感的同时,保持Meme原有的结构和语义信息,从而实现更自然、更可控的Meme生成。
技术框架:MER-Bench的整体框架包含数据集构建和评估框架两部分。数据集构建部分,收集真实世界的Meme,并进行细粒度的多模态标注,包括情感、文本、视觉编辑规范和分类标签。评估框架部分,使用多模态大型语言模型(MLLM)作为评判器,将性能分解为模态级生成质量、情感可控性、结构保真度和全局情感对齐四个方面。
关键创新:该论文的关键创新在于提出了Meme重构这一新任务,并构建了相应的基准数据集MER-Bench。此外,论文还提出了基于MLLM的结构化评估框架,能够更全面地评估Meme重构模型的性能。这种结构化的评估方法有助于推动Meme重构领域的研究进展。
关键设计:MER-Bench数据集包含多种类型的Meme,并标注了源情感和目标情感,以及重写的文本和视觉编辑规范。评估框架使用MLLM对生成的Meme进行评估,并设计了多个指标来衡量生成质量、情感可控性、结构保真度和情感对齐。具体指标包括文本生成质量、图像编辑质量、情感分类准确率、结构相似度等。论文还探索了不同的MLLM模型作为评判器的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有的图像编辑和多模态生成系统在MER-Bench基准上表现不佳,尤其是在结构保持、语义一致性和情感转换方面存在显著差距。这表明Meme重构任务具有挑战性,需要更先进的模型和算法。MER-Bench的发布将促进相关领域的研究。
🎯 应用场景
该研究成果可应用于社交媒体内容审核、情感引导、以及个性化内容生成等领域。通过自动将负面Meme转化为积极Meme,可以改善网络环境,促进积极的社交互动。此外,该技术还可以用于生成具有特定情感倾向的Meme,满足用户的个性化需求,例如用于营销或教育目的。
📄 摘要(原文)
Memes represent a tightly coupled, multimodal form of social expression, in which visual context and overlaid text jointly convey nuanced affect and commentary. Inspired by cognitive reappraisal in psychology, we introduce Meme Reappraisal, a novel multimodal generation task that aims to transform negatively framed memes into constructive ones while preserving their underlying scenario, entities, and structural layout. Unlike prior works on meme understanding or generation, Meme Reappraisal requires emotion-controllable, structure-preserving multimodal transformation under multiple semantic and stylistic constraints. To support this task, we construct MER-Bench, a benchmark of real-world memes with fine-grained multimodal annotations, including source and target emotions, positively rewritten meme text, visual editing specifications, and taxonomy labels covering visual type, sentiment polarity, and layout structure. We further propose a structured evaluation framework based on a multimodal large language model (MLLM)-as-a-Judge paradigm, decomposing performance into modality-level generation quality, affect controllability, structural fidelity, and global affective alignment. Extensive experiments across representative image-editing and multimodal-generation systems reveal substantial gaps in satisfying the constraints of structural preservation, semantic consistency, and affective transformation. We believe MER-Bench establishes a foundation for research on controllable meme editing and emotion-aware multimodal generation. Our code is available at: https://github.com/one-seven17/MER-Bench.