Measuring What Matters Beyond Text: Evaluating Multimodal Summaries by Quality, Alignment, and Diversity
作者: Abid Ali, Diego Molla-Aliod, Usman Naseem
分类: cs.AI
发布日期: 2026-05-12
备注: Accepted to Findings of ACL 2026
💡 一句话要点
提出MM-Eval:一个综合评估多模态摘要质量、对齐性和多样性的统一框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态摘要 多模态评估 文本质量 跨模态对齐 视觉多样性 大型语言模型 CLIP
📋 核心要点
- 现有的多模态摘要评估方法分散,难以全面衡量文本质量、跨模态对齐和视觉多样性。
- MM-Eval框架通过集成文本质量评估、图像-文本相关性评估和图像集多样性评估来统一评估多模态摘要。
- 实验表明,MM-Eval优于启发式基线,并能提供可解释的多模态摘要评估结果,事实一致性至关重要。
📝 摘要(中文)
多模态大型语言模型(MLLM)促进了多模态摘要生成(MSMO),系统可以生成简洁的文本摘要,并配以来自多模态源的显著视觉信息。然而,目前的MSMO评估仍然是分散的:文本质量、图像-文本对齐和视觉多样性通常使用单模态指标独立评估,这使得难以捕捉模态是否共同支持一个忠实和有用的摘要。为了解决这个差距,我们引入了MM-Eval,一个统一的评估框架,它集成了文本质量、跨模态对齐和视觉多样性的评估。MM-Eval包括三个组成部分:(1)文本质量,使用OpenFActScore评估事实一致性,使用G-Eval评估连贯性、流畅性和相关性;(2)图像-文本相关性,通过MLLM-as-a-judge方法评估;(3)图像集多样性,使用截断的CLIP熵进行量化。我们通过在mLLM-EVAL新闻基准上训练的学习聚合模型来校准MM-Eval,使组件贡献与人类偏好对齐。我们的分析揭示了在这种设置中的文本主导层次结构,其中事实一致性是感知整体质量的关键决定因素,而视觉相关性和多样性提供了补充信号。MM-Eval改进了启发式聚合基线,并提供了一个可解释的、参考弱的框架,用于多模态摘要的比较评估。
🔬 方法详解
问题定义:现有的多模态摘要评估方法通常孤立地评估文本质量、图像-文本对齐和视觉多样性,缺乏一个统一的框架来综合评估多模态摘要的整体质量。这种评估方式难以捕捉不同模态之间的相互作用,以及它们是否共同支持一个忠实且有用的摘要。现有方法依赖单模态指标,无法有效衡量跨模态信息融合的质量。
核心思路:MM-Eval的核心思路是将文本质量、跨模态对齐和视觉多样性整合到一个统一的评估框架中。通过分别评估这三个方面,并使用学习到的聚合模型将它们组合起来,MM-Eval能够更全面地评估多模态摘要的质量。这种设计旨在弥合单模态评估的局限性,并提供一个更符合人类感知的评估指标。
技术框架:MM-Eval框架包含三个主要组成部分:(1) 文本质量评估,使用OpenFActScore评估事实一致性,使用G-Eval评估连贯性、流畅性和相关性;(2) 图像-文本相关性评估,通过MLLM-as-a-judge方法,利用多模态大型语言模型作为裁判进行评估;(3) 图像集多样性评估,使用截断的CLIP熵进行量化。最后,使用在mLLM-EVAL新闻基准上训练的学习聚合模型,将这三个组成部分的评估结果进行整合,得到最终的评估分数。
关键创新:MM-Eval的关键创新在于其统一的评估框架,它能够同时考虑文本质量、跨模态对齐和视觉多样性。此外,使用MLLM-as-a-judge方法评估图像-文本相关性,以及使用学习聚合模型来校准组件贡献,也是重要的创新点。与现有方法相比,MM-Eval能够更全面、更准确地评估多模态摘要的质量。
关键设计:在文本质量评估方面,OpenFActScore用于衡量摘要的事实一致性,G-Eval用于评估摘要的连贯性、流畅性和相关性。在图像-文本相关性评估方面,选择合适的多模态大型语言模型至关重要。在图像集多样性评估方面,截断的CLIP熵被用于量化图像集的多样性。学习聚合模型的训练数据来自mLLM-EVAL新闻基准,目标是使组件贡献与人类偏好对齐。
🖼️ 关键图片
📊 实验亮点
MM-Eval在mLLM-EVAL新闻基准上进行了评估,实验结果表明,MM-Eval优于启发式聚合基线。分析表明,文本的事实一致性是影响整体质量的关键因素,而视觉相关性和多样性提供了补充信息。MM-Eval提供了一个可解释的、参考弱的框架,用于多模态摘要的比较评估,为多模态摘要评估提供了一个新的方向。
🎯 应用场景
MM-Eval可应用于多模态摘要生成系统的开发和评估,例如新闻摘要、视频摘要和社交媒体内容摘要。该框架能够帮助研究人员和开发者更好地理解和改进多模态摘要生成系统的性能,从而提高用户获取信息的效率和质量。此外,MM-Eval还可以用于评估不同多模态摘要生成算法的优劣,促进该领域的研究进展。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have facilitated Multimodal Summarization with Multimodal Output (MSMO), wherein systems generate concise textual summaries accompanied by salient visuals from multimodal sources. However, current MSMO evaluation remains fragmented: text quality, image-text alignment, and visual diversity are typically assessed in isolation using unimodal metrics, making it difficult to capture whether the modalities jointly support a faithful and useful summary. To address this gap, we introduce MM-Eval, a unified evaluation framework that integrates assessments of textual quality, cross-modal alignment, and visual diversity. MM-Eval comprises three components: (1) text quality, measured using OpenFActScore for factual consistency and G-Eval for coherence, fluency, and relevance; (2) image-text relevance, evaluated via an MLLM-as-a-judge approach; and (3) image-set diversity, quantified using Truncated CLIP Entropy. We calibrate MM-Eval through a learned aggregation model trained on the mLLM-EVAL news benchmark, aligning component contributions with human preferences. Our analysis reveals a text-dominant hierarchy in this setting, where factual consistency acts as a critical determinant of perceived overall quality, while visual relevance and diversity provide complementary signals. MM-Eval improves over heuristic aggregation baselines and provides an interpretable, reference-weak framework for comparative evaluation of multimodal summaries.