LMM4LMM: Benchmarking and Evaluating Large-multimodal Image Generation with LMMs

作者: Jiarui Wang, Huiyu Duan, Yu Zhao, Juntong Wang, Guangtao Zhai, Xiongkuo Min

分类: cs.CV

发布日期: 2025-04-11

🔗 代码/项目: GITHUB

💡 一句话要点

提出LMM4LMM，一种基于LMM的图像生成自动评估指标与基准数据集EvalMi-50K。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 文本到图像生成 图像质量评估 大型多模态模型 自动评估指标

📋 核心要点

现有T2I模型生成的图像在感知质量和文本图像对齐方面存在不足，且人工评估成本高昂。
提出LMM4LMM，利用大型多模态模型自动评估T2I生成质量，从感知、对齐和任务精度等多维度进行考量。
实验表明，LMM4LMM在EvalMi-50K上达到SOTA，并在其他数据集上展现出良好的泛化能力。

📝 摘要（中文）

大型多模态模型(LMMs)在文本到图像(T2I)生成和图像到文本(I2T)理解方面取得了显著进展。然而，许多生成的图像仍然存在感知质量和文本-图像对齐问题。鉴于手动评估的高成本和低效率，需要一种与人类偏好相符的自动指标。为此，我们提出了EvalMi-50K，这是一个用于评估大型多模态图像生成的综合数据集和基准，其特点是：(i)全面的任务，包含跨20个细粒度任务维度的2100个广泛提示，以及(ii)大规模的人类偏好注释，包括在24个T2I模型生成的50400张图像上标注的10万个平均意见得分(MOSs)和5万个问答(QA)对。基于EvalMi-50K，我们提出LMM4LMM，一种基于LMM的指标，用于从多个维度评估大型多模态T2I生成，包括感知、文本-图像对应和特定于任务的准确性。大量的实验结果表明，LMM4LMM在EvalMi-50K上实现了最先进的性能，并在其他AI生成的图像评估基准数据集上表现出强大的泛化能力，体现了EvalMi-50K数据集和LMM4LMM指标的通用性。EvalMi-50K和LMM4LMM都将在https://github.com/IntMeGroup/LMM4LMM上发布。

🔬 方法详解

问题定义：当前文本到图像(T2I)生成模型虽然取得了显著进展，但生成的图像在感知质量和文本图像对齐方面仍然存在问题。人工评估图像生成质量既昂贵又耗时，因此需要一种能够自动且准确地评估生成图像质量的指标。现有自动评估指标可能无法很好地捕捉人类的偏好，尤其是在多模态场景下。

核心思路：论文的核心思路是利用大型多模态模型(LMM)来模拟人类的评估过程。LMM具备强大的理解和推理能力，可以从多个维度（如感知质量、文本-图像一致性、任务特定准确性）评估生成的图像。通过训练LMM来预测人类对生成图像的偏好，可以得到一个更可靠和高效的自动评估指标。

技术框架：LMM4LMM的整体框架包括以下几个主要步骤：1) 使用多个T2I模型生成大量图像；2) 构建EvalMi-50K数据集，对生成的图像进行人工标注，包括平均意见得分(MOS)和问答(QA)对；3) 使用EvalMi-50K数据集训练LMM，使其能够预测人类对生成图像的偏好；4) 使用训练好的LMM4LMM评估新的T2I模型生成的图像。

关键创新：LMM4LMM的关键创新在于：1) 提出了EvalMi-50K数据集，这是一个大规模、多维度的T2I生成评估基准；2) 利用LMM来构建自动评估指标，能够更准确地捕捉人类的偏好；3) LMM4LMM可以从多个维度评估生成图像的质量，包括感知质量、文本-图像一致性和任务特定准确性。与现有方法相比，LMM4LMM更全面、更准确。

关键设计：EvalMi-50K数据集包含2100个提示，涵盖20个细粒度任务维度。每个图像都标注了MOS和QA对，用于训练LMM。LMM4LMM使用预训练的LMM作为骨干网络，并使用对比学习或回归损失函数进行微调，以预测人类对生成图像的偏好。具体的LMM选择和训练策略未知，需要在论文中进一步查找。

🖼️ 关键图片

📊 实验亮点

LMM4LMM在EvalMi-50K数据集上取得了state-of-the-art的性能，表明其能够有效评估T2I生成模型的质量。此外，LMM4LMM在其他AI生成图像评估基准数据集上表现出强大的泛化能力，证明了其通用性。具体的性能提升幅度未知，需要在论文中进一步查找。

🎯 应用场景

LMM4LMM可用于自动评估文本到图像生成模型的性能，加速模型迭代和优化。该指标可应用于图像生成模型的训练、评估和选择，并可扩展到其他多模态生成任务，例如视频生成和3D模型生成。EvalMi-50K数据集可作为未来研究的基准，促进多模态生成领域的发展。

📄 摘要（原文）

Recent breakthroughs in large multimodal models (LMMs) have significantly advanced both text-to-image (T2I) generation and image-to-text (I2T) interpretation. However, many generated images still suffer from issues related to perceptual quality and text-image alignment. Given the high cost and inefficiency of manual evaluation, an automatic metric that aligns with human preferences is desirable. To this end, we present EvalMi-50K, a comprehensive dataset and benchmark for evaluating large-multimodal image generation, which features (i) comprehensive tasks, encompassing 2,100 extensive prompts across 20 fine-grained task dimensions, and (ii) large-scale human-preference annotations, including 100K mean-opinion scores (MOSs) and 50K question-answering (QA) pairs annotated on 50,400 images generated from 24 T2I models. Based on EvalMi-50K, we propose LMM4LMM, an LMM-based metric for evaluating large multimodal T2I generation from multiple dimensions including perception, text-image correspondence, and task-specific accuracy. Extensive experimental results show that LMM4LMM achieves state-of-the-art performance on EvalMi-50K, and exhibits strong generalization ability on other AI-generated image evaluation benchmark datasets, manifesting the generality of both the EvalMi-50K dataset and LMM4LMM metric. Both EvalMi-50K and LMM4LMM will be released at https://github.com/IntMeGroup/LMM4LMM.

LMM4LMM: Benchmarking and Evaluating Large-multimodal Image Generation with LMMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理