UEval: A Benchmark for Unified Multimodal Generation

📄 arXiv: 2601.22155v1 📥 PDF

作者: Bo Li, Yida Yin, Wenhao Chai, Xingyu Fu, Zhuang Liu

分类: cs.CV, cs.CL

发布日期: 2026-01-29


💡 一句话要点

UEval:一个用于评估统一多模态生成模型的基准测试。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态生成 统一模型 基准测试 评估方法 推理能力

📋 核心要点

  1. 现有方法在评估统一多模态生成模型时,难以捕捉图像质量和文本准确性的细微之处。
  2. UEval通过专家设计的包含图像和文本输出的问题,以及基于细则的评分系统,实现更准确的评估。
  3. 实验表明,现有统一模型在UEval上表现不佳,推理能力对多模态理解和生成至关重要。

📝 摘要(中文)

本文提出了UEval,一个用于评估统一模型的基准,即能够生成图像和文本的模型。UEval包含1000个由专家策划的问题,这些问题来自8个真实世界的任务,需要模型输出图像和文本。这些问题涵盖了广泛的推理类型,从逐步指南到教科书解释。评估开放式的多模态生成并非易事,因为简单的LLM-as-a-judge方法可能会忽略细微之处。与以往依赖多模态大型语言模型(MLLM)来评估图像质量或文本准确性的工作不同,UEval设计了一个基于评分细则的评分系统。对于每个问题,向MLLM提供参考图像和文本答案,以生成初始评分细则,其中包含多个评估标准,然后由人类专家细化和验证这些细则。总共,UEval包含10417个经过验证的评分细则标准,从而实现可扩展和细粒度的自动评分。UEval对当前的统一模型提出了挑战:GPT-5-Thinking的得分仅为66.4(满分100),而最佳开源模型仅达到49.1。我们观察到,推理模型通常优于非推理模型,并且将推理轨迹从推理模型转移到非推理模型可以显着缩小差距。这表明推理对于需要复杂多模态理解和生成的任务可能很重要。

🔬 方法详解

问题定义:论文旨在解决统一多模态生成模型的评估问题。现有方法,特别是依赖MLLM直接评估图像质量和文本准确性的方法,往往无法捕捉到细微的差异,导致评估结果不够准确和可靠。这阻碍了对多模态生成模型能力的全面理解和进一步发展。

核心思路:论文的核心思路是构建一个高质量的基准测试集,并设计一个基于评分细则的评估系统。通过专家设计的复杂问题,以及详细的评估标准,可以更全面、细致地评估模型在多模态生成方面的能力。这种方法避免了简单LLM评估的主观性和局限性。

技术框架:UEval的整体框架包括以下几个主要阶段:1) 问题收集:从8个真实世界的任务中收集问题,这些问题需要模型同时生成图像和文本。2) 评分细则生成:对于每个问题,使用MLLM生成初始的评分细则,包含多个评估标准。3) 评分细则验证:由人类专家对MLLM生成的评分细则进行细化和验证,确保其准确性和可靠性。4) 自动评分:使用验证后的评分细则对模型的输出进行自动评分。

关键创新:UEval的关键创新在于其基于评分细则的评估系统。与以往依赖MLLM直接评分的方法不同,UEval通过详细的评估标准,将评估过程分解为多个可量化的指标,从而提高了评估的客观性和准确性。此外,专家参与的评分细则验证过程也保证了评估标准的质量。

关键设计:UEval包含1000个问题,涵盖了广泛的推理类型。每个问题都配有参考图像和文本答案,以及经过验证的评分细则。评分细则包含多个评估标准,例如图像的清晰度、文本的准确性、以及图像和文本之间的一致性。论文没有详细说明具体的参数设置、损失函数或网络结构,因为UEval主要关注的是评估方法,而不是特定的模型。

📊 实验亮点

实验结果表明,现有统一模型在UEval上表现不佳,GPT-5-Thinking的得分仅为66.4(满分100),最佳开源模型仅为49.1。此外,实验还发现,推理模型通常优于非推理模型,并且将推理轨迹从推理模型转移到非推理模型可以显着缩小差距。这表明推理能力对于复杂的多模态理解和生成至关重要。

🎯 应用场景

UEval可用于评估各种统一多模态生成模型,例如图像文本生成、视频描述生成等。该基准测试可以帮助研究人员更好地了解模型的优势和不足,从而指导模型的设计和改进。此外,UEval还可以用于比较不同模型之间的性能,促进多模态生成领域的发展。

📄 摘要(原文)

We introduce UEval, a benchmark to evaluate unified models, i.e., models capable of generating both images and text. UEval comprises 1,000 expert-curated questions that require both images and text in the model output, sourced from 8 real-world tasks. Our curated questions cover a wide range of reasoning types, from step-by-step guides to textbook explanations. Evaluating open-ended multimodal generation is non-trivial, as simple LLM-as-a-judge methods can miss the subtleties. Different from previous works that rely on multimodal Large Language Models (MLLMs) to rate image quality or text accuracy, we design a rubric-based scoring system in UEval. For each question, reference images and text answers are provided to a MLLM to generate an initial rubric, consisting of multiple evaluation criteria, and human experts then refine and validate these rubrics. In total, UEval contains 10,417 validated rubric criteria, enabling scalable and fine-grained automatic scoring. UEval is challenging for current unified models: GPT-5-Thinking scores only 66.4 out of 100, while the best open-source model reaches merely 49.1. We observe that reasoning models often outperform non-reasoning ones, and transferring reasoning traces from a reasoning model to a non-reasoning model significantly narrows the gap. This suggests that reasoning may be important for tasks requiring complex multimodal understanding and generation.