UmniBench: Unified Understand and Generation Model Oriented Omni-dimensional Benchmark

📄 arXiv: 2512.17196v1 📥 PDF

作者: Kai Liu, Leyang Chen, Wenbo Li, Zhikai Chen, Zhixin Wang, Renjing Pei, Linghe Kong, Yulun Zhang

分类: cs.AI

发布日期: 2025-12-19

备注: Project Page: https://umnibench.github.io/


💡 一句话要点

提出 UmniBench,用于全面评估统一多模态模型的理解、生成和编辑能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 统一多模态模型 多模态评估 理解能力 生成能力 编辑能力 基准测试 自评估

📋 核心要点

  1. 现有统一多模态模型(UMMs)的评估方式割裂,分别评估理解和生成能力,缺乏统一的评估标准。
  2. UmniBench 提出了一种新的评估范式,利用 UMM 本身来评估其理解、生成和编辑能力,实现全面评估。
  3. UmniBench 涵盖 13 个领域和 200 多个概念,并对 24 个模型进行了基准测试,提供细粒度的评估结果。

📝 摘要(中文)

统一多模态理解和生成在先进的专有系统中展现了令人印象深刻的能力。然而,对统一多模态模型(UMMs)的评估仍然是分离的,使用相应的数据集分别评估其理解和生成能力。为了解决这个问题,我们提出了 UmniBench,这是一个为 UMMs 量身定制的基准,具有全方位评估能力。首先,UmniBench 可以在单个评估过程中评估理解、生成和编辑能力。基于人工检查的提示和问答对,UmniBench 利用 UMM 本身来评估其生成和编辑能力以及理解能力。这种简单而有效的范例可以对 UMM 进行全面评估。其次,UmniBench 涵盖 13 个主要领域和 200 多个概念,确保对 UMM 进行彻底检查。此外,UmniBench 还可以分离并分别评估理解、生成和编辑能力,从而提供细粒度的评估。基于 UmniBench,我们对 24 个流行的模型进行了基准测试,包括 UMM 和单能力大型模型。我们希望这个基准能够为统一模型提供更全面和客观的视角,并为提高社区模型的性能提供后勤支持。

🔬 方法详解

问题定义:现有对统一多模态模型(UMMs)的评估方法通常是分离的,即使用不同的数据集和指标分别评估模型的理解和生成能力。这种评估方式无法全面反映 UMM 的真实能力,尤其是在理解、生成和编辑能力相互关联的任务中。因此,需要一个统一的基准来综合评估 UMM 的各项能力。

核心思路:UmniBench 的核心思路是利用 UMM 自身的能力来评估其各项能力。具体来说,它基于人工设计的提示和问答对,让 UMM 生成答案或编辑文本,然后利用 UMM 自身的理解能力来判断生成或编辑结果的质量。这种自评估的方式可以避免引入额外的评估模型,从而简化评估流程并提高评估效率。

技术框架:UmniBench 的评估流程主要包括以下几个步骤:1) 人工设计提示和问答对,涵盖理解、生成和编辑三种能力;2) 将提示输入 UMM,让其生成答案或编辑文本;3) 利用 UMM 自身的理解能力,对生成或编辑结果进行评估,例如判断答案是否正确、文本是否流畅等;4) 统计评估结果,生成综合评估报告。UmniBench 涵盖 13 个主要领域和 200 多个概念,确保评估的全面性。

关键创新:UmniBench 的关键创新在于其自评估的范式。与传统的评估方法相比,UmniBench 不需要额外的评估模型,而是利用 UMM 自身的能力来评估其各项能力。这种自评估的方式可以简化评估流程,提高评估效率,并避免引入额外的偏差。

关键设计:UmniBench 的关键设计包括:1) 人工设计的提示和问答对,需要精心设计,以确保能够有效地激发 UMM 的各项能力;2) UMM 自身的理解能力,需要选择合适的评估指标和方法,以确保评估结果的准确性;3) 评估结果的统计和分析,需要采用合理的统计方法,以确保评估结果的可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UmniBench 对 24 个流行的模型进行了基准测试,包括 UMM 和单能力大型模型。实验结果表明,不同的模型在不同的领域和任务上表现出不同的优势和不足。UmniBench 能够提供细粒度的评估结果,帮助研究人员更好地了解模型的性能特点,并为模型的改进提供方向。

🎯 应用场景

UmniBench 可用于评估各种统一多模态模型,例如视觉语言模型、多模态对话系统等。它可以帮助研究人员更好地了解 UMM 的优势和不足,从而指导模型的设计和改进。此外,UmniBench 还可以用于比较不同 UMM 的性能,为用户选择合适的模型提供参考。未来,UmniBench 可以扩展到更多领域和任务,并与其他评估工具集成,形成一个完整的 UMM 评估生态系统。

📄 摘要(原文)

Unifying multimodal understanding and generation has shown impressive capabilities in cutting-edge proprietary systems. However, evaluations of unified multimodal models (UMMs) remain decoupled, assessing their understanding and generation abilities separately with corresponding datasets. To address this, we propose UmniBench, a benchmark tailored for UMMs with omni-dimensional evaluation. First, UmniBench can assess the understanding, generation, and editing ability within a single evaluation process. Based on human-examined prompts and QA pairs, UmniBench leverages UMM itself to evaluate its generation and editing ability with its understanding ability. This simple but effective paradigm allows comprehensive evaluation of UMMs. Second, UmniBench covers 13 major domains and more than 200 concepts, ensuring a thorough inspection of UMMs. Moreover, UmniBench can also decouple and separately evaluate understanding, generation, and editing abilities, providing a fine-grained assessment. Based on UmniBench, we benchmark 24 popular models, including both UMMs and single-ability large models. We hope this benchmark provides a more comprehensive and objective view of unified models and logistical support for improving the performance of the community model.