GenAI Arena: An Open Evaluation Platform for Generative Models

📄 arXiv: 2406.04485v4 📥 PDF

作者: Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen

分类: cs.AI, cs.CV

发布日期: 2024-06-06 (更新: 2024-11-11)

备注: 9 pages,7 figures

期刊: NeurIPS 2024


💡 一句话要点

GenAI Arena:一个用于生成模型开放评估的平台,通过用户反馈提升评估质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成模型评估 用户反馈 众包评估 多模态模型 GenAI-Bench 文本到图像生成 文本到视频生成

📋 核心要点

  1. 现有生成模型评估指标(如FID)难以准确反映用户对生成质量的感知,无法有效衡量用户满意度。
  2. GenAI-Arena通过用户投票和反馈,提供了一个更民主、更贴近用户体验的生成模型评估平台。
  3. 实验表明,即使是GPT-4o等先进多模态模型,在模拟人类对生成内容的判断时,准确率也较低,表明该领域仍有提升空间。

📝 摘要(中文)

生成式人工智能在图像和视频生成等领域取得了显著进展。然而,生成模型的快速发展凸显了一个关键问题:缺乏可信的评估指标。现有的自动评估方法,如FID、CLIP、FVD等,通常无法捕捉生成输出的细微质量和用户满意度。本文提出了一个开放平台GenAI-Arena,用于评估不同的图像和视频生成模型,用户可以积极参与评估。通过利用集体用户反馈和投票,GenAI-Arena旨在提供更民主和准确的模型性能衡量标准。该平台涵盖文本到图像生成、文本到视频生成和图像编辑三个任务,目前包含总共35个开源生成模型。GenAI-Arena已经运行了七个月,积累了来自社区的9000多张选票。本文描述了该平台,分析了数据,并解释了用于对模型进行排名的统计方法。为了进一步促进基于模型的评估指标的研究,我们发布了三个任务的偏好数据的清理版本,即GenAI-Bench。我们提示现有的多模态模型(如Gemini和GPT-4o)来模仿人类投票。通过将模型投票与人类投票进行比较来计算准确率,以了解它们的判断能力。结果表明,现有的多模态模型在评估生成的视觉内容方面仍然滞后,即使是最好的模型GPT-4o在三个生成任务中的平均准确率也仅为49.19%。由于缺乏在复杂视觉场景中的指令遵循和推理能力,开源MLLM的表现甚至更差。

🔬 方法详解

问题定义:现有生成模型的评估方法,如FID、CLIP等,无法很好地捕捉生成内容的主观质量和用户满意度。这些自动评估指标与人类的感知存在偏差,难以真实反映模型的实际表现。因此,需要一种更贴近用户体验、更可靠的评估方法。

核心思路:GenAI-Arena的核心思路是利用众包的方式,通过用户的投票和反馈来评估生成模型的质量。用户作为最终的使用者,其主观评价能够更直接地反映生成内容的优劣。通过收集大量用户的偏好数据,可以建立一个更可靠的模型排名体系。

技术框架:GenAI-Arena平台包含以下几个主要模块:1) 模型集成模块:集成各种开源的文本到图像、文本到视频以及图像编辑生成模型。2) 用户交互模块:用户可以提交prompt,平台生成多个模型的结果,用户对结果进行投票。3) 数据分析模块:对收集到的用户投票数据进行统计分析,计算模型的排名。4) 模型评估模块:使用多模态模型(如GPT-4o)模拟人类投票,并与真实用户投票进行比较,评估多模态模型的判断能力。

关键创新:该论文的关键创新在于:1) 提出了一个基于用户反馈的生成模型评估平台,弥补了现有自动评估指标的不足。2) 构建了一个包含大量用户偏好数据的GenAI-Bench数据集,为后续研究提供了宝贵资源。3) 评估了现有大型多模态模型在生成内容评估方面的能力,发现了其局限性。

关键设计:在数据分析方面,平台采用了合适的统计方法来处理用户投票数据,以确保模型排名的准确性和可靠性。在模型评估方面,通过比较多模态模型投票与人类投票的准确率,来衡量多模态模型的判断能力。GenAI-Bench数据集的构建,为后续研究提供了标准化的评估基准。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GenAI-Arena平台已运行7个月,收集了超过9000张用户投票。实验结果表明,即使是GPT-4o等先进多模态模型,在模拟人类对生成内容的判断时,平均准确率仅为49.19%。这表明现有模型在理解和评估生成视觉内容方面仍有很大的提升空间,同时也突出了GenAI-Arena平台的重要性和价值。

🎯 应用场景

GenAI-Arena平台可用于生成模型的开发和评估,帮助研究人员和开发者更好地了解模型的性能,并进行有针对性的改进。该平台收集的用户偏好数据可用于训练更有效的模型评估指标,提升生成模型的质量和用户体验。此外,该平台还可以应用于内容审核、创意设计等领域。

📄 摘要(原文)

Generative AI has made remarkable strides to revolutionize fields such as image and video generation. These advancements are driven by innovative algorithms, architecture, and data. However, the rapid proliferation of generative models has highlighted a critical gap: the absence of trustworthy evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc often fail to capture the nuanced quality and user satisfaction associated with generative outputs. This paper proposes an open platform GenAI-Arena to evaluate different image and video generative models, where users can actively participate in evaluating these models. By leveraging collective user feedback and votes, GenAI-Arena aims to provide a more democratic and accurate measure of model performance. It covers three tasks of text-to-image generation, text-to-video generation, and image editing respectively. Currently, we cover a total of 35 open-source generative models. GenAI-Arena has been operating for seven months, amassing over 9000 votes from the community. We describe our platform, analyze the data, and explain the statistical methods for ranking the models. To further promote the research in building model-based evaluation metrics, we release a cleaned version of our preference data for the three tasks, namely GenAI-Bench. We prompt the existing multi-modal models like Gemini, and GPT-4o to mimic human voting. We compute the accuracy by comparing the model voting with the human voting to understand their judging abilities. Our results show existing multimodal models are still lagging in assessing the generated visual content, even the best model GPT-4o only achieves an average accuracy of 49.19 across the three generative tasks. Open-source MLLMs perform even worse due to the lack of instruction-following and reasoning ability in complex vision scenarios.