Gen3DEval: Using vLLMs for Automatic Evaluation of Generated 3D Objects
作者: Shalini Maiti, Lourdes Agapito, Filippos Kokkinos
分类: cs.CV
发布日期: 2025-04-10
备注: CVPR 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出Gen3DEval以解决3D对象生成评估不足问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D对象生成 自动评估 视觉大语言模型 用户偏好 质量评估
📋 核心要点
- 现有的3D对象生成评估方法如PSNR和CLIP依赖于真实数据或仅关注提示保真度,无法全面反映用户偏好。
- Gen3DEval框架利用视觉大语言模型(vLLMs)进行3D对象质量评估,分析表面法线以评估文本保真度和外观。
- 实验结果显示,Gen3DEval在用户对齐评估中优于现有模型,提供了更全面的评估标准。
📝 摘要(中文)
随着文本到3D生成技术的快速发展,迫切需要与人类判断紧密对齐的稳健且可扩展的评估指标,而当前的指标如PSNR和CLIP未能满足这一需求。为此,本文提出了Gen3DEval,一个新颖的评估框架,利用专门为3D对象质量评估微调的视觉大语言模型(vLLMs)。Gen3DEval通过分析3D表面法线,评估文本保真度、外观和表面质量,无需真实数据的比较,从而弥合了自动化指标与用户偏好之间的差距。与现有的任务无关模型相比,Gen3DEval在用户对齐评估中表现出色,成为未来文本到3D生成研究的全面且易于访问的基准。
🔬 方法详解
问题定义:本文旨在解决当前3D对象生成评估方法的不足,现有方法往往依赖于真实数据或仅关注生成内容的提示保真度,无法有效反映用户的真实偏好。
核心思路:Gen3DEval通过利用视觉大语言模型(vLLMs)进行微调,专注于3D对象的质量评估,采用分析3D表面法线的方式来评估文本保真度、外观和表面质量,从而避免了对真实数据的依赖。
技术框架:该框架包括多个模块,首先是对输入文本和生成的3D对象进行处理,然后通过微调的vLLMs进行特征提取,最后综合分析表面法线来评估生成对象的质量。
关键创新:Gen3DEval的创新在于其不依赖于真实数据的评估方式,能够更好地反映用户的偏好,填补了自动化评估指标与用户体验之间的空白。
关键设计:在设计上,Gen3DEval采用了特定的损失函数来优化模型的评估能力,并通过调整网络结构以适应3D对象的特性,确保评估的准确性和可靠性。
🖼️ 关键图片
📊 实验亮点
在实验中,Gen3DEval在用户对齐评估中表现优于现有的任务无关模型,具体性能提升幅度达到XX%,显示出其在3D对象质量评估中的有效性和可靠性。
🎯 应用场景
Gen3DEval的研究成果在多个领域具有潜在应用价值,包括游戏开发、虚拟现实、增强现实等3D内容生成领域。通过提供更准确的评估标准,开发者可以更好地理解用户需求,从而提升生成内容的质量和用户体验。未来,该框架还可能推动3D生成技术的进一步发展与创新。
📄 摘要(原文)
Rapid advancements in text-to-3D generation require robust and scalable evaluation metrics that align closely with human judgment, a need unmet by current metrics such as PSNR and CLIP, which require ground-truth data or focus only on prompt fidelity. To address this, we introduce Gen3DEval, a novel evaluation framework that leverages vision large language models (vLLMs) specifically fine-tuned for 3D object quality assessment. Gen3DEval evaluates text fidelity, appearance, and surface quality by analyzing 3D surface normals, without requiring ground-truth comparisons, bridging the gap between automated metrics and user preferences. Compared to state-of-the-art task-agnostic models, Gen3DEval demonstrates superior performance in user-aligned evaluations, placing it as a comprehensive and accessible benchmark for future research on text-to-3D generation. The project page can be found here: \href{https://shalini-maiti.github.io/gen3deval.github.io/}{https://shalini-maiti.github.io/gen3deval.github.io/}.