Eval3D: Interpretable and Fine-grained Evaluation for 3D Generation

作者: Shivam Duggal, Yushi Hu, Oscar Michel, Aniruddha Kembhavi, William T. Freeman, Noah A. Smith, Ranjay Krishna, Antonio Torralba, Ali Farhadi, Wei-Chiu Ma

分类: cs.CV

发布日期: 2025-04-25

备注: CVPR 2025. Project page and codes: https://eval3d.github.io/

💡 一句话要点

Eval3D：一种可解释的细粒度3D生成评估工具

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D生成 评估指标 几何一致性 语义一致性 基础模型 可解释性 细粒度评估

📋 核心要点

现有3D生成评估方法要么忽略几何质量，要么依赖黑盒LLM，缺乏细粒度和可解释性。
Eval3D通过测量不同基础模型和工具之间的一致性，来评估3D资产的语义和几何一致性。
Eval3D提供像素级测量和精确3D空间反馈，更符合人类判断，并能有效评估现有3D生成模型的局限。

📝 摘要（中文）

尽管3D生成领域取得了前所未有的进展，但当前的系统仍然经常无法生成高质量的3D资产，这些资产在视觉上具有吸引力，并且在多个视点上具有几何和语义一致性。为了有效地评估生成的3D数据的质量，需要一种可靠的3D评估工具。不幸的是，现有的3D评估指标通常忽略了生成资产的几何质量，或者仅仅依赖于黑盒多模态大型语言模型进行粗略评估。在本文中，我们介绍Eval3D，这是一种细粒度的、可解释的评估工具，可以基于各种不同但互补的标准忠实地评估生成的3D资产的质量。我们的关键观察是，3D生成的许多期望属性，例如语义和几何一致性，可以通过测量各种基础模型和工具之间的一致性来有效地捕获。因此，我们利用一组不同的模型和工具作为探针来评估生成的3D资产在不同方面的非一致性。与之前的工作相比，Eval3D提供了像素级的测量，实现了精确的3D空间反馈，并且更符合人类的判断。我们使用Eval3D全面评估了现有的3D生成模型，并强调了当前模型的局限性和挑战。

🔬 方法详解

问题定义：当前3D生成模型难以保证生成资产在视觉吸引力、几何一致性和语义一致性方面的高质量。现有的3D评估指标要么忽略几何质量，要么依赖黑盒多模态大型语言模型进行粗略评估，缺乏细粒度和可解释性，难以提供有效的改进方向。

核心思路：Eval3D的核心思路是利用多种预训练的基础模型和工具作为“探针”，通过测量它们对同一3D资产的不同视角或属性的预测结果之间的一致性，来评估该资产的质量。如果不同“探针”的预测结果高度一致，则表明该资产的质量较高；反之，如果预测结果存在较大差异，则表明该资产存在问题。这种方法避免了直接定义复杂的3D质量指标，而是通过间接的方式来衡量。

技术框架：Eval3D的整体框架包括以下几个主要步骤：1) 3D资产生成：使用待评估的3D生成模型生成3D资产。2) 多视角渲染：从多个视角渲染生成的3D资产，得到一系列2D图像。3) 特征提取与预测：使用不同的基础模型（例如，图像分类模型、语义分割模型、深度估计模型等）对渲染的2D图像进行特征提取和预测。4) 一致性评估：比较不同视角或不同模型预测结果之间的一致性，得到最终的评估分数。

关键创新：Eval3D的关键创新在于其利用多种预训练的基础模型和工具作为“探针”，通过测量它们之间的一致性来评估3D资产的质量。这种方法避免了直接定义复杂的3D质量指标，而是通过间接的方式来衡量。与现有方法相比，Eval3D提供了像素级的测量，实现了精确的3D空间反馈，并且更符合人类的判断。

关键设计：Eval3D的关键设计包括：1) 探针选择：选择合适的预训练模型和工具作为“探针”，以覆盖不同的3D资产属性（例如，几何形状、纹理、语义信息等）。2) 一致性度量：设计合适的一致性度量方法，以衡量不同“探针”预测结果之间的差异。例如，可以使用余弦相似度、交叉熵损失等。3) 视角选择：选择合适的视角，以充分捕捉3D资产的各个方面。4) 分数聚合：将不同“探针”和不同视角的评估分数聚合为一个最终的评估分数。

📊 实验亮点

论文使用Eval3D对现有3D生成模型进行了全面评估，揭示了当前模型在几何一致性和语义一致性方面的不足。实验结果表明，Eval3D能够提供更细粒度、更准确的评估结果，与人类判断更吻合。通过Eval3D的评估，可以更好地了解现有模型的局限性，并为未来的研究方向提供指导。

🎯 应用场景

Eval3D可应用于3D内容生成模型的评估与改进，辅助设计更有效的3D生成算法。同时，它也能用于3D资产质量控制，筛选高质量的3D模型，提升下游应用（如游戏开发、虚拟现实、工业设计）的体验。未来，Eval3D有望扩展到更多3D相关任务的评估，例如3D重建、3D场景理解等。

📄 摘要（原文）

Despite the unprecedented progress in the field of 3D generation, current systems still often fail to produce high-quality 3D assets that are visually appealing and geometrically and semantically consistent across multiple viewpoints. To effectively assess the quality of the generated 3D data, there is a need for a reliable 3D evaluation tool. Unfortunately, existing 3D evaluation metrics often overlook the geometric quality of generated assets or merely rely on black-box multimodal large language models for coarse assessment. In this paper, we introduce Eval3D, a fine-grained, interpretable evaluation tool that can faithfully evaluate the quality of generated 3D assets based on various distinct yet complementary criteria. Our key observation is that many desired properties of 3D generation, such as semantic and geometric consistency, can be effectively captured by measuring the consistency among various foundation models and tools. We thus leverage a diverse set of models and tools as probes to evaluate the inconsistency of generated 3D assets across different aspects. Compared to prior work, Eval3D provides pixel-wise measurement, enables accurate 3D spatial feedback, and aligns more closely with human judgments. We comprehensively evaluate existing 3D generation models using Eval3D and highlight the limitations and challenges of current models.

Eval3D: Interpretable and Fine-grained Evaluation for 3D Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理