OpenLex3D: A Tiered Evaluation Benchmark for Open-Vocabulary 3D Scene Representations

作者: Christina Kassab, Sacha Morin, Martin Büchner, Matías Mattamala, Kumaraditya Gupta, Abhinav Valada, Liam Paull, Maurice Fallon

分类: cs.CV, cs.RO

发布日期: 2025-03-25 (更新: 2025-10-14)

备注: NeurIPS 2025

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

OpenLex3D：用于开放词汇3D场景表示的分层评估基准

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D场景理解 开放词汇 语义分割 对象检索 基准测试

📋 核心要点

现有3D场景理解方法受限于封闭集语义，无法充分利用自然语言的丰富性。
OpenLex3D通过提供更丰富的标签注释，包括同义词和细粒度描述，来捕捉真实世界的语言变异性。
通过开放集3D语义分割和对象检索任务，OpenLex3D评估了现有方法的性能，并指出了改进方向。

📝 摘要（中文）

本文提出了OpenLex3D，一个专门用于评估3D开放词汇场景表示的基准。现有的3D场景理解方法受到封闭集语义数据集的限制，无法捕捉语言的丰富性。OpenLex3D为Replica、ScanNet++和HM3D场景提供了全新的标签注释，通过引入同义对象类别和更细致的描述，捕捉了真实世界中的语言变异性。我们的标签集比原始数据集每个场景多13倍的标签。通过引入开放集3D语义分割任务和对象检索任务，我们在OpenLex3D上评估了各种现有的3D开放词汇方法，展示了失败案例和改进方向。我们的实验提供了关于特征精度、分割和下游能力的见解。该基准可在https://openlex3d.github.io/公开获取。

🔬 方法详解

问题定义：现有3D场景理解方法依赖于封闭集语义的数据集进行训练和评估，这些数据集无法捕捉自然语言的多样性和复杂性。这限制了模型在真实世界场景中的泛化能力，尤其是在处理开放词汇和细粒度语义时。现有方法难以处理同义词和上下文相关的对象描述，导致性能下降。

核心思路：OpenLex3D的核心思路是创建一个包含更丰富、更细致的标签注释的3D场景数据集，从而更真实地反映自然语言的复杂性。通过引入同义词和细粒度描述，OpenLex3D旨在挑战现有模型，并推动开放词汇3D场景理解领域的发展。该基准测试鼓励开发能够理解和处理更广泛语言表达的模型。

技术框架：OpenLex3D基于现有的Replica、ScanNet++和HM3D数据集，并在此基础上进行了扩展和重新标注。主要包含以下几个部分：1) 数据集选择：选择具有代表性的3D场景数据集。2) 标签注释：为每个场景添加新的标签注释，包括同义对象类别和细粒度描述。3) 任务定义：定义开放集3D语义分割和对象检索任务。4) 评估指标：设计合适的评估指标来衡量模型在这些任务上的性能。

关键创新：OpenLex3D的关键创新在于其标签注释的丰富性和细粒度。与现有数据集相比，OpenLex3D提供了更多的标签，包括同义词和细粒度描述，从而更真实地反映了自然语言的复杂性。这种更丰富的标签集使得模型能够学习到更鲁棒和泛化的3D场景表示。

关键设计：OpenLex3D的关键设计包括：1) 标签注释策略：采用人工标注和自动标注相结合的方法，确保标签的准确性和完整性。2) 任务设计：开放集3D语义分割任务要求模型能够识别未在训练集中出现的对象类别。对象检索任务要求模型能够根据自然语言描述检索到相应的3D对象。3) 评估指标：采用精确率、召回率和F1分数等指标来评估模型在这些任务上的性能。

🖼️ 关键图片

📊 实验亮点

OpenLex3D的实验结果表明，现有3D开放词汇方法在处理同义词和细粒度描述时存在不足。例如，在开放集3D语义分割任务中，现有方法的性能显著低于封闭集语义分割任务。OpenLex3D的标签集比原始数据集每个场景多13倍的标签，为模型提供了更丰富的训练数据，从而有望提升模型的性能。

🎯 应用场景

OpenLex3D可应用于机器人导航、虚拟现实、增强现实、智能家居等领域。通过提升3D场景理解能力，机器人可以更好地与环境交互，虚拟现实和增强现实应用可以提供更逼真的体验，智能家居系统可以更智能地理解用户的需求。该基准测试将推动相关技术的发展，并促进这些应用场景的落地。

📄 摘要（原文）

3D scene understanding has been transformed by open-vocabulary language models that enable interaction via natural language. However, at present the evaluation of these representations is limited to datasets with closed-set semantics that do not capture the richness of language. This work presents OpenLex3D, a dedicated benchmark for evaluating 3D open-vocabulary scene representations. OpenLex3D provides entirely new label annotations for scenes from Replica, ScanNet++, and HM3D, which capture real-world linguistic variability by introducing synonymical object categories and additional nuanced descriptions. Our label sets provide 13 times more labels per scene than the original datasets. By introducing an open-set 3D semantic segmentation task and an object retrieval task, we evaluate various existing 3D open-vocabulary methods on OpenLex3D, showcasing failure cases, and avenues for improvement. Our experiments provide insights on feature precision, segmentation, and downstream capabilities. The benchmark is publicly available at: https://openlex3d.github.io/.

OpenLex3D: A Tiered Evaluation Benchmark for Open-Vocabulary 3D Scene Representations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理