3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination
作者: Jianing Yang, Xuweiyi Chen, Nikhil Madaan, Madhavan Iyengar, Shengyi Qian, David F. Fouhey, Joyce Chai
分类: cs.CV, cs.AI, cs.CL, cs.LG, cs.RO
发布日期: 2024-06-07 (更新: 2025-03-20)
备注: CVPR 2025. Project website: https://3d-grand.github.io
💡 一句话要点
提出3D-GRAND数据集,提升3D-LLM的场景理解能力并减少幻觉
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D大型语言模型 场景理解 数据集 幻觉评估 具身智能 指令微调 3D场景 模拟到真实迁移
📋 核心要点
- 现有3D-LLM缺乏大规模、密集对齐的场景-语言数据集,导致场景理解能力不足,容易产生幻觉。
- 提出3D-GRAND数据集,包含大量家庭场景和对应的语言指令,旨在提升3D-LLM的场景理解和对齐能力。
- 实验表明,使用3D-GRAND进行指令微调能显著提升3D-LLM性能,并减少幻觉,同时验证了数据集规模的重要性。
📝 摘要(中文)
本文提出了3D-GRAND,一个大规模的3D场景理解数据集,包含40,087个家庭场景以及620万条密集对齐的场景-语言指令。该数据集旨在提升3D大型语言模型(3D-LLM)的场景理解能力,并减少幻觉。实验结果表明,使用3D-GRAND进行指令微调可以显著增强3D-LLM的场景对齐能力,并减少幻觉现象。此外,本文还提出了一个全面的基准测试3D-POPE,用于系统性地评估3D-LLM中的幻觉问题,从而实现模型之间的公平比较。实验结果强调了数据集规模与3D-LLM性能之间的正相关关系,突出了大规模3D文本数据集对于具身智能研究的重要性。初步结果表明,在大型合成数据上训练的模型在真实世界的3D扫描数据上表现良好,具有有效的模拟到真实世界的迁移能力。通过3D-GRAND和3D-POPE,旨在为具身智能社区提供资源和见解,从而开发出更可靠、对齐更好的3D-LLM。
🔬 方法详解
问题定义:现有3D-LLM在理解和交互3D环境时面临挑战,主要原因是缺乏大规模、高质量的3D场景-语言对数据集。现有方法难以实现语言和3D场景之间的精确对齐,导致模型容易产生幻觉,影响其在具身智能和机器人领域的应用。
核心思路:本文的核心思路是通过构建一个大规模的3D场景-语言数据集,为3D-LLM提供充足的训练数据,从而提升其场景理解能力和减少幻觉。通过密集的场景-语言指令对,模型可以学习到更精确的3D场景表示和语言描述之间的对应关系。
技术框架:3D-GRAND数据集包含40,087个家庭场景和620万条场景-语言指令。数据集的构建流程包括:1)3D场景生成或获取;2)基于场景生成对应的语言指令,这些指令描述了场景中的对象、关系和任务;3)对场景和指令进行对齐和标注。此外,还提出了3D-POPE基准测试,用于评估3D-LLM的幻觉程度。
关键创新:该论文的关键创新在于构建了一个大规模、密集对齐的3D场景-语言数据集,这在3D-LLM领域是首创。此外,提出的3D-POPE基准测试为评估3D-LLM的幻觉问题提供了一个系统性的方法。与现有方法相比,3D-GRAND提供了更丰富的场景信息和更精确的语言描述,有助于模型学习到更鲁棒的场景表示。
关键设计:数据集的构建过程中,采用了多种策略来保证数据的质量和多样性,例如使用不同的场景生成方法、设计不同的语言指令模板、以及进行人工审核。在3D-POPE基准测试中,设计了一系列评估指标来衡量模型的幻觉程度,例如对象存在性、属性准确性和关系一致性等。具体的参数设置、损失函数和网络结构等技术细节取决于所使用的3D-LLM模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用3D-GRAND进行指令微调可以显著提升3D-LLM的性能,在场景理解任务上取得了明显的提升,并有效减少了幻觉现象。实验还验证了数据集规模与模型性能之间的正相关关系,表明更大规模的数据集可以带来更好的模型性能。初步的sim-to-real迁移实验表明,在合成数据上训练的模型在真实世界的3D扫描数据上表现良好。
🎯 应用场景
该研究成果可广泛应用于具身智能、机器人导航、虚拟现实和增强现实等领域。通过提升3D-LLM的场景理解能力,可以使机器人更好地理解周围环境,执行复杂的任务,并与人类进行更自然的交互。此外,该数据集和基准测试可以促进3D-LLM领域的研究进展,推动相关技术的创新和发展。
📄 摘要(原文)
The integration of language and 3D perception is crucial for embodied agents and robots that comprehend and interact with the physical world. While large language models (LLMs) have demonstrated impressive language understanding and generation capabilities, their adaptation to 3D environments (3D-LLMs) remains in its early stages. A primary challenge is a lack of large-scale datasets with dense grounding between language and 3D scenes. We introduce 3D-GRAND, a pioneering large-scale dataset comprising 40,087 household scenes paired with 6.2 million densely-grounded scene-language instructions. Our results show that instruction tuning with 3D-GRAND significantly enhances grounding capabilities and reduces hallucinations in 3D-LLMs. As part of our contributions, we propose a comprehensive benchmark 3D-POPE to systematically evaluate hallucination in 3D-LLMs, enabling fair comparisons of models. Our experiments highlight a scaling effect between dataset size and 3D-LLM performance, emphasizing the importance of large-scale 3D-text datasets for embodied AI research. Our results demonstrate early signals for effective sim-to-real transfer, indicating that models trained on large synthetic data can perform well on real-world 3D scans. Through 3D-GRAND and 3D-POPE, we aim to equip the embodied AI community with resources and insights to lead to more reliable and better-grounded 3D-LLMs. Project website: https://3d-grand.github.io