Advancing Multimodal LLMs by Large-Scale 3D Visual Instruction Dataset Generation

作者: Liu He, Xiao Zeng, Yizhi Song, Albert Y. C. Chen, Lu Xia, Shashwat Verma, Sankalp Dayal, Min Sun, Cheng-Hao Kuo, Daniel Aliaga

分类: cs.GR, cs.CV

发布日期: 2025-07-11 (更新: 2025-07-23)

💡 一句话要点

提出Ultimate3D数据集，提升多模态LLM对3D场景中相机-物体关系的理解

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 3D视觉 视觉指令微调 合成数据生成 相机-物体关系

📋 核心要点

现有MLLM在理解相机与物体间的关系（如方位、视角）方面存在不足，原因是训练数据中此类关系的覆盖度有限。
论文提出一个合成数据生成流程，利用3D资产、渲染技术和扩散模型生成逼真的图像，并用LLM生成文本提示，从而构建大规模3D视觉指令数据集。
构建了包含24万个VQA对的Ultimate3D数据集，并在此数据集上微调MLLM，在相机-物体关系识别任务上，性能显著优于现有商业模型，平均提升33.4%。

📝 摘要（中文）

多模态大型语言模型(MLLM)在准确捕捉相机-物体关系方面存在困难，尤其是在物体方向、相机视角和相机拍摄方面。这源于现有的MLLM主要在具有有限多样性的相机-物体关系和相应文本描述的图像上进行训练。为了解决这个问题，我们提出了一种合成生成流程来创建大规模的3D视觉指令数据集。我们的框架以3D资产作为输入，并使用渲染和基于扩散的图像生成模型来创建保持精确相机-物体关系的照片级真实感图像。此外，大型语言模型(LLM)被用于生成文本提示，以指导视觉指令调整和控制图像生成。我们创建了Ultimate3D，一个包含240K VQA的数据集，具有精确的相机-物体注释和相应的基准。在我们的数据集上进行微调的MLLM大大优于商业模型，在相机-物体关系识别任务上实现了平均33.4%的准确率提升。我们的代码、数据集和基准将有助于广泛的MLLM应用。

🔬 方法详解

问题定义：现有的多模态大语言模型（MLLM）在理解和推理3D场景中相机与物体之间的关系方面表现不佳。主要痛点在于缺乏足够多样且带有精确标注的训练数据，特别是关于物体朝向、相机视角和拍摄角度等信息。现有数据集难以覆盖各种复杂的相机-物体关系，导致MLLM泛化能力不足。

核心思路：论文的核心思路是通过合成数据生成来弥补现有数据的不足。具体而言，利用3D资产和图像生成技术，创建包含大量具有精确相机-物体关系标注的图像数据。通过在这些合成数据上进行训练，提升MLLM对相机-物体关系的理解和推理能力。

技术框架：整体框架包含以下几个主要模块：1) 3D资产库：作为数据生成的基础。2) 渲染引擎：用于将3D资产渲染成图像，并记录精确的相机-物体关系。3) 扩散模型：用于增强图像的真实感和多样性。4) 大型语言模型（LLM）：用于生成文本提示，指导图像生成和视觉指令调整。整个流程首先利用LLM生成文本提示，然后根据提示渲染图像，并使用扩散模型进行优化，最后生成带有精确标注的VQA数据。

关键创新：最重要的技术创新点在于提出了一种可控的、大规模的3D视觉指令数据集生成流程。该流程结合了3D渲染、扩散模型和LLM，能够高效地生成高质量、多样化的训练数据，并保证相机-物体关系的精确标注。与现有方法相比，该方法能够显著提升MLLM在3D场景理解方面的性能。

关键设计：在数据生成过程中，利用LLM生成多样化的文本提示，以控制图像的内容和风格。渲染引擎保证相机-物体关系的精确记录。扩散模型采用Stable Diffusion等先进模型，以生成逼真的图像。数据集包含24万个VQA对，涵盖各种相机-物体关系。在模型训练方面，采用视觉指令微调（Visual Instruction Tuning）策略，以提升MLLM的指令遵循能力。

📊 实验亮点

实验结果表明，在Ultimate3D数据集上微调的MLLM在相机-物体关系识别任务上取得了显著的性能提升，平均准确率提升了33.4%，大幅超越了现有的商业模型。这表明该数据集能够有效地提升MLLM对3D场景的理解能力，并具有很高的实用价值。

🎯 应用场景

该研究成果可广泛应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。通过提升MLLM对3D场景的理解能力，可以使机器人更好地感知周围环境，实现更智能的导航和交互。在自动驾驶领域，可以提高车辆对复杂交通场景的理解和判断能力，从而提升安全性。在VR/AR领域，可以实现更逼真的虚拟体验和更自然的交互方式。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) struggle with accurately capturing camera-object relations, especially for object orientation, camera viewpoint, and camera shots. This stems from the fact that existing MLLMs are trained on images with limited diverse camera-object relations and corresponding textual descriptions. To address this, we propose a synthetic generation pipeline to create large-scale 3D visual instruction datasets. Our framework takes 3D assets as input and uses rendering and diffusion-based image generation models to create photorealistic images preserving precise camera-object relations. Additionally, large language models (LLMs) are used to generate text prompts for guiding visual instruction tuning and controlling image generation. We create Ultimate3D, a dataset of 240K VQAs with precise camera-object annotations, and corresponding benchmark. MLLMs fine-tuned on our proposed dataset outperform commercial models by a large margin, achieving an average accuracy improvement of 33.4% on camera-object relation recognition tasks. Our code, dataset, and benchmark will contribute to broad MLLM applications.

Advancing Multimodal LLMs by Large-Scale 3D Visual Instruction Dataset Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理