Advancing Multimodal LLMs by Large-Scale 3D Visual Instruction Dataset Generation
作者: Liu He, Xiao Zeng, Yizhi Song, Albert Y. C. Chen, Lu Xia, Shashwat Verma, Sankalp Dayal, Min Sun, Cheng-Hao Kuo, Daniel Aliaga
分类: cs.GR, cs.CV
发布日期: 2025-07-11 (更新: 2025-07-23)
💡 一句话要点
提出Ultimate3D数据集,提升多模态LLM对3D场景中相机-物体关系的理解
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 3D视觉 视觉指令微调 合成数据生成 相机-物体关系
📋 核心要点
- 现有MLLM在理解相机与物体间的关系(如方位、视角)方面存在不足,原因是训练数据中此类关系的覆盖度有限。
- 论文提出一个合成数据生成流程,利用3D资产、渲染技术和扩散模型生成逼真的图像,并用LLM生成文本提示,从而构建大规模3D视觉指令数据集。
- 构建了包含24万个VQA对的Ultimate3D数据集,并在此数据集上微调MLLM,在相机-物体关系识别任务上,性能显著优于现有商业模型,平均提升33.4%。
📝 摘要(中文)
多模态大型语言模型(MLLM)在准确捕捉相机-物体关系方面存在困难,尤其是在物体方向、相机视角和相机拍摄方面。这源于现有的MLLM主要在具有有限多样性的相机-物体关系和相应文本描述的图像上进行训练。为了解决这个问题,我们提出了一种合成生成流程来创建大规模的3D视觉指令数据集。我们的框架以3D资产作为输入,并使用渲染和基于扩散的图像生成模型来创建保持精确相机-物体关系的照片级真实感图像。此外,大型语言模型(LLM)被用于生成文本提示,以指导视觉指令调整和控制图像生成。我们创建了Ultimate3D,一个包含240K VQA的数据集,具有精确的相机-物体注释和相应的基准。在我们的数据集上进行微调的MLLM大大优于商业模型,在相机-物体关系识别任务上实现了平均33.4%的准确率提升。我们的代码、数据集和基准将有助于广泛的MLLM应用。
🔬 方法详解
问题定义:现有的多模态大语言模型(MLLM)在理解和推理3D场景中相机与物体之间的关系方面表现不佳。主要痛点在于缺乏足够多样且带有精确标注的训练数据,特别是关于物体朝向、相机视角和拍摄角度等信息。现有数据集难以覆盖各种复杂的相机-物体关系,导致MLLM泛化能力不足。
核心思路:论文的核心思路是通过合成数据生成来弥补现有数据的不足。具体而言,利用3D资产和图像生成技术,创建包含大量具有精确相机-物体关系标注的图像数据。通过在这些合成数据上进行训练,提升MLLM对相机-物体关系的理解和推理能力。
技术框架:整体框架包含以下几个主要模块:1) 3D资产库:作为数据生成的基础。2) 渲染引擎:用于将3D资产渲染成图像,并记录精确的相机-物体关系。3) 扩散模型:用于增强图像的真实感和多样性。4) 大型语言模型(LLM):用于生成文本提示,指导图像生成和视觉指令调整。整个流程首先利用LLM生成文本提示,然后根据提示渲染图像,并使用扩散模型进行优化,最后生成带有精确标注的VQA数据。
关键创新:最重要的技术创新点在于提出了一种可控的、大规模的3D视觉指令数据集生成流程。该流程结合了3D渲染、扩散模型和LLM,能够高效地生成高质量、多样化的训练数据,并保证相机-物体关系的精确标注。与现有方法相比,该方法能够显著提升MLLM在3D场景理解方面的性能。
关键设计:在数据生成过程中,利用LLM生成多样化的文本提示,以控制图像的内容和风格。渲染引擎保证相机-物体关系的精确记录。扩散模型采用Stable Diffusion等先进模型,以生成逼真的图像。数据集包含24万个VQA对,涵盖各种相机-物体关系。在模型训练方面,采用视觉指令微调(Visual Instruction Tuning)策略,以提升MLLM的指令遵循能力。
📊 实验亮点
实验结果表明,在Ultimate3D数据集上微调的MLLM在相机-物体关系识别任务上取得了显著的性能提升,平均准确率提升了33.4%,大幅超越了现有的商业模型。这表明该数据集能够有效地提升MLLM对3D场景的理解能力,并具有很高的实用价值。
🎯 应用场景
该研究成果可广泛应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。通过提升MLLM对3D场景的理解能力,可以使机器人更好地感知周围环境,实现更智能的导航和交互。在自动驾驶领域,可以提高车辆对复杂交通场景的理解和判断能力,从而提升安全性。在VR/AR领域,可以实现更逼真的虚拟体验和更自然的交互方式。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) struggle with accurately capturing camera-object relations, especially for object orientation, camera viewpoint, and camera shots. This stems from the fact that existing MLLMs are trained on images with limited diverse camera-object relations and corresponding textual descriptions. To address this, we propose a synthetic generation pipeline to create large-scale 3D visual instruction datasets. Our framework takes 3D assets as input and uses rendering and diffusion-based image generation models to create photorealistic images preserving precise camera-object relations. Additionally, large language models (LLMs) are used to generate text prompts for guiding visual instruction tuning and controlling image generation. We create Ultimate3D, a dataset of 240K VQAs with precise camera-object annotations, and corresponding benchmark. MLLMs fine-tuned on our proposed dataset outperform commercial models by a large margin, achieving an average accuracy improvement of 33.4% on camera-object relation recognition tasks. Our code, dataset, and benchmark will contribute to broad MLLM applications.