CoherenDream: Boosting Holistic Text Coherence in 3D Generation via Multimodal Large Language Models Feedback

📄 arXiv: 2504.19860v3 📥 PDF

作者: Chenhan Jiang, Yihan Zeng, Dit-Yan Yeung

分类: cs.CV

发布日期: 2025-04-28 (更新: 2025-08-13)


💡 一句话要点

CoherenDream:利用多模态大语言模型反馈提升3D生成中的文本一致性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到3D生成 多模态大语言模型 语义一致性 分数蒸馏采样 跨模态理解

📋 核心要点

  1. 现有基于SDS的文本到3D生成方法在处理复杂场景时,难以保证生成结果与文本提示的语义一致性。
  2. 论文提出Textual Coherent Score Distillation (TCSD),利用多模态大语言模型评估并指导文本-3D对应关系,提升生成质量。
  3. 论文构建CoherenDream框架,并设计3DLLaVA-CRITIC模型与LLM布局初始化方法,在TIFA数据集上验证了有效性。

📝 摘要(中文)

Score Distillation Sampling (SDS) 在文本到3D内容生成方面取得了显著成功。然而,基于SDS的方法难以维持用户提示的语义保真度,尤其是在涉及具有复杂交互的多个对象时。现有方法通常通过在3D数据集上微调多视角扩散模型来解决3D一致性问题,但这种策略无意中加剧了文本-3D对齐的退化。这种限制源于SDS在优化过程中固有的视角无关偏差的累积,这逐渐偏离了理想的文本对齐方向。为了缓解这一限制,我们提出了一种新的SDS目标,称为文本连贯性分数蒸馏(TCSD),它集成了来自多模态大语言模型(MLLM)的对齐反馈。我们的TCSD利用MLLM的跨模态理解能力来评估和指导优化过程中的文本-3D对应关系。我们进一步开发了3DLLaVA-CRITIC,这是一个专门用于评估3D生成中多视角文本对齐的微调MLLM。此外,我们引入了一种LLM布局初始化,通过语义感知的空间配置显著加速了优化收敛。我们的框架CoherenDream在TIFA子集上的多个指标上实现了持续改进。作为第一个将MLLM纳入SDS优化的研究,我们还进行了广泛的消融研究,以探索MLLM对3D生成任务的最佳适应性。

🔬 方法详解

问题定义:现有基于Score Distillation Sampling (SDS) 的文本到3D生成方法,在处理包含多个对象以及复杂交互的场景时,难以保证生成结果与文本提示的语义一致性。这是由于SDS优化过程中会累积视角无关的偏差,导致生成结果逐渐偏离理想的文本对齐方向。

核心思路:论文的核心思路是利用多模态大语言模型(MLLM)的跨模态理解能力,对3D生成结果的文本一致性进行评估,并将评估结果作为反馈信号,指导SDS的优化过程。通过这种方式,可以有效缓解SDS优化过程中产生的偏差,从而提升生成结果的语义一致性。

技术框架:CoherenDream框架主要包含以下几个模块:1) 基于SDS的3D生成器;2) 多视角渲染模块,用于从不同视角渲染3D模型;3) 3DLLaVA-CRITIC模型,用于评估多视角渲染图像与文本提示的语义一致性;4) TCSD损失函数,将3DLLaVA-CRITIC的评估结果作为反馈信号,指导SDS的优化。此外,还包含一个LLM布局初始化模块,用于加速优化过程。

关键创新:论文最重要的技术创新点在于提出了Textual Coherent Score Distillation (TCSD) 损失函数,该损失函数将多模态大语言模型的反馈融入到SDS优化过程中,从而有效提升了生成结果的文本一致性。与现有方法相比,TCSD能够更准确地评估3D生成结果的语义一致性,并提供更有效的优化指导。

关键设计:3DLLaVA-CRITIC是一个基于LLaVA微调的多模态大语言模型,专门用于评估3D生成结果的多视角文本对齐情况。LLM布局初始化利用LLM生成场景中各个对象的空间布局,从而为3D生成提供一个良好的初始状态,加速优化收敛。TCSD损失函数的设计需要平衡生成质量和文本一致性,具体公式未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoherenDream框架在TIFA数据集上取得了显著的性能提升,证明了TCSD损失函数的有效性。通过消融实验,论文还探索了MLLM在3D生成任务中的最佳应用方式,为后续研究提供了有价值的参考。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、电影制作等领域,能够生成更符合用户意图、语义一致性更高的3D内容。通过结合多模态大语言模型的理解能力,有望实现更智能、更高效的3D内容创作流程,降低3D内容生成的门槛。

📄 摘要(原文)

Score Distillation Sampling (SDS) has achieved remarkable success in text-to-3D content generation. However, SDS-based methods struggle to maintain semantic fidelity for user prompts, particularly when involving multiple objects with intricate interactions. While existing approaches often address 3D consistency through multiview diffusion model fine-tuning on 3D datasets, this strategy inadvertently exacerbates text-3D alignment degradation. The limitation stems from SDS's inherent accumulation of view-independent biases during optimization, which progressively diverges from the ideal text alignment direction. To alleviate this limitation, we propose a novel SDS objective, dubbed as Textual Coherent Score Distillation (TCSD), which integrates alignment feedback from multimodal large language models (MLLMs). Our TCSD leverages cross-modal understanding capabilities of MLLMs to assess and guide the text-3D correspondence during the optimization. We further develop 3DLLaVA-CRITIC - a fine-tuned MLLM specialized for evaluating multiview text alignment in 3D generations. Additionally, we introduce an LLM-layout initialization that significantly accelerates optimization convergence through semantic-aware spatial configuration. Our framework, CoherenDream, achieves consistent improvement across multiple metrics on TIFA subset.As the first study to incorporate MLLMs into SDS optimization, we also conduct extensive ablation studies to explore optimal MLLM adaptations for 3D generation tasks.