SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation

📄 arXiv: 2410.07658v2 📥 PDF

作者: Xiao Cai, Pengpeng Zeng, Lianli Gao, Sitong Su, Heng Tao Shen, Jingkuan Song

分类: cs.CV

发布日期: 2024-10-10 (更新: 2025-05-21)


💡 一句话要点

SeMv-3D:面向通用文本到3D生成,实现语义与多视角一致性的协同优化

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 文本到3D生成 多视角一致性 语义一致性 三平面表示 正交注意力

📋 核心要点

  1. 现有文本到3D生成方法难以同时保证语义一致性和多视角一致性,导致生成结果在语义保真度和结构连贯性上存在不足。
  2. SeMv-3D框架通过三平面先验学习(TPL)和基于先验的三平面语义对齐(SAT),协同优化语义对齐和多视角一致性。
  3. 实验结果表明,SeMv-3D在多视角一致性方面达到SOTA,并在语义一致性方面保持了有竞争力的性能,实现了显著提升。

📝 摘要(中文)

通用文本到3D (GT23D) 生成对于创建多样化的3D内容至关重要,但它面临两个关键挑战:1) 确保输入文本和生成的3D模型之间的语义一致性;2) 维持3D模型在不同视角下的多视角一致性。现有方法通常只解决其中一个挑战,导致在语义保真度和结构连贯性方面表现欠佳。为了克服这些限制,我们提出了SeMv-3D,这是一个新颖的框架,它共同增强了GT23D生成中的语义对齐和多视角一致性。其核心在于引入了三平面先验学习 (TPL),它通过使用专门的正交注意力机制捕获三个正交平面上的空间对应关系,从而有效地学习三平面先验,确保视角间的几何一致性。此外,我们提出了基于先验的三平面语义对齐 (SAT),它通过利用基于注意力的特征对齐来加强文本语义和三平面表示之间的对应关系,从而实现一致的任意视角合成。大量实验表明,我们的方法在多视角一致性方面达到了新的state-of-the-art,同时在语义一致性方面保持了与仅关注语义对齐的方法相比具有竞争力的性能。这些结果强调了我们的方法在有效平衡和擅长这两个维度方面的卓越能力,为该领域建立了一个新的基准。

🔬 方法详解

问题定义:现有通用文本到3D生成方法难以兼顾语义一致性和多视角一致性。单独优化语义一致性可能导致几何结构扭曲,而单独优化多视角一致性可能偏离文本描述的语义。因此,如何同时保证生成结果的语义准确性和结构合理性是亟待解决的问题。

核心思路:SeMv-3D的核心思路是利用三平面表示作为中间媒介,通过学习三平面先验来约束几何结构,并在此基础上进行语义对齐。三平面表示能够有效地捕捉3D结构的几何信息,而语义对齐则保证了生成结果与文本描述的一致性。通过协同优化这两个方面,可以生成既符合语义又具有良好几何结构的3D模型。

技术框架:SeMv-3D框架主要包含两个核心模块:三平面先验学习(TPL)和基于先验的三平面语义对齐(SAT)。首先,TPL模块通过正交注意力机制学习三个正交平面上的空间对应关系,从而获得三平面先验。然后,SAT模块利用基于注意力的特征对齐,将文本语义信息融入到三平面表示中,从而实现语义对齐。最后,通过渲染模块将三平面表示转换为3D模型。

关键创新:SeMv-3D的关键创新在于同时考虑了语义一致性和多视角一致性,并提出了相应的解决方案。TPL模块通过学习三平面先验来约束几何结构,SAT模块通过语义对齐来保证语义准确性。这种协同优化的方法能够生成更高质量的3D模型。与现有方法相比,SeMv-3D能够更好地平衡语义保真度和结构连贯性。

关键设计:TPL模块中,正交注意力机制用于捕捉三个正交平面上的空间对应关系。SAT模块中,注意力机制用于将文本语义信息融入到三平面表示中。损失函数的设计也至关重要,需要同时考虑语义一致性和多视角一致性。具体的参数设置和网络结构细节在论文中有详细描述,例如注意力头的数量,特征维度等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SeMv-3D在多视角一致性方面显著优于现有方法,达到了新的state-of-the-art。在语义一致性方面,SeMv-3D也保持了与专门优化语义一致性的方法相比具有竞争力的性能。具体而言,在多视角一致性指标上,SeMv-3D相比于基线方法提升了XX%,证明了其在平衡语义保真度和结构连贯性方面的卓越能力。

🎯 应用场景

SeMv-3D在游戏开发、虚拟现实、增强现实、电商展示等领域具有广泛的应用前景。它可以根据文本描述快速生成各种3D模型,从而降低3D内容创作的门槛,提高创作效率。未来,该技术有望应用于个性化定制、智能设计等领域,为用户提供更加便捷和智能的3D内容创作体验。

📄 摘要(原文)

General Text-to-3D (GT23D) generation is crucial for creating diverse 3D content across objects and scenes, yet it faces two key challenges: 1) ensuring semantic consistency between input text and generated 3D models, and 2) maintaining multi-view consistency across different perspectives within 3D. Existing approaches typically address only one of these challenges, often leading to suboptimal results in semantic fidelity and structural coherence. To overcome these limitations, we propose SeMv-3D, a novel framework that jointly enhances semantic alignment and multi-view consistency in GT23D generation. At its core, we introduce Triplane Prior Learning (TPL), which effectively learns triplane priors by capturing spatial correspondences across three orthogonal planes using a dedicated Orthogonal Attention mechanism, thereby ensuring geometric consistency across viewpoints. Additionally, we present Prior-based Semantic Aligning in Triplanes (SAT), which enables consistent any-view synthesis by leveraging attention-based feature alignment to reinforce the correspondence between textual semantics and triplane representations. Extensive experiments demonstrate that our method sets a new state-of-the-art in multi-view consistency, while maintaining competitive performance in semantic consistency compared to methods focused solely on semantic alignment. These results emphasize the remarkable ability of our approach to effectively balance and excel in both dimensions, establishing a new benchmark in the field.