MetaFind: Scene-Aware 3D Asset Retrieval for Coherent Metaverse Scene Generation

📄 arXiv: 2510.04057v1 📥 PDF

作者: Zhenyu Pan, Yucheng Lu, Han Liu

分类: cs.CV, cs.AI

发布日期: 2025-10-05

备注: The Thirty-Ninth Annual Conference on Neural Information Processing Systems (NeurIPS 2025)


💡 一句话要点

MetaFind:面向元宇宙场景生成的场景感知三维资产检索框架

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 元宇宙 3D资产检索 场景生成 三模态学习 图神经网络

📋 核心要点

  1. 现有3D资产检索方法缺乏对空间、语义和风格一致性的考虑,导致检索结果与场景不协调。
  2. MetaFind提出了一种灵活的三模态组合检索框架,通过联合建模对象级特征和场景级布局结构,实现场景感知的3D资产检索。
  3. 实验结果表明,MetaFind在空间和风格一致性方面优于现有方法,能够有效提升元宇宙场景生成的质量。

📝 摘要(中文)

MetaFind是一个场景感知的三模态组合检索框架,旨在通过从大规模知识库中检索3D资产来增强元宇宙中的场景生成。MetaFind解决了两个核心挑战:(1)忽略空间、语义和风格约束的不一致资产检索;(2)缺乏专门为3D资产检索量身定制的标准化检索范式,因为现有方法主要依赖于通用3D形状表示模型。我们的关键创新是一种灵活的检索机制,支持文本、图像和3D模态的任意组合作为查询,通过联合建模对象级特征(包括外观)和场景级布局结构来增强空间推理和风格一致性。在方法上,MetaFind引入了一个即插即用的等变布局编码器ESSGNN,它可以捕获空间关系和对象外观特征,确保检索到的3D资产在上下文和风格上与现有场景保持一致,而与坐标系变换无关。该框架支持通过不断调整检索结果以适应当前场景更新来进行迭代场景构建。经验评估表明,与基线方法相比,MetaFind在各种检索任务中提高了空间和风格一致性。

🔬 方法详解

问题定义:现有3D资产检索方法主要依赖于通用的3D形状表示模型,忽略了场景的空间布局、语义关系和风格一致性。这导致检索到的3D资产与现有场景不协调,影响了元宇宙场景生成的质量。现有方法缺乏针对3D资产检索的标准化范式,难以满足元宇宙场景生成的特定需求。

核心思路:MetaFind的核心思路是利用场景上下文信息来指导3D资产检索,从而保证检索结果与现有场景在空间、语义和风格上的一致性。通过联合建模对象级特征(包括外观)和场景级布局结构,MetaFind能够更好地理解场景的上下文信息,并根据这些信息检索合适的3D资产。

技术框架:MetaFind的整体框架包括以下几个主要模块:1) 三模态查询编码器:用于编码文本、图像和3D模态的查询信息。2) 等变布局编码器(ESSGNN):用于捕获场景的空间关系和对象外观特征。3) 检索模块:根据查询编码和场景编码,从3D资产库中检索相关的3D资产。4) 迭代场景构建模块:根据检索结果更新场景,并重复上述过程,直到生成完整的场景。

关键创新:MetaFind的关键创新在于提出了一个即插即用的等变布局编码器ESSGNN。ESSGNN能够捕获场景的空间关系和对象外观特征,并保证编码结果对坐标系变换具有不变性。这使得MetaFind能够更好地理解场景的上下文信息,并根据这些信息检索合适的3D资产。与现有方法相比,MetaFind能够更好地保证检索结果与现有场景在空间、语义和风格上的一致性。

关键设计:ESSGNN采用图神经网络结构,节点表示场景中的对象,边表示对象之间的空间关系。ESSGNN使用等变卷积操作来保证编码结果对坐标系变换具有不变性。损失函数包括检索损失和布局损失,用于优化检索结果和布局结构的质量。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MetaFind在多个3D资产检索任务中进行了评估,实验结果表明,MetaFind在空间和风格一致性方面显著优于现有方法。具体性能数据未知,但论文强调了MetaFind在各种检索任务中提高了空间和风格一致性,表明其在元宇宙场景生成方面具有显著优势。

🎯 应用场景

MetaFind可应用于元宇宙场景生成、虚拟现实内容创作、游戏开发等领域。它可以帮助用户快速构建高质量的3D场景,提高内容创作效率,并为用户提供更加沉浸式的体验。未来,MetaFind可以进一步扩展到其他领域,例如智能家居设计、城市规划等。

📄 摘要(原文)

We present MetaFind, a scene-aware tri-modal compositional retrieval framework designed to enhance scene generation in the metaverse by retrieving 3D assets from large-scale repositories. MetaFind addresses two core challenges: (i) inconsistent asset retrieval that overlooks spatial, semantic, and stylistic constraints, and (ii) the absence of a standardized retrieval paradigm specifically tailored for 3D asset retrieval, as existing approaches mainly rely on general-purpose 3D shape representation models. Our key innovation is a flexible retrieval mechanism that supports arbitrary combinations of text, image, and 3D modalities as queries, enhancing spatial reasoning and style consistency by jointly modeling object-level features (including appearance) and scene-level layout structures. Methodologically, MetaFind introduces a plug-and-play equivariant layout encoder ESSGNN that captures spatial relationships and object appearance features, ensuring retrieved 3D assets are contextually and stylistically coherent with the existing scene, regardless of coordinate frame transformations. The framework supports iterative scene construction by continuously adapting retrieval results to current scene updates. Empirical evaluations demonstrate the improved spatial and stylistic consistency of MetaFind in various retrieval tasks compared to baseline methods.