Uncovering and Shaping the Latent Representation of 3D Scene Topology in Vision-Language Models

作者: Haoming Wang, Wei Gao

分类: cs.CV

发布日期: 2026-05-08

🔗 代码/项目: GITHUB

💡 一句话要点

揭示并重塑视觉语言模型中的3D场景拓扑潜空间，显著提升空间推理能力

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 视觉语言模型 空间推理 拓扑表征 具身智能 狄利克雷能量 潜空间重塑 几何深度学习

📋 核心要点

核心问题：现有VLMs虽然具备空间推理能力，但其内部的3D空间表征被非几何视觉语义（如颜色、纹理）严重干扰，导致空间理解能力受限。
方法要点：通过跨场景线性特征提取分离出纯净的空间子空间，并引入基于狄利克雷能量的正则化方法，从数学上重塑并强化模型的3D拓扑表征。
实验效果：仅需500步合成数据微调，该方法在真实世界空间基准测试中显著优于标准SFT，在拓扑理解相关任务中性能提升最高达12.1%。

📝 摘要（中文）

认知科学研究表明，人类通过构建以自我为中心的拓扑保持型认知地图来导航环境。尽管现代视觉语言模型（VLMs）在处理2D自我中心输入时展现出涌现的空间推理能力，但其是否构建了类似的3D内部表征尚不明确。本文证明了现有VLMs确实具备3D场景的潜在拓扑地图，但该表征往往被颜色和形状等非几何视觉语义所掩盖。通过跨场景线性特征提取，我们分离出了一个能够因果控制模型空间输出的纯净空间子空间。我们从数学上重塑了该潜空间，证明其对应于场景3D高斯核图的拉普拉斯特征映射，并在连续极限下收敛于物理3D空间。基于此，我们引入了一种基于狄利克雷能量的数学原则性潜空间正则化方法。在简单合成数据上进行500步监督微调（SFT）后，该方法在真实世界空间基准测试中表现优异，在涉及场景拓扑理解的任务中较标准SFT及基线提升高达12.1%。

🔬 方法详解

问题定义：论文旨在解决VLMs在处理3D空间任务时，内部表征缺乏几何一致性且被视觉语义噪声干扰的问题。现有模型虽然能处理空间指令，但其潜空间并未显式编码场景的拓扑结构，导致在复杂空间推理任务中表现不佳。

核心思路：论文的核心在于证明VLMs内部存在一个被掩盖的“空间子空间”。通过将该子空间与场景的拉普拉斯特征映射（Laplacian eigenmaps）对齐，利用几何图论的约束来引导模型学习具备拓扑保持特性的表征，从而实现对模型空间推理能力的因果控制。

技术框架：研究首先通过跨场景线性特征提取技术定位空间子空间；随后，引入基于狄利克雷能量（Dirichlet energy）的正则化项，在监督微调（SFT）过程中对模型的潜特征进行几何约束，强制模型学习符合3D物理空间的拓扑结构。

关键创新：最重要的创新在于将认知科学中的“认知地图”概念与深度学习的潜空间正则化相结合，通过数学证明建立了VLM潜空间与3D高斯核图拉普拉斯特征映射之间的等价关系，为提升模型空间感知提供了理论支撑。

关键设计：关键技术细节包括利用狄利克雷能量作为正则化损失函数，该函数能够平滑模型在空间邻近点上的表征，确保模型在处理3D空间时保持拓扑一致性，同时仅需极少量的合成数据微调即可实现泛化能力的显著提升。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在空间推理基准测试中表现卓越。通过仅500步的合成数据微调，模型在涉及场景拓扑理解的任务中，较标准SFT及现有主流基线方法提升了高达12.1%的性能，验证了该几何正则化方法在提升VLM空间感知能力方面的有效性与高效性。

🎯 应用场景

该研究在机器人导航、自动驾驶、增强现实（AR）及具身智能领域具有重要价值。通过增强模型对3D场景拓扑的理解，可显著提升机器人执行复杂空间指令、进行路径规划及在未知环境中进行语义地图构建的准确性与鲁棒性。

📄 摘要（原文）

Decades of cognitive science establish that humans navigate environments by forming cognitive maps, defined as allocentric and topology-preserving representations of 3D space. While modern Vision-Language Models (VLMs) demonstrate emergent spatial reasoning from 2D egocentric inputs, it remains unclear whether they construct an analogous 3D internal representation. In this paper, we demonstrate that current VLMs do possess a latent topological map of 3D scenes, but it is heavily overshadowed by non-geometric visual semantics, such as color and shape. By isolating this spatial subspace through cross-scene linear feature extraction, we extract a clean spatial subspace that causally controls the model's spatial outputs. We mathematically shape this latent representation and prove its correspondence to the Laplacian eigenmaps of the scene's 3D Gaussian-kernel graph, converging to the physical 3D space in the continuous limit. Motivated by this geometric identification, we further introduce a mathematically principled latent regularization method for VLMs, based on Dirichlet energy. Applying this single-term regularizer to a minimal 500-step supervised VLM fine-tuning (SFT) on simple synthetic data yields significant improvements on real-world spatial benchmarks, outperforming standard SFT and competitive baselines by up to 12.1\% in spatial tasks involving scene topology understanding. Source code is available at https://github.com/pittisl/vlm-latent-shaping

Uncovering and Shaping the Latent Representation of 3D Scene Topology in Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理