Thinking with Novel Views: A Systematic Analysis of Generative-Augmented Spatial Intelligence

作者: Yanbing Zhang, Bo Wang, Jianhui Liu, Nan Jiang, Jiaxiu Jiang, Haoze Sun, Yijun Yang, Shenghe Zheng, Lin Song, Haoyang Huang, Nan Duan, Wenbo Li

分类: cs.CV

发布日期: 2026-05-11

备注: Submitted to NeurIPS 2026

💡 一句话要点

提出TwNV框架，通过生成式新视角合成增强大模型空间推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 空间推理 新视角合成 生成式AI 视觉感知 主动推理

📋 核心要点

现有LMM受限于单一静态视角，难以处理复杂的空间推理任务，导致在视角依赖性场景下推理能力不足。
TwNV范式引入生成式反馈循环，由推理模型主动识别歧义并指令生成模型合成新视角，补充空间信息。
实验证实该方法在多种模型架构上均能显著提升空间推理准确率，验证了视角合成作为推理增强手段的有效性。

📝 摘要（中文）

当前大型多模态模型（LMMs）在处理依赖视角的空间推理任务时表现受限，主要原因在于其仅限于单一静态观测。为此，本文提出了“Thinking with Novel Views (TwNV)”范式，将生成式新视角合成技术集成至推理循环中：推理模型识别空间歧义，指导生成模型合成替代视角，并利用新增证据重新审视场景。研究通过系统性实验回答了三个关键问题：(1) 数值化相机位姿指令比自由文本指令能实现更可靠的视角控制；(2) 合成视角的保真度与下游空间推理准确性高度相关；(3) 推理时的多轮视角细化可进一步提升性能，呼应了语言推理中的扩展趋势。在四类空间子任务及四种LMM架构上的实验表明，TwNV一致性地提升了1.3至3.9个百分点的准确率，证明了新视角生成是提升LMM空间智能的有效手段。

🔬 方法详解

问题定义：论文旨在解决LMM在处理空间推理任务时，因缺乏多视角信息而导致的“空间盲区”问题。现有模型仅能基于单张静态图像进行推理，无法有效处理遮挡、深度感知及多角度几何关系判断。

核心思路：引入“主动推理”思想，将生成式AI作为推理过程的辅助工具。当模型感知到空间信息不足时，通过合成特定视角的图像来获取额外证据，从而打破静态观测的局限性。

技术框架：系统包含两个核心组件：Reasoner（推理模型）和Painter（生成模型）。流程分为三步：首先，Reasoner分析当前场景并识别空间歧义；其次，Reasoner输出相机位姿参数指令；最后，Painter根据指令合成新视角图像，Reasoner结合新旧图像进行二次推理。

关键创新：首次将生成式新视角合成（Novel-view synthesis）作为推理链条中的动态组件，而非预处理步骤。这种“推理-生成-再推理”的闭环机制，赋予了模型主动获取视觉信息的能力。

关键设计：研究发现数值化相机位姿（Camera-pose specifications）相比自然语言描述能提供更精确的视角控制；同时，通过多轮迭代细化（Iterative multi-turn refinement）可以显著增强复杂空间关系的解析能力，体现了推理扩展定律（Scaling Laws）在视觉领域的应用。

🖼️ 关键图片

📊 实验亮点

TwNV在四类空间子任务及四种主流LMM架构上均表现出显著性能增益，准确率提升幅度达1.3至3.9个百分点。实验特别指出，在视角敏感型任务中提升最为显著，且验证了推理时多轮视角细化策略与模型性能提升的正相关性，为提升多模态模型空间智能提供了可量化的技术路径。

🎯 应用场景

该技术在机器人导航、自动驾驶、增强现实（AR）及三维场景重建领域具有广阔应用前景。通过赋予模型主动获取不同视角信息的能力，可显著提升机器人对复杂环境的理解力、物体空间定位精度以及在遮挡环境下的任务执行成功率。

📄 摘要（原文）

Current Large Multimodal Models (LMMs) struggle with spatial reasoning tasks requiring viewpoint-dependent understanding, largely because they are confined to a single, static observation. We propose Thinking with Novel Views (TwNV), a paradigm that integrates generative novel-view synthesis into the reasoning loop: a Reasoner LMM identifies spatial ambiguity, instructs a Painter to synthesize an alternative viewpoint, and re-examines the scene with the additional evidence. Through systematic experiments we address three research questions. (1) Instruction format: numerical camera-pose specifications yield more reliable view control than free-form language. (2) Generation fidelity: synthesized view quality is tightly coupled with downstream spatial accuracy. (3) Inference-time visual scaling: iterative multi-turn view refinement further improves performance, echoing recent scaling trends in language reasoning. Across four spatial subtask categories and four LMM architectures (both closed- and open-source), TwNV consistently improves accuracy by +1.3 to +3.9 pp, with the largest gains on viewpoint-sensitive subtasks. These results establish novel-view generation as a practical lever for advancing spatial intelligence of LMMs.

Thinking with Novel Views: A Systematic Analysis of Generative-Augmented Spatial Intelligence

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理