Thinking with Novel Views: A Systematic Analysis of Generative-Augmented Spatial Intelligence
作者: Yanbing Zhang, Bo Wang, Jianhui Liu, Nan Jiang, Jiaxiu Jiang, Haoze Sun, Yijun Yang, Shenghe Zheng, Lin Song, Haoyang Huang, Nan Duan, Wenbo Li
分类: cs.CV
发布日期: 2026-05-11
备注: Submitted to NeurIPS 2026
💡 一句话要点
提出TwNV框架,通过生成式新视角合成增强大模型空间推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大模型 空间推理 新视角合成 生成式AI 视觉感知 主动推理
📋 核心要点
- 现有LMM受限于单一静态视角,难以处理复杂的空间推理任务,导致在视角依赖性场景下推理能力不足。
- TwNV范式引入生成式反馈循环,由推理模型主动识别歧义并指令生成模型合成新视角,补充空间信息。
- 实验证实该方法在多种模型架构上均能显著提升空间推理准确率,验证了视角合成作为推理增强手段的有效性。
📝 摘要(中文)
当前大型多模态模型(LMMs)在处理依赖视角的空间推理任务时表现受限,主要原因在于其仅限于单一静态观测。为此,本文提出了“Thinking with Novel Views (TwNV)”范式,将生成式新视角合成技术集成至推理循环中:推理模型识别空间歧义,指导生成模型合成替代视角,并利用新增证据重新审视场景。研究通过系统性实验回答了三个关键问题:(1) 数值化相机位姿指令比自由文本指令能实现更可靠的视角控制;(2) 合成视角的保真度与下游空间推理准确性高度相关;(3) 推理时的多轮视角细化可进一步提升性能,呼应了语言推理中的扩展趋势。在四类空间子任务及四种LMM架构上的实验表明,TwNV一致性地提升了1.3至3.9个百分点的准确率,证明了新视角生成是提升LMM空间智能的有效手段。
🔬 方法详解
问题定义:论文旨在解决LMM在处理空间推理任务时,因缺乏多视角信息而导致的“空间盲区”问题。现有模型仅能基于单张静态图像进行推理,无法有效处理遮挡、深度感知及多角度几何关系判断。
核心思路:引入“主动推理”思想,将生成式AI作为推理过程的辅助工具。当模型感知到空间信息不足时,通过合成特定视角的图像来获取额外证据,从而打破静态观测的局限性。
技术框架:系统包含两个核心组件:Reasoner(推理模型)和Painter(生成模型)。流程分为三步:首先,Reasoner分析当前场景并识别空间歧义;其次,Reasoner输出相机位姿参数指令;最后,Painter根据指令合成新视角图像,Reasoner结合新旧图像进行二次推理。
关键创新:首次将生成式新视角合成(Novel-view synthesis)作为推理链条中的动态组件,而非预处理步骤。这种“推理-生成-再推理”的闭环机制,赋予了模型主动获取视觉信息的能力。
关键设计:研究发现数值化相机位姿(Camera-pose specifications)相比自然语言描述能提供更精确的视角控制;同时,通过多轮迭代细化(Iterative multi-turn refinement)可以显著增强复杂空间关系的解析能力,体现了推理扩展定律(Scaling Laws)在视觉领域的应用。
🖼️ 关键图片
📊 实验亮点
TwNV在四类空间子任务及四种主流LMM架构上均表现出显著性能增益,准确率提升幅度达1.3至3.9个百分点。实验特别指出,在视角敏感型任务中提升最为显著,且验证了推理时多轮视角细化策略与模型性能提升的正相关性,为提升多模态模型空间智能提供了可量化的技术路径。
🎯 应用场景
该技术在机器人导航、自动驾驶、增强现实(AR)及三维场景重建领域具有广阔应用前景。通过赋予模型主动获取不同视角信息的能力,可显著提升机器人对复杂环境的理解力、物体空间定位精度以及在遮挡环境下的任务执行成功率。
📄 摘要(原文)
Current Large Multimodal Models (LMMs) struggle with spatial reasoning tasks requiring viewpoint-dependent understanding, largely because they are confined to a single, static observation. We propose Thinking with Novel Views (TwNV), a paradigm that integrates generative novel-view synthesis into the reasoning loop: a Reasoner LMM identifies spatial ambiguity, instructs a Painter to synthesize an alternative viewpoint, and re-examines the scene with the additional evidence. Through systematic experiments we address three research questions. (1) Instruction format: numerical camera-pose specifications yield more reliable view control than free-form language. (2) Generation fidelity: synthesized view quality is tightly coupled with downstream spatial accuracy. (3) Inference-time visual scaling: iterative multi-turn view refinement further improves performance, echoing recent scaling trends in language reasoning. Across four spatial subtask categories and four LMM architectures (both closed- and open-source), TwNV consistently improves accuracy by +1.3 to +3.9 pp, with the largest gains on viewpoint-sensitive subtasks. These results establish novel-view generation as a practical lever for advancing spatial intelligence of LMMs.