CrossView Suite: Harnessing Cross-view Spatial Intelligence of MLLMs with Dataset, Model and Benchmark

作者: Wei Wang, Yuqian Yuan, Tianwei Lin, Wenqiao Zhang, Siliang Tang, Jun Xiao, Yueting Zhuang

分类: cs.CV, cs.AI

发布日期: 2026-05-18

🔗 代码/项目: GITHUB

💡 一句话要点

提出CrossView Suite，提升MLLM跨视角空间智能，包含数据集、模型和评测基准。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 跨视角推理 空间智能 数据集构建 模型对齐

📋 核心要点

现有MLLM在跨视角空间推理方面存在不足，缺乏大规模标注数据、综合评估基准和显式对齐机制。
CrossView Suite通过构建数据集、评测基准和提出CrossViewer模型，解决MLLM跨视角空间推理问题。
实验表明，大规模数据、系统评估和显式对齐对提升MLLM的跨视角空间智能至关重要。

📝 摘要（中文）

空间智能要求多模态大语言模型(MLLM)超越单视角感知，并在多个视角下对物体、可见性、几何形状和交互进行一致性推理。然而，跨视角推理的进展受到三个主要差距的限制：缺乏大规模、良好标注的训练数据，缺乏用于系统评估的综合基准，以及缺乏建立跨视角物体级别一致性的显式对齐机制。为了解决这些差距，我们全面开发了CrossView Suite，它包含三个协调的组件：CrossViewSet、CrossViewBench和CrossViewer。首先，我们引入了一个多智能体数据引擎，精心策划了一个大规模、高质量的跨视角指令数据集CrossViewSet，涵盖17种细粒度任务类型，包含160万个样本。其次，我们精心创建了一个场景分离的CrossViewBench，以全面评估MLLM的跨视角空间理解能力，并从各个方面对其进行评估。最后，我们提出了CrossViewer，这是一个用于MLLM跨视角空间推理的渐进式三阶段框架，遵循感知->对齐->推理范式。我们的方法配备了一个自适应空间区域分词器来捕获细粒度的物体表示，然后显式地对齐多视角物体，从而融合对齐的特征，以提高MLLM的跨视角推理能力。大量的实验和分析表明，大规模训练数据、系统评估和显式跨视角对齐对于推动MLLM从单视角感知走向现实世界的空间智能至关重要。项目页面可在https://github.com/Thinkirin/Crossview-Suite上找到。

🔬 方法详解

问题定义：现有MLLM在空间智能方面，特别是跨视角推理能力不足。主要痛点在于缺乏高质量、大规模的跨视角训练数据，缺乏全面的评估基准来系统性地评估模型性能，以及缺乏有效的机制来对齐不同视角下的物体表示，从而导致模型难以进行一致性的推理。

核心思路：论文的核心思路是构建一个完整的跨视角空间智能学习框架，包含数据、评估和模型三个方面。通过构建大规模数据集来提供训练数据，设计全面的评估基准来衡量模型性能，并提出显式的跨视角对齐模型来提升推理能力。这种三位一体的设计旨在弥补现有研究的不足，推动MLLM在跨视角空间智能方面的发展。

技术框架：CrossView Suite包含三个主要组件：CrossViewSet、CrossViewBench和CrossViewer。CrossViewSet是一个大规模的跨视角指令数据集，通过多智能体数据引擎生成。CrossViewBench是一个场景分离的评估基准，用于全面评估MLLM的跨视角空间理解能力。CrossViewer是一个三阶段框架，包含感知、对齐和推理三个阶段。在感知阶段，使用自适应空间区域分词器提取细粒度的物体表示。在对齐阶段，显式地对齐多视角物体。在推理阶段，融合对齐的特征进行跨视角推理。

关键创新：论文的关键创新在于提出了一个完整的跨视角空间智能学习框架，并设计了CrossViewer模型，该模型通过显式的跨视角对齐机制，有效地提升了MLLM的跨视角推理能力。与现有方法相比，CrossViewer不仅关注单视角感知，而且强调多视角信息的融合和一致性推理。

关键设计：CrossViewer的关键设计包括：1) 自适应空间区域分词器，用于捕获细粒度的物体表示；2) 显式的跨视角对齐模块，用于对齐多视角物体；3) 三阶段的感知、对齐和推理框架，用于逐步提升跨视角推理能力。具体的参数设置、损失函数和网络结构等细节在论文中有详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

论文通过构建大规模数据集CrossViewSet和评估基准CrossViewBench，为MLLM的跨视角空间智能研究提供了有力支持。提出的CrossViewer模型在跨视角推理任务上取得了显著的性能提升，证明了显式跨视角对齐的有效性。具体的性能数据和提升幅度在论文中有详细描述（未知）。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、三维场景理解、智能监控等领域。通过提升MLLM的跨视角空间智能，可以使机器人在复杂环境中更好地理解和交互，从而实现更安全、更高效的自主行为。未来，该技术有望推动人工智能在现实世界中的广泛应用。

📄 摘要（原文）

Spatial intelligence requires multimodal large language models (MLLMs) to move beyond single-view perception and reason consistently about objects, visibility, geometry, and interactions across multiple viewpoints. However, progress in cross-view reasoning remains limited by three major gaps: the scarcity of large-scale well-annotated training data, the lack of comprehensive benchmarks for systematic evaluation, and the absence of explicit alignment mechanisms that establish object-level consistency across views. To address these gaps, we thoroughly develop CrossView Suite across three coordinated components: CrossViewSet, CrossViewBench, and CrossViewer. Firstly, we introduce a multi-agent data engine to meticulously curate a large-scale, high-quality cross-view instruction dataset, termed CrossViewSet, covering 17 fine-grained task types with 1.6M samples. Second, we meticulously create a scene-disjoint CrossViewBench to comprehensively assess the cross-view spatial understanding capability of an MLLM, evaluating it across various aspects. Finally, we propose CrossViewer, a progressive three-stage framework for cross-view spatial reasoning in MLLMs, following a Perception -> Alignment -> Reasoning paradigm. Our method equips an adaptive spatial region tokenizer to capture fine-grained object representations, and then aligns the multi-view objects explicitly, and thus fuses aligned features for boosting the cross-view inference capacity for MLLMs. Extensive experiments and analyses show that large-scale training data, systematic evaluation, and explicit cross-view alignment are all critical for advancing MLLMs from single-view perception toward real-world spatial intelligence. The project page is available at https://github.com/Thinkirin/Crossview-Suite.

CrossView Suite: Harnessing Cross-view Spatial Intelligence of MLLMs with Dataset, Model and Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理