SpatialTraceGen: High-Fidelity Traces for Efficient VLM Spatial Reasoning Distillation

📄 arXiv: 2511.00054v1 📥 PDF

作者: Gio Huh, Dhruv Sheth, Rayhan Zirvi, Frank Xiao

分类: cs.LG, cs.AI

发布日期: 2025-10-28

备注: Accepted to the 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop on Efficient Reasoning


💡 一句话要点

SpatialTraceGen:高效VLM空间推理蒸馏的高保真轨迹生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉语言模型 空间推理 知识蒸馏 自动化验证 多步推理

📋 核心要点

  1. 现有VLM在复杂空间推理上表现不足,缺乏高质量的逐步推理数据是主要瓶颈。
  2. SpatialTraceGen通过蒸馏大型教师模型的推理过程,生成高质量的多跳、多工具推理轨迹数据集。
  3. 自动化验证器确保推理步骤的保真度,在CLEVR-Humans上质量提升17%,方差降低40%。

📝 摘要(中文)

视觉语言模型(VLM)在许多领域表现出色,但在复杂的空间推理方面存在困难,这需要问题分解和策略性工具使用。微调更小、更易于部署的模型是提高性能的有效途径,但受到一个主要瓶颈的阻碍:缺乏高质量、逐步推理数据。为了解决这种数据效率差距,我们引入了SpatialTraceGen,一个将大型教师模型的推理过程提炼成高质量多跳、多工具推理轨迹数据集的框架。一个关键创新是我们的自动化验证器,它可以大规模地确保每个推理步骤的保真度,从而提供了一种经济高效的替代手动人工标注的方法。在CLEVR-Humans基准测试中,这种验证器引导的过程将轨迹的平均质量得分提高了17%,同时将质量方差降低了40%以上。SpatialTraceGen提供了一个专家轨迹数据集,提供了结构化的、逐步的工具使用示例,这对于有效的微调和样本高效的离线强化学习是必要的。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型(VLM)在复杂空间推理任务中表现不佳的问题。现有的VLM虽然在许多领域表现出色,但在需要问题分解和策略性工具使用的空间推理任务上存在困难。一个主要的痛点是缺乏高质量的、逐步推理的数据集,这阻碍了对小型VLM进行有效微调,从而限制了其在资源受限环境中的部署。

核心思路:论文的核心思路是通过知识蒸馏,将大型教师模型的推理过程提炼成高质量的推理轨迹数据集。具体来说,SpatialTraceGen框架利用大型VLM作为教师模型,生成解决空间推理问题的多步推理过程,并使用自动验证器来确保每个推理步骤的正确性。这种方法旨在克服人工标注成本高昂且难以扩展的缺点,从而实现高效的数据生成。

技术框架:SpatialTraceGen框架包含以下主要模块:1) 教师模型:使用大型VLM生成推理轨迹。2) 工具集:定义VLM可以使用的工具,例如目标检测、属性识别等。3) 推理过程生成器:利用教师模型和工具集,生成解决特定空间推理问题的多步推理过程。4) 自动验证器:评估每个推理步骤的正确性,并对不正确的步骤进行纠正或过滤。5) 数据集构建器:将验证后的推理轨迹整理成数据集,用于训练小型VLM。

关键创新:该论文的关键创新在于提出了一个自动化的验证器,用于评估和纠正推理轨迹的质量。与传统的人工标注相比,自动验证器具有更高的效率和可扩展性,能够以更低的成本生成大规模的高质量推理数据集。此外,该框架还创新性地结合了知识蒸馏和自动验证技术,为解决VLM空间推理问题提供了一种新的思路。

关键设计:自动验证器的设计是该框架的关键。具体来说,验证器使用一系列规则和约束来评估每个推理步骤的正确性。例如,对于目标检测步骤,验证器会检查检测到的目标是否与问题描述相符。对于属性识别步骤,验证器会检查识别出的属性是否正确。如果验证器检测到错误,它会尝试纠正该步骤,或者将其从推理轨迹中删除。此外,论文还可能涉及损失函数的设计,用于指导教师模型生成更易于验证和纠正的推理轨迹。具体的网络结构细节(例如教师模型和验证器的具体架构)在摘要中未提及,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

SpatialTraceGen在CLEVR-Humans基准测试中取得了显著成果。通过使用自动验证器引导的流程,该方法将推理轨迹的平均质量得分提高了17%,同时将质量方差降低了40%以上。这些结果表明,SpatialTraceGen能够有效地生成高质量的推理数据集,并显著提升VLM的空间推理性能。

🎯 应用场景

SpatialTraceGen具有广泛的应用前景,可用于提升VLM在机器人导航、自动驾驶、智能助手等领域的空间推理能力。通过提供高质量的训练数据,该方法可以帮助开发更智能、更可靠的AI系统,从而改善人机交互体验,并解决现实世界中的复杂问题。此外,该方法还可以应用于其他需要多步推理的任务,例如问答系统和对话生成。

📄 摘要(原文)

While Vision-Language Models (VLMs) excel in many areas, they struggle with complex spatial reasoning, which requires problem decomposition and strategic tool use. Fine-tuning smaller, more deployable models offers an efficient path to strong performance, but this is hampered by a major bottleneck: the absence of high-quality, step-by-step reasoning data. To address this data-efficiency gap, we introduce SpatialTraceGen, a framework to distill the reasoning processes of a large teacher model into a high-quality dataset of multi-hop, multi-tool reasoning traces. A key innovation is our automated Verifier, which scalably ensures the fidelity of each reasoning step, providing a cost-effective alternative to manual human annotation. On the CLEVR-Humans benchmark, this verifier-guided process improves the average quality score of traces by 17\% while reducing quality variance by over 40\%. SpatialTraceGen delivers a dataset of expert traces, providing the structured, step-by-step examples of tool use necessary for effective fine-tuning and sample-efficient offline reinforcement learning.