PinpointQA: A Dataset and Benchmark for Small Object-Centric Spatial Understanding in Indoor Videos
作者: Zhiyu Zhou, Peilin Liu, Ruoxuan Zhang, Luyang Zhang, Cheng Zhang, Hongxia Xie, Wen-Huang Cheng
分类: cs.CV, cs.AI
发布日期: 2026-04-10
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
PinpointQA:室内视频中小物体空间理解数据集与基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 小物体空间理解 室内视频 多模态大语言模型 问答数据集 空间推理
📋 核心要点
- 多模态大语言模型在室内视频中小物体空间理解方面面临挑战,现有基准缺乏对物体精确定位的评估。
- PinpointQA数据集通过构建四个难度递增的任务,系统性地评估模型在小物体空间理解方面的能力。
- 实验表明,现有模型在PinpointQA上表现不佳,但在该数据集上微调后性能显著提升,验证了其有效性。
📝 摘要(中文)
本文提出了PinpointQA,一个用于评估多模态大型语言模型(MLLMs)在室内视频中进行小物体中心空间理解能力的数据集和基准。尽管该能力在物体搜索和辅助应用中具有实际价值,但现有基准未能直接评估模型在视频中定位目标物体并精确表达其位置的能力。PinpointQA基于ScanNet++和ScanNet200构建,包含1024个场景和10094个问答对,组织成四个难度递增的任务:目标存在验证(TPV)、最近参考物识别(NRI)、细粒度空间描述(FSD)和结构化空间预测(SSP)。问答对自动生成并经过质量控制。在代表性MLLM上的实验表明,模型能力存在持续差距,SSP任务尤其困难。在PinpointQA上进行监督微调可显著提升性能,尤其是在较难的任务上,表明PinpointQA既可作为诊断基准,也可作为有效的训练数据集。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLMs)在室内视频中进行小物体中心空间理解的难题。现有方法缺乏对模型定位目标物体并精确描述其位置能力的有效评估,无法满足物体搜索和辅助应用等实际需求。现有基准数据集虽然关注视频空间智能,但未直接评估模型精确定位目标物体并表达其位置的能力。
核心思路:论文的核心思路是构建一个专门针对小物体空间理解的问答数据集PinpointQA,通过设计一系列难度递增的任务,诊断并提升MLLMs在该方面的能力。该数据集基于室内场景的三维重建数据,自动生成问答对,并进行人工质量控制,保证了数据的质量和多样性。
技术框架:PinpointQA数据集的构建流程主要包括以下几个阶段:1) 基于ScanNet++和ScanNet200数据集构建室内场景的三维重建数据;2) 在每个场景中选择小物体作为目标物体,并定义其空间关系;3) 自动生成与目标物体相关的问答对,包括目标存在验证(TPV)、最近参考物识别(NRI)、细粒度空间描述(FSD)和结构化空间预测(SSP)四个任务;4) 对生成的问答对进行人工质量控制,确保其准确性和合理性。
关键创新:PinpointQA的关键创新在于其专注于小物体中心的空间理解,并设计了一系列难度递增的任务,能够更全面地评估MLLMs在该方面的能力。与现有数据集相比,PinpointQA更关注物体定位的精确性和空间关系的细粒度描述,更贴近实际应用需求。此外,PinpointQA采用自动生成问答对的方式,并进行人工质量控制,保证了数据的规模和质量。
关键设计:PinpointQA数据集包含1024个场景和10094个问答对。四个任务的难度递增,TPV任务主要验证模型是否能够识别目标物体是否存在;NRI任务要求模型识别与目标物体最近的参考物体;FSD任务要求模型用自然语言描述目标物体的空间位置;SSP任务要求模型预测目标物体的结构化空间信息。数据集的构建过程中,使用了多种数据增强技术,以提高模型的泛化能力。问答对的生成使用了基于规则的方法和基于模板的方法,并进行了人工校对。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有MLLMs在PinpointQA数据集上的表现与人类水平存在较大差距,尤其是在SSP任务上。然而,通过在PinpointQA数据集上进行监督微调,模型的性能得到了显著提升,尤其是在较难的FSD和SSP任务上。例如,在SSP任务上,微调后的模型性能提升了超过20%。这些结果表明,PinpointQA可以作为有效的诊断基准和训练数据集,促进MLLMs在小物体空间理解方面的研究。
🎯 应用场景
PinpointQA的研究成果可广泛应用于物体搜索、机器人导航、智能家居、辅助技术等领域。例如,在物体搜索应用中,用户可以通过自然语言描述目标物体的位置,系统利用PinpointQA训练的模型快速定位目标物体。在机器人导航应用中,机器人可以根据PinpointQA训练的模型理解环境中的物体空间关系,从而实现更智能的导航。该研究有助于提升人工智能系统在真实场景中的空间感知和推理能力。
📄 摘要(原文)
Small object-centric spatial understanding in indoor videos remains a significant challenge for multimodal large language models (MLLMs), despite its practical value for object search and assistive applications. Although existing benchmarks have advanced video spatial intelligence, embodied reasoning, and diagnostic perception, no existing benchmark directly evaluates whether a model can localize a target object in video and express its position with sufficient precision for downstream use. In this work, we introduce PinpointQA, the first dataset and benchmark for small object-centric spatial understanding in indoor videos. Built from ScanNet++ and ScanNet200, PinpointQA comprises 1,024 scenes and 10,094 QA pairs organized into four progressively challenging tasks: Target Presence Verification (TPV), Nearest Reference Identification (NRI), Fine-Grained Spatial Description (FSD), and Structured Spatial Prediction (SSP). The dataset is built from intermediate spatial representations, with QA pairs generated automatically and further refined through quality control. Experiments on representative MLLMs reveal a consistent capability gap along the progressive chain, with SSP remaining particularly difficult. Supervised fine-tuning on PinpointQA yields substantial gains, especially on the harder tasks, demonstrating that PinpointQA serves as both a diagnostic benchmark and an effective training dataset. The dataset and project page are available at https://rainchowz.github.io/PinpointQA.