PRISM: A Multi-View Multi-Capability Retail Video Dataset for Embodied Vision-Language Models
作者: Amirreza Rouhi, Parikshit Sakurikar, Satya Sai Reddy, Narsimha Menga, Anirudh Govil, Sri Harsha Chittajallu, Rajat Aggarwal, Anoop Namboodiri, Sashi Reddi
分类: cs.CV, cs.AI, cs.RO
发布日期: 2026-03-31
💡 一句话要点
PRISM:用于具身视觉-语言模型的多视角零售视频数据集
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 视觉-语言模型 零售环境 多视角视频 监督微调 知识本体 数据集
📋 核心要点
- 现有物理AI模型在通用视觉理解和真实世界部署环境的感知需求之间存在差距。
- PRISM通过构建包含空间、物理和具身动作知识的三维知识本体,为具身VLMs提供监督微调数据。
- 在PRISM上微调后,模型在具身推理、常识、空间感知和直观物理等任务上取得了显著的性能提升。
📝 摘要(中文)
本文提出了PRISM,一个包含27万样本的多视角视频监督微调(SFT)语料库,用于提升具身视觉-语言模型(VLMs)在真实零售环境中的性能。PRISM的动机在于现有物理AI系统并非视觉识别能力不足,而是对空间、物理动态和具身动作的理解不够。PRISM基于一个新颖的三维知识本体,涵盖空间知识、时间和物理知识以及具身动作知识。它覆盖了四个评估维度(具身推理、常识、空间感知和直观物理)的20多个能力探针。PRISM是首个在单一真实世界部署领域实例化所有三个知识维度的数据集。该语料库包含来自五个超市位置的自中心、他中心和360°视角的视频数据,并包含开放式、思维链和多项选择监督。PRISM包含约1180万视频帧和7.3亿tokens,是最大的领域特定视频SFT语料库之一。在PRISM上进行微调后,所有20多个探针的错误率比预训练基线降低了66.6%,其中具身动作理解的准确率提高了36.4%。结果表明,本体结构化的领域特定SFT可以显著增强具身VLMs在真实世界环境中的性能。PRISM数据集和更多细节可在https://dreamvu.ai/prism获取。
🔬 方法详解
问题定义:现有物理AI系统在真实零售环境中部署时,常常因为对空间、物理动态和具身动作的理解不足而表现不佳。虽然视觉识别能力已经很强,但缺乏对环境的深入理解导致无法可靠地执行任务。
核心思路:PRISM的核心思路是通过构建一个大规模、多视角的零售视频数据集,并结合三维知识本体进行监督微调,从而提升具身视觉-语言模型(VLMs)对真实世界环境的理解能力。该数据集专注于空间知识、时间和物理知识以及具身动作知识,使模型能够更好地理解和推理零售环境中的各种场景。
技术框架:PRISM数据集包含来自五个超市位置的自中心、他中心和360°视角的视频数据。数据集中包含开放式、思维链和多项选择等多种形式的监督信息。数据集被用于对预训练的具身VLMs进行监督微调(SFT)。评估过程涵盖四个维度:具身推理(ER)、常识(CS)、空间感知(SP)和直观物理(IP),并包含20多个能力探针。
关键创新:PRISM的关键创新在于其三维知识本体的构建,该本体将空间知识、时间和物理知识以及具身动作知识整合在一起,为模型提供了更全面的环境理解能力。此外,PRISM是首个在单一真实世界部署领域实例化所有三个知识维度的数据集,使其更具实用价值。
关键设计:PRISM数据集包含约27万个样本,以4 fps的帧率记录,总计约1180万视频帧和7.3亿tokens。数据集涵盖了多种视角的视频,并提供了多种形式的监督信息,包括开放式问题、思维链推理和多项选择题。这些设计旨在帮助模型学习更丰富的环境信息和推理能力。
🖼️ 关键图片
📊 实验亮点
在PRISM数据集上进行微调后,模型在所有20多个探针上的错误率比预训练基线降低了66.6%。尤其是在具身动作理解方面,准确率提高了36.4%。这些结果表明,通过领域特定的监督微调,可以显著提升具身VLMs在真实世界环境中的性能。
🎯 应用场景
PRISM数据集及其训练方法可应用于零售机器人、智能购物车、自动盘点系统等领域。通过提升模型对零售环境的理解能力,可以实现更智能、更高效的自动化解决方案,例如自动导航、商品识别、异常检测等。该研究为具身智能在真实世界场景中的应用奠定了基础。
📄 摘要(原文)
A critical gap exists between the general-purpose visual understanding of state-of-the-art physical AI models and the specialized perceptual demands of structured real-world deployment environments. We present PRISM, a 270K-sample multi-view video supervised fine-tuning (SFT) corpus for embodied vision-language-models (VLMs) in real-world retail environments. PRISM is motivated by a simple observation - physical AI systems fail not because of poor visual recognition, but because they do not understand space, physical dynamics and embodied action well enough to operate reliably in the world. To this end, PRISM is grounded in a novel three-dimensional knowledge ontology that spans spatial knowledge, temporal and physical knowledge, and embodied action knowledge. It covers 20+ capability probes across four evaluation dimensions - Embodied Reasoning (ER), Common Sense (CS), Spatial Perception (SP), and Intuitive Physics (IP), and to our knowledge, PRISM is the first dataset to instantiate all three knowledge dimensions within a single real-world deployment domain. The corpus captures data from egocentric, exocentric and 360° viewpoints across five supermarket locations and includes open-ended, chain-of-thought, and multiple-choice supervision. At 4 fps, PRISM spans approximately 11.8M video frames and approximately 730M tokens, placing it among the largest domain-specific video SFT corpora. Fine-tuning on PRISM reduces the error rate across all 20+ probes by 66.6% over the pre-trained baseline, with significant gains in embodied action understanding where the accuracy improves by 36.4%. Our results suggest that ontology-structured, domain specific SFT can meaningfully strengthen embodied VLMs for real-world settings. The PRISM dataset and more details are available at https://dreamvu.ai/prism