SceneParser: Hierarchical Scene Parsing for Visual Semantics Understanding
作者: Pengxin Xu, Xincheng Lin, Luping Xiao, Qing Jiang, Meishan Zhang, Hao Fei, Shanghang Zhang, Xingyu Chen
分类: cs.CV
发布日期: 2026-05-14
备注: Preprint. Code, models, and dataset are provided in the manuscript
💡 一句话要点
提出SceneParser,用于交互导向的层级场景解析,提升视觉语义理解
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 层级场景解析 视觉语义理解 交互导向 视觉语言模型 结构化学习
📋 核心要点
- 现有场景理解方法缺乏结构化依赖关系,难以进行交互导向的场景理解。
- 提出层级场景解析任务,将场景表示为显式的 scene -> object -> part -> affordance 层级结构。
- 构建大规模基准测试 SceneParser-Bench,并设计指标评估定位、跨层级绑定和层级完整性。
📝 摘要(中文)
通用的场景感知已经从物体识别发展到开放词汇 grounding、部件定位和 affordance 预测。然而,这些能力通常被实现为孤立的预测,定位物体、部件或交互点,而没有捕捉到交互导向的场景理解所需的结构化依赖关系。为了解决这个差距,我们引入了层级场景解析,这是一个交互导向的解析任务,将物理场景表示为显式的 scene -> object -> part -> affordance 层级结构,并具有跨层级的绑定。我们使用 SceneParser 来实例化这个任务,这是一个基于 VLM 的解析器,经过训练,可以使用结构补全伪标签和课程学习进行统一的层级生成。为了支持训练和评估,我们构建了 SceneParser-Bench,这是一个大规模的基准测试,使用可扩展的层级数据引擎构建,包含 11 万张训练图像、5 千张验证集、77.7 万个物体、114 万个部件、174 万个 affordance 注释,以及 174 万个有效的物体-部件-affordance 链实例。我们进一步引入了 Level-1 到 Level-3 的条件指标和 ParseRate 来评估定位、跨层级绑定和层级完整性。实验表明,现有的 MLLM 和感知拼接管道在我们的 SceneParser-Bench 上难以进行层级解析,而 SceneParser 实现了更强的结构感知性能。此外,消融实验、在 COCO 和 AGD20K 上的评估,以及下游规划探针表明,我们的 SceneParser 与传统任务兼容,并为视觉理解提供了一个可操作的表示。
🔬 方法详解
问题定义:现有场景理解方法通常将物体识别、部件定位和 affordance 预测作为孤立的任务处理,忽略了它们之间的结构化依赖关系。这导致模型难以理解场景中物体、部件和 affordance 之间的关系,从而限制了模型在交互导向任务中的应用。
核心思路:论文的核心思路是将场景理解建模为一个层级解析任务,显式地表示场景中物体、部件和 affordance 之间的层级关系。通过学习这种层级结构,模型可以更好地理解场景的语义信息,从而提高在交互导向任务中的性能。
技术框架:SceneParser 的整体框架包含以下几个主要模块:1) 数据引擎:用于构建大规模的层级标注数据集 SceneParser-Bench。2) VLM-based 解析器:基于视觉语言模型,用于生成层级场景解析结果。3) 训练策略:采用结构补全伪标签和课程学习,提高模型的训练效率和性能。4) 评估指标:设计了 Level-1 到 Level-3 的条件指标和 ParseRate,用于评估模型的定位、跨层级绑定和层级完整性。
关键创新:论文最重要的技术创新点在于提出了层级场景解析任务,并将场景理解建模为一个结构化的生成过程。与现有方法相比,该方法能够更好地捕捉场景中物体、部件和 affordance 之间的关系,从而提高模型在交互导向任务中的性能。
关键设计:在训练过程中,论文采用了结构补全伪标签,用于增强模型的结构感知能力。此外,论文还采用了课程学习策略,逐步增加训练难度,提高模型的泛化能力。在评估方面,论文设计了 Level-1 到 Level-3 的条件指标和 ParseRate,用于全面评估模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SceneParser 在 SceneParser-Bench 上取得了显著的性能提升,优于现有的 MLLM 和感知拼接管道。消融实验表明,结构补全伪标签和课程学习策略能够有效提高模型的性能。在 COCO 和 AGD20K 上的评估表明,SceneParser 与传统任务兼容。下游规划探针表明,SceneParser 能够为视觉理解提供一个可操作的表示。
🎯 应用场景
该研究成果可应用于机器人导航、人机交互、虚拟现实等领域。例如,机器人可以利用层级场景解析结果进行更智能的导航和操作;人机交互系统可以利用该结果更好地理解用户的意图,提供更自然和高效的交互体验;虚拟现实系统可以利用该结果生成更逼真的虚拟场景。
📄 摘要(原文)
General scene perception has progressed from object recognition toward open-vocabulary grounding, part localization, and affordance prediction. Yet these capabilities are often realized as isolated predictions that localize objects, parts, or interaction points without capturing the structured dependencies needed for interaction-oriented scene understanding. To address this gap, we introduce Hierarchical Scene Parsing, an interaction-oriented parsing task that represents physical scenes as explicit scene -> object -> part -> affordance hierarchies with cross-level bindings. We instantiate this task with SceneParser, a VLM-based parser trained for unified hierarchical generation with structural-completion pseudo labels and curriculum learning. To support training and evaluation, we construct SceneParser-Bench, a large-scale benchmark built with a scalable hierarchical data engine, containing 110K training images, a 5K validation split, 777K objects, 1.14M parts, 1.74M affordance annotations, and 1.74M valid object-part-affordance chain instances. We further introduce Level-1 to Level-3 conditional metrics and ParseRate to evaluate localization, cross-level binding, and hierarchical completeness. Experiments show that existing MLLMs and perception-stitching pipelines struggle with hierarchical parsing on our SceneParser-Bench, while SceneParser achieves stronger structure-aware performance. Besides, ablations, evaluations on COCO and AGD20K, and a downstream planning probe demonstrate that our SceneParser is compatible with conventional tasks and provides an actionable representation for visual understanding.