COCOTree: A Dataset and Benchmark for Open Tree-Structured Visual Decomposition

作者: Junhyub Lee, Seunghun Chae, Hyosu Kim

分类: cs.CV

发布日期: 2026-05-21

🔗 代码/项目: GITHUB

💡 一句话要点

提出COCOTree数据集与基准，用于开放树结构视觉分解任务。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 视觉分解 树结构 数据集 大型视觉语言模型 分割模型 自动标注 场景理解

📋 核心要点

现有视觉分解方法缺乏灵活性和细粒度，难以处理复杂场景。
提出COCOTree数据集，利用LVLM的语义推理和SAM的几何基础自动生成树结构标注。
构建包含21K图像和1.8M节点的COCOTree，并提出OTQ指标进行评估。

📝 摘要（中文）

本文形式化并实现了开放树分解任务，该任务将图像分割成具有不受约束的粒度和灵活性的视觉组件的层次树。具体来说，我们通过以下三个关键贡献为这个新范式提供了基础基准。首先，我们通过开发一个全自动生成流程，克服了手动标注的认知和物理瓶颈，该流程将大型视觉语言模型（LVLMs）的语义推理与SAM的精确几何基础相结合。其次，利用这个流程，我们构建了COCOTree，一个大规模基准，包含超过21K张图像和1.8M个结构节点。通过包含超过3.5K个独特标签的开放词汇空间，它成功地捕捉了复杂物理组件的长尾分布。值得注意的是，严格的人工评估证实了我们生成的注释与人类的结构判断高度一致。第三，我们通过提出开放树质量（OTQ）指标，建立了一个标准化的评估协议，该指标共同评估掩码精度、标签准确性和结构一致性。我们在https://github.com/melonkick3090/COCOTree发布了我们的数据集和基准代码。

🔬 方法详解

问题定义：现有视觉分解方法通常依赖于预定义的类别或固定粒度的分割，难以适应复杂场景中物体之间复杂的层次关系。手动标注树结构数据成本高昂，限制了数据集的规模和多样性。因此，需要一种能够自动生成高质量树结构标注的方法，并构建一个大规模的基准数据集，以促进开放树结构视觉分解的研究。

核心思路：论文的核心思路是利用大型视觉语言模型（LVLMs）的语义推理能力和SAM（Segment Anything Model）的精确几何分割能力，构建一个全自动的树结构标注生成流程。LVLMs负责识别图像中的物体及其关系，SAM负责生成精确的分割掩码。通过将两者结合，可以高效地生成高质量的树结构标注。

技术框架：整体框架包含以下几个主要阶段：1) 使用LVLM对图像进行语义分析，识别图像中的物体及其关系，生成树结构的初步草图。2) 使用SAM对图像进行分割，生成候选的分割掩码。3) 将LVLM生成的树结构草图与SAM生成的分割掩码进行匹配，生成最终的树结构标注。4) 使用人工评估对生成的标注进行验证和修正。

关键创新：论文的关键创新在于提出了一种全自动的树结构标注生成流程，该流程能够高效地生成高质量的树结构标注，从而克服了手动标注的瓶颈。此外，论文还提出了开放树质量（OTQ）指标，该指标能够综合评估掩码精度、标签准确性和结构一致性，为开放树结构视觉分解任务提供了一个标准化的评估协议。

关键设计：在LVLM的使用上，论文采用了prompt engineering技术，设计了合适的prompt，以引导LVLM生成准确的语义分析结果。在SAM的使用上，论文采用了多种策略来提高分割的精度，例如使用不同的prompt和调整分割的参数。在树结构匹配上，论文采用了基于图匹配的算法，将LVLM生成的树结构草图与SAM生成的分割掩码进行匹配。

🖼️ 关键图片

📊 实验亮点

COCOTree数据集包含超过21K张图像和1.8M个结构节点，涵盖超过3.5K个独特的标签，成功捕捉了复杂物理组件的长尾分布。人工评估表明，生成的标注与人类的结构判断高度一致。提出的OTQ指标为开放树结构视觉分解任务提供了一个标准化的评估协议。

🎯 应用场景

该研究成果可应用于机器人导航、场景理解、图像编辑等领域。例如，机器人可以利用树结构信息更好地理解周围环境，从而进行更智能的导航和交互。图像编辑应用可以利用树结构信息实现更精细的物体选择和操作。未来，该研究有望推动视觉理解和人工智能的进一步发展。

📄 摘要（原文）

We formalize and enable the task of open tree decomposition, which segments an image into hierarchical trees of visual components with unconstrained granularity and flexibility. Specifically, we provide the foundation benchmark for this new paradigm with the following three key contributions. First, we overcome the prohibitively high cognitive and physical bottlenecks of manual annotation by developing a fully automated generation pipeline that synergizes the semantic reasoning of Large Vision-Language Models (LVLMs) with the precise geometric grounding of SAM 3. Second, leveraging this pipeline, we construct COCOTree, a massive-scale benchmark featuring over 21K images and 1.8M structural nodes. By embracing an open-vocabulary space of over 3.5K unique labels, it successfully captures the long-tail distribution of complex physical assemblies. Notably, rigorous human evaluation confirms our generated annotations demonstrate strong alignment with human structural judgment. Third, we establish a standardized evaluation protocol by proposing the Open Tree Quality (OTQ) metric, which jointly assesses mask precision, label accuracy, and structural consistency. We release our dataset and benchmark code at https://github.com/melonkick3090/COCOTree.

COCOTree: A Dataset and Benchmark for Open Tree-Structured Visual Decomposition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理