SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models

作者: Olaf Dünkel, Basavaraj Sunagad, Haoran Wang, David T. Hoffmann, Christian Theobalt, Adam Kortylewski

分类: cs.CV

发布日期: 2026-05-29

备注: Project page: https://genintel.github.io/SOCO/

💡 一句话要点

SOCO：用于评估视觉基础模型语义对象对应能力的基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语义对应 视觉基础模型 基准测试 部件级理解 视觉-语言模型

📋 核心要点

现有语义对应评估缺乏统一标准和细粒度部件级监督，难以准确衡量视觉基础模型的结构化对象理解能力。
SOCO基准通过构建包含100个类别、100万个对应对以及关键点语言描述的数据集，实现系统化的语义对应评估。
实验表明，视觉基础模型在跨类别语义对应和部件定位方面存在不足，而SOCO能有效预测下游任务性能。

📝 摘要（中文）

由于评估协议不一致和有限的部件级监督，衡量视觉基础模型中结构化对象理解能力仍然具有挑战性。语义对应（SC）通过测试对象部件在外观、视角和几何形状的巨大变化下跨实例和类别进行匹配的能力来评估这种能力。为了实现系统的SC评估，我们引入了SOCO，这是一个新的语义对象对应基准，它引入了对应类型的分类，并提供了跨100个类别和超过100万个对应对的一致的、功能上有意义的关键点注释。此外，SOCO包括关键点语言描述，从而能够评估大型视觉-语言模型（LVLM）及其细粒度的部件级理解。综合实验表明：（i）视觉基础骨干网络编码了强大的语义结构，但在相关类别之间传递对应关系的能力较差，并且仅部分捕获对象部件的位置；（ii）LVLM在文本提示的部件定位方面比在视觉参考的跨图像匹配方面更强，这暴露了语言接地的定位和细粒度的视觉对应之间的差距；（iii）对应性能比ImageNet分类更能预测密集下游任务（包括分割、跟踪、3D姿态估计和3D检测）的性能。总之，这些发现将SOCO定位为视觉和多模态基础模型中结构化、部件级表示质量的基准。

🔬 方法详解

问题定义：论文旨在解决视觉基础模型中语义对象对应关系的评估问题。现有方法存在评估标准不统一，缺乏细粒度部件级监督，难以准确衡量模型对对象结构化信息的理解能力。这阻碍了对视觉基础模型在理解对象部件间关系方面的深入分析。

核心思路：论文的核心思路是构建一个高质量的语义对象对应基准测试数据集SOCO，该数据集包含丰富的对象类别、大量的对应关系标注以及关键点的语言描述。通过在该数据集上进行系统评估，可以更全面、准确地衡量视觉基础模型在语义对象对应方面的能力。

技术框架：SOCO基准测试数据集的构建主要包含以下几个阶段： 1. 类别选择：选择100个具有明确语义结构的对象类别。 2. 关键点标注：为每个对象实例标注功能上有意义的关键点，并提供关键点的语言描述。 3. 对应关系构建：在不同实例和类别之间建立关键点的对应关系，形成大量的对应对。 4. 评估协议设计：设计合理的评估指标和协议，用于衡量模型在语义对象对应方面的性能。

关键创新：SOCO基准测试数据集的关键创新在于： 1. 全面的类别覆盖：包含100个对象类别，涵盖了广泛的视觉场景。 2. 细粒度的部件级标注：提供功能上有意义的关键点标注和语言描述，支持对模型部件级理解能力的评估。 3. 丰富的对应关系：包含超过100万个对应对，为模型学习和评估提供了充足的数据。 4. 与下游任务的关联：实验表明，SOCO上的对应性能与下游任务性能具有很强的相关性，可以作为模型泛化能力的有效指标。

关键设计：SOCO数据集的关键设计包括： 1. 关键点选择标准：选择功能上有意义的关键点，例如“鸟喙”、“车轮”等，确保关键点具有明确的语义含义。 2. 语言描述的质量控制：对关键点的语言描述进行严格审核，确保描述的准确性和一致性。 3. 评估指标的选择：采用精确率、召回率等指标，全面衡量模型在语义对象对应方面的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，视觉基础模型在SOCO数据集上的语义对应性能有待提升，尤其是在跨类别对应和部件定位方面。大型视觉-语言模型在文本提示的部件定位方面表现较好，但在视觉参考的跨图像匹配方面仍有差距。此外，SOCO上的对应性能与下游任务性能具有很强的相关性，表明SOCO可以作为评估模型泛化能力的有效指标。

🎯 应用场景

SOCO基准测试数据集可用于评估和提升视觉基础模型在语义对象理解方面的能力，从而促进模型在图像分割、目标跟踪、3D姿态估计和3D目标检测等下游任务中的应用。该研究有助于开发更智能、更可靠的视觉系统，例如自动驾驶、机器人导航和智能监控。

📄 摘要（原文）

Measuring structured object understanding in vision foundation models remains challenging due to inconsistent evaluation protocols and limited part-level supervision. Semantic correspondence (SC) evaluates this capability by testing whether object parts can be matched across instances and categories under large variations in appearance, viewpoint, and geometry. To enable a systematic SC evaluation, we introduce SOCO, a new benchmark for Semantic Object Correspondence that introduces a taxonomy of correspondence types and provides consistent, functionally meaningful keypoint annotations across 100 categories and over 1M correspondence pairs. In addition, SOCO includes keypoint language descriptions, enabling the evaluation of large vision-language models (LVLMs) and their fine-grained part-level understanding. Comprehensive experiments reveal that (i) vision foundation backbones encode strong semantic structure but transfer correspondences poorly across related categories and only partially capture object-part position, (ii) LVLMs are stronger at text-prompted part localization than at visual-reference cross-image matching, exposing a gap between language-grounded localization and fine-grained visual correspondence, and (iii) correspondence performance predicts performance on dense downstream tasks, including segmentation, tracking, 3D pose estimation, and 3D detection, more strongly than ImageNet classification. Together, these findings position SOCO as a benchmark for structured, part-level representation quality in vision and multimodal foundation models.

SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理