The Limits of Learning from Pictures and Text: Vision-Language Models and Embodied Scene Understanding

作者: Gillian Rosenberg, Skylar Stadhard, Bruce C. Hansen, Michelle R. Greene

分类: cs.CV

发布日期: 2026-03-27

备注: 7 figures, 5 tables

💡 一句话要点

视觉-语言模型在具身场景理解中存在局限性，尤其在可供性方面

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 视觉-语言模型 场景理解 可供性 具身智能 分布学习

📋 核心要点

现有的视觉-语言模型（VLMs）虽然在大量图文数据上训练，但在理解场景可供性方面存在不足。
该研究通过对比VLMs和人类在场景理解任务中的表现，评估了VLMs在可供性理解方面的局限性。
实验结果表明，VLMs在常识任务上表现良好，但在可供性任务上存在显著差距，且难以通过prompt工程改善。

📝 摘要（中文）

为了探究人类场景理解的丰富性是否能完全通过图像和文本学习获得，本文评估了视觉-语言模型（VLMs）在场景理解任务中的表现。这些模型在海量图文配对数据上训练，但缺乏具身经验，因此是检验分布假设的理想对象。我们比较了18个VLMs和2000多名人类观察者在15个高层次场景理解任务（涵盖常识、可供性、感官体验、情感反应和未来预测）中生成的描述。由于许多任务缺乏标准答案，我们开发了一种人类校准余弦距离（HCD）指标，用于衡量VLM输出与人类反应分布的相似度，并根据人类内部的变异性进行缩放。实验表明，VLMs在常识任务上接近人类水平，但在可供性任务上存在明显的不足，且prompt工程和模型更新无法有效弥补。进一步的分析表明，这种不足是结构性的，而非风格性的，并且无法通过提供明确的空间信息来解决。语料库分析表明，图像描述数据集中agent-addressed的可供性语言稀疏，这与Gricean理论一致，即具身知识可能在语言中被系统性地低估。这些发现表明，从图像和文本进行分布学习不足以进行基于可供性的场景理解，这意味着人类视觉认知的某些维度可能需要agent-centered的三维经验，而这是照片或标题无法编码的。

🔬 方法详解

问题定义：论文旨在研究视觉-语言模型（VLMs）是否能够仅通过图像和文本的统计共现学习到人类完整的场景理解能力，尤其关注VLMs在理解场景中物体提供的“可供性”（affordance）方面的能力。现有VLMs在常识性知识方面表现良好，但在需要具身经验的可供性理解方面存在不足，这表明仅依赖图文数据可能无法完全模拟人类的场景理解能力。

核心思路：论文的核心思路是通过对比VLMs和人类在各种场景理解任务中的表现，量化VLMs在可供性理解方面的差距。通过设计一系列实验，检验VLMs在不同场景理解维度上的能力，并分析造成可供性理解差距的潜在原因。核心假设是，由于可供性知识与agent的交互密切相关，而图文数据中缺乏这种agent-centered的信息，导致VLMs难以学习到完整的可供性理解。

技术框架：论文的实验框架主要包含以下几个阶段：1) 选择18个VLMs和招募2000多名人类观察者；2) 设计15个高层次场景理解任务，涵盖常识、可供性、感官体验、情感反应和未来预测等多个维度；3) 让VLMs和人类完成这些任务，并收集他们的描述；4) 使用提出的人类校准余弦距离（HCD）指标，衡量VLM输出与人类反应分布的相似度；5) 进行语料库分析，研究图像描述数据集中agent-addressed的可供性语言的稀疏程度。

关键创新：论文的关键创新点在于：1) 提出了人类校准余弦距离（HCD）指标，用于在缺乏标准答案的情况下，衡量VLM输出与人类反应分布的相似度，并考虑了人类内部的变异性；2) 系统性地评估了VLMs在可供性理解方面的局限性，并揭示了这种局限性是结构性的，而非风格性的；3) 通过语料库分析，验证了图像描述数据集中agent-addressed的可供性语言的稀疏性，为解释VLMs在可供性理解方面的不足提供了证据。

关键设计：HCD指标的设计考虑了人类反应的分布，而非仅仅依赖单一的“正确答案”。它通过计算VLM输出与人类反应分布之间的余弦距离，并根据人类内部的变异性进行缩放，从而更准确地反映了VLM的性能。此外，实验中使用了多种prompt工程技术，试图改善VLMs在可供性任务上的表现，但效果不佳，进一步验证了VLMs在可供性理解方面的局限性。

📊 实验亮点

实验结果表明，VLMs在常识任务上表现接近人类水平，但在可供性任务上存在显著差距。即使经过prompt工程和模型更新，VLMs在可供性任务上的表现仍然难以达到人类水平。语料库分析显示，图像描述数据集中agent-addressed的可供性语言非常稀疏，这可能是导致VLMs在可供性理解方面存在不足的原因之一。HCD指标的引入，使得在缺乏标准答案的情况下，也能有效评估VLMs的性能。

🎯 应用场景

该研究结果对视觉-语言模型的未来发展方向具有重要指导意义。它表明，仅仅依赖图文数据进行训练可能无法使模型获得完整的场景理解能力，尤其是在需要具身经验的场景中。未来的研究可以探索如何将具身经验融入到视觉-语言模型中，例如通过模拟agent与环境的交互，或者利用机器人数据进行训练，从而提高模型在可供性理解等方面的能力。这对于开发更智能、更具适应性的机器人和人工智能系统具有重要价值。

📄 摘要（原文）

What information is sufficient to learn the full richness of human scene understanding? The distributional hypothesis holds that the statistical co-occurrence of language and images captures the conceptual knowledge underlying visual cognition. Vision-language models (VLMs) are trained on massive paired text-image corpora but lack embodied experience, making them an ideal test of the distributional hypothesis. We report two experiments comparing descriptions generated by 18 VLMs to those of over 2000 human observers across 15 high-level scene understanding tasks, spanning general knowledge, affordances, sensory experiences, affective responses, and future prediction. Because many tasks lack ground truth answers, we developed a Human-Calibrated Cosine Distance (HCD) metric that measures VLM output similarity to the distribution of human responses, scaled by within-human variability. In Experiment 1, VLMs approached human-level performance on general knowledge tasks, but showed a robust deficit for affordance tasks that resisted prompt engineering and did not improve with newer model releases. In Experiment 2, we tested six mechanistic hypotheses for explaining this affordance gap, finding that the deficit was structural rather than stylistic and was not resolved by providing explicit spatial information. Corpus analyses revealed that image captioning datasets contain sparse agent-addressed affordance language, consistent with Gricean accounts of why embodied knowledge may be systematically underrepresented in language. Together, these findings suggest that distributional learning from images and text is insufficient for affordance-based scene understanding, implying that some dimensions of human visual cognition may require the kind of agent-centered, three-dimensional experience that no photograph or caption can encode.

The Limits of Learning from Pictures and Text: Vision-Language Models and Embodied Scene Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理