Does Visual Grounding Enhance the Understanding of Embodied Knowledge in Large Language Models?
作者: Zhihui Yang, Yupei Wang, Kaijie Mo, Zhe Zhao, Renfen Hu
分类: cs.CL
发布日期: 2025-10-19
备注: Accepted to EMNLP 2025 (Findings). This version corrects a redundant sentence in the Results section that appeared in the camera-ready version
💡 一句话要点
提出具身知识理解基准,评估视觉 grounding 是否提升大语言模型感知能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身知识 视觉Grounding 多模态学习 语言模型 感知能力
📋 核心要点
- 现有研究缺乏对视觉 grounding 如何影响大语言模型理解具身知识的深入评估。
- 构建包含多种感官模态的具身知识理解基准,通过向量比较和问答评估模型感知能力。
- 实验表明视觉-语言模型在具身知识理解方面并未超越纯文本模型,且视觉感知能力较弱。
📝 摘要(中文)
尽管多模态语言模型取得了显著进展,但视觉 grounding 是否比纯文本模型更能增强其对具身知识的理解仍不清楚。为了解决这个问题,我们基于心理学中的感知理论,提出了一个新的具身知识理解基准,涵盖视觉、听觉、触觉、味觉、嗅觉等外部感觉和内部感觉。该基准通过向量比较和问答任务(包含超过1700个问题)评估模型在不同感觉模式下的感知能力。通过比较30个最先进的语言模型,我们惊讶地发现,视觉-语言模型(VLMs)在这两项任务中均未优于纯文本模型。此外,模型在视觉维度上的表现明显差于其他感觉维度。进一步的分析表明,向量表示很容易受到词形和频率的影响,并且模型难以回答涉及空间感知和推理的问题。我们的发现强调需要更有效地将具身知识整合到语言模型中,以增强它们对物理世界的理解。
🔬 方法详解
问题定义:论文旨在解决视觉 grounding 是否能有效提升大语言模型对具身知识的理解这一问题。现有方法缺乏一个全面的、多感官的评估基准,无法准确衡量视觉信息在具身知识理解中的作用。现有视觉-语言模型在理解物理世界方面仍存在局限性。
核心思路:论文的核心思路是构建一个基于心理学感知理论的具身知识理解基准,该基准涵盖多种感官模态(视觉、听觉、触觉、味觉、嗅觉和内部感觉),并设计了向量比较和问答两种任务,以全面评估模型在不同感官维度上的感知能力。通过比较视觉-语言模型和纯文本模型的表现,揭示视觉 grounding 的实际效果。
技术框架:该研究的技术框架主要包含以下几个部分:1) 构建具身知识理解基准,包括收集和标注多感官数据,设计问题和答案;2) 选择和评估30个最先进的语言模型,包括视觉-语言模型和纯文本模型;3) 通过向量比较和问答任务评估模型在不同感官维度上的表现;4) 分析实验结果,揭示视觉 grounding 的作用和局限性。
关键创新:该研究的关键创新在于提出了一个新颖的、多感官的具身知识理解基准。该基准不仅涵盖了传统的视觉和听觉信息,还包括了触觉、味觉、嗅觉和内部感觉,从而更全面地评估了模型对物理世界的理解能力。此外,该研究还通过实验揭示了视觉-语言模型在具身知识理解方面并未显著优于纯文本模型,挑战了现有认知。
关键设计:基准包含超过1700个问题,涵盖六种感官模态。评估任务包括向量比较和问答。向量比较任务旨在评估模型对不同感官概念的语义相似度理解。问答任务旨在评估模型对具身知识的推理能力,特别是涉及空间感知和推理的问题。研究中对比了30个不同的语言模型,包括各种规模和架构的模型,以确保结果的可靠性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,视觉-语言模型在具身知识理解方面并未显著优于纯文本模型。更令人惊讶的是,模型在视觉维度上的表现明显差于其他感觉维度。分析表明,模型的向量表示容易受到词形和频率的影响,且难以回答涉及空间感知和推理的问题。这些发现揭示了现有视觉-语言模型在理解具身知识方面的局限性。
🎯 应用场景
该研究成果可应用于提升具身智能体的感知能力,例如机器人、虚拟助手等,使其更好地理解和交互物理世界。此外,该基准可用于指导多模态语言模型的设计和训练,使其更有效地整合视觉和其他感官信息,从而提高其在各种实际应用中的性能,例如图像描述、视觉问答等。
📄 摘要(原文)
Despite significant progress in multimodal language models (LMs), it remains unclear whether visual grounding enhances their understanding of embodied knowledge compared to text-only models. To address this question, we propose a novel embodied knowledge understanding benchmark based on the perceptual theory from psychology, encompassing visual, auditory, tactile, gustatory, olfactory external senses, and interoception. The benchmark assesses the models' perceptual abilities across different sensory modalities through vector comparison and question-answering tasks with over 1,700 questions. By comparing 30 state-of-the-art LMs, we surprisingly find that vision-language models (VLMs) do not outperform text-only models in either task. Moreover, the models perform significantly worse in the visual dimension compared to other sensory dimensions. Further analysis reveals that the vector representations are easily influenced by word form and frequency, and the models struggle to answer questions involving spatial perception and reasoning. Our findings underscore the need for more effective integration of embodied knowledge in LMs to enhance their understanding of the physical world.