Grounding Before Generalizing: How AI Differs from Humans in Causal Transfer
作者: Liangru Xiang, Yuxi Ma, Zhihao Cao, Yixin Zhu, Song-Chun Zhu
分类: cs.AI
发布日期: 2026-04-27
💡 一句话要点
揭示LLM/VLM在因果迁移学习中对环境依赖性,与人类的抽象推理存在差距
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 因果推理 迁移学习 大型语言模型 视觉语言模型 环境基础 OpenLock范式 多模态学习 抽象推理
📋 核心要点
- 现有LLM/VLM在交互式因果学习和跨情境迁移方面能力不足,与人类的抽象推理存在差距。
- 论文提出模型需要环境基础才能实现有效迁移,而人类可以直接利用先验知识。
- 实验表明,视觉信息反而降低了模型性能,揭示了模型对符号处理的依赖。
📝 摘要(中文)
人类智能的标志之一是从抽象因果结构中提取知识并将其应用于新的情境。尽管大型语言模型(LLM)和视觉语言模型(VLM)在各种推理任务中表现出色,但它们在交互式因果学习(通过连续探索诱导潜在结构并在不同情境中迁移)方面的能力仍未得到充分研究。人类学习者在极少的接触后即可完成此类迁移,而传统的强化学习(RL)智能体则会彻底失败。本文使用OpenLock范式,该范式需要连续发现共同原因(CC)和共同结果(CE)结构,结果表明,模型表现出根本性的延迟或缺失迁移:即使成功的模型也需要初始的环境特定映射(我们称之为环境基础)才能获得效率提升,而人类则从第一次尝试解决问题时就利用了先前的结构知识。在纯文本条件下,模型匹配或超过了人类的发现效率。相比之下,视觉信息(在仅图像和文本图像条件下)总体上降低而非增强了性能,揭示了对符号处理的广泛依赖,而不是集成的多模态推理。模型还表现出人类不存在的系统性CC/CE不对称性,表明存在启发式偏差,而不是方向中性的因果抽象。这些发现表明,大规模统计学习无法产生支持人类类比推理的去语境化因果模式,从而确立了依赖于环境基础的迁移是当前LLM和VLM的一个根本局限。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)和视觉语言模型(VLM)在因果迁移学习方面的能力,特别是它们是否能够像人类一样,在少量经验后就能将抽象的因果结构迁移到新的环境中。现有方法,如强化学习,在类似任务中表现不佳,而LLM/VLM的性能尚未得到充分评估。现有模型的痛点在于缺乏对环境的解耦和抽象推理能力,导致在新环境中泛化能力不足。
核心思路:论文的核心思路是对比LLM/VLM与人类在OpenLock范式下的表现,该范式需要模型/人类通过连续探索发现共同原因(CC)和共同结果(CE)结构,并将其迁移到新的环境中。通过观察模型在不同模态(文本、图像、文本+图像)下的表现,以及是否存在CC/CE不对称性,来评估模型是否具备人类类似的抽象因果推理能力。
技术框架:论文使用OpenLock范式,这是一个交互式的因果学习环境。模型需要通过一系列尝试来发现隐藏的因果结构(CC或CE),然后将这些结构迁移到新的环境中。实验设置包括纯文本、纯图像和文本+图像三种模态。评估指标包括发现效率(解决问题所需的尝试次数)和CC/CE对称性。
关键创新:论文的关键创新在于揭示了LLM/VLM在因果迁移学习中对环境的依赖性,即模型需要先进行环境基础(environmental grounding),才能实现有效的迁移。这与人类可以直接利用先验知识进行抽象推理形成对比。此外,论文还发现了模型在CC/CE结构学习中存在系统性的不对称性,表明模型可能依赖于启发式偏差,而不是真正的因果抽象。
关键设计:论文使用了OpenLock范式,并针对LLM/VLM的特点进行了调整。具体的技术细节包括:对LLM/VLM的输入方式(文本提示、图像输入等)进行了设计,以适应不同的模态;设计了评估指标,如发现效率和CC/CE对称性,以量化模型的因果推理能力;对实验结果进行了统计分析,以验证模型的环境依赖性和CC/CE不对称性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM/VLM在纯文本条件下表现接近甚至超过人类,但在视觉信息加入后性能反而下降,揭示了模型对符号处理的过度依赖。模型在CC/CE结构学习中存在显著不对称性,表明其因果推理能力与人类存在本质差异。这些发现强调了当前LLM/VLM在抽象因果推理方面的局限性。
🎯 应用场景
该研究成果可应用于提升AI模型的泛化能力和鲁棒性,尤其是在需要进行复杂推理和决策的场景中,例如机器人导航、智能决策支持系统和自动化诊断等。通过理解AI模型与人类在因果推理上的差异,可以设计出更符合人类认知方式的AI系统,从而提高人机协作效率。
📄 摘要(原文)
Extracting abstract causal structures and applying them to novel situations is a hallmark of human intelligence. While Large Language Models (LLMs) and Vision Language Models (VLMs) have shown strong performance on a wide range of reasoning tasks, their capacity for interactive causal learning -- inducing latent structures through sequential exploration and transferring them across contexts -- remains uncharacterized. Human learners accomplish such transfer after minimal exposure, whereas classical Reinforcement Learning (RL) agents fail catastrophically. Whether state-of-the-art Artificial Intelligence (AI) models possess human-like mechanisms for abstract causal structure transfer is an open question. Using the OpenLock paradigm requiring sequential discovery of Common Cause (CC) and Common Effect (CE) structures, here we show that models exhibit fundamentally delayed or absent transfer: even successful models require initial environmental-specific mapping -- what we term environmental grounding -- before efficiency gains emerge, whereas humans leverage prior structural knowledge from the very first solution attempt. In the text-only condition, models matched or exceeded human discovery efficiency. In contrast, visual information -- in both the image-only and text-and-image conditions -- overall degraded rather than enhanced performance, revealing a broad reliance on symbolic processing rather than integrated multimodal reasoning. Models further exhibited systematic CC/CE asymmetries absent in humans, suggesting heuristic biases rather than direction-neutral causal abstraction. These findings reveal that large-scale statistical learning does not produce the decontextualized causal schemas underpinning human analogical reasoning, establishing grounding-dependent transfer as a fundamental limitation of current LLMs and VLMs.