Human Adults and LLMs as Scientists: Who Benefits from Active Exploration?
作者: Mandana Samiei, Eunice Yiu, Anthony GX-Chen, Dongyan Lin, Jocelyn Shen, Blake A. Richards, Alison Gopnik, Doina Precup
分类: cs.CL, cs.AI
发布日期: 2026-06-04
备注: Accepted at the 48th Annual Conference of the Cognitive Science Society (CogSci 2026)
💡 一句话要点
通过主动探索提升成人的因果推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 因果推理 主动探索 联结规则 选择性规则 大型语言模型
📋 核心要点
- 成年人在识别联结因果规则时表现不佳,现有研究多依赖被动观察,缺乏主动探索的证据。
- 本文通过修改的“blicket探测器”任务,允许成年人主动探索,以检验其因果推理能力的提升。
- 实验结果显示,主动探索显著改善了成年人对联结因果推理的能力,但仍需更多测试以推断联结规则。
📝 摘要(中文)
因果学习文献中长期以来的发现是,成年人在识别需要多个原因同时存在的联结因果规则时表现不佳,而在选择性设置中表现更好。然而,大多数关于这种“联结障碍”的研究依赖于被动观察的范式,证据生成的控制有限。本文探讨当成年人通过主动探索获得自主权时,这种偏见是否依然存在。通过修改的“blicket探测器”任务,成人参与者自由干预以识别在联结或选择性规则结构下的因果对象。研究表明,主动探索显著改善了成年人对联结因果推理的能力,尽管联结规则仍需更多测试以推断。我们进一步将人类表现与同一环境下的多种大型语言模型进行比较,发现一些先进模型在假设推断准确性上接近人类水平,但在探索策略上效率较低,并且在联结与选择性表现差距上相似。
🔬 方法详解
问题定义:本文旨在解决成年人在因果学习中识别联结因果规则的困难,现有方法主要依赖被动观察,缺乏主动探索的视角。
核心思路:通过允许参与者在“blicket探测器”任务中主动干预,探索其对因果对象的识别能力,验证主动探索是否能改善联结因果推理。
技术框架:实验设计包括两个主要阶段:首先,参与者在联结和选择性规则下进行自由干预;其次,分析其因果推理的准确性和效率。
关键创新:本研究的创新在于引入主动探索的概念,挑战了传统被动观察的范式,展示了主动探索如何改善因果推理能力。
关键设计:实验中设置了联结和选择性规则的对比,参与者的干预行为被记录并分析,重点关注其探索策略和推理准确性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,主动探索显著提升了成年人在联结因果推理中的表现,尽管仍需更多测试以推断联结规则。与大型语言模型的比较表明,尽管某些模型在假设推断准确性上接近人类水平,但在探索策略的效率上存在不足。
🎯 应用场景
该研究的潜在应用领域包括教育、心理学和人工智能等。通过理解主动探索对因果推理的影响,可以为教育方法的改进提供理论依据,同时也可能影响智能系统的设计,使其更好地模拟人类的因果推理过程。
📄 摘要(原文)
A long-standing finding in the causal learning literature is that adults struggle to identify conjunctive causal rules, where an effect requires the simultaneous presence of multiple causes, while performing better in disjunctive settings. However, most demonstrations of this
conjunctive handicap'' rely on passive observation paradigms with limited evidence, where learners have no control over evidence generation. This paper asks whether this bias persists when adults are granted agency through active exploration. Using a modifiedblicket detector'' task, adult participants freely intervened to identify causal objects under conjunctive or disjunctive rule structures. We show that active exploration substantially improves adults' conjunctive causal reasoning, although conjunctive rules still require more tests to infer than disjunctive rules. We further compare human performance to a range of large language models in the same setting. While some state-of-the-art models approach human-level performance on hypothesis inference accuracy, they often exhibit less efficient exploration strategies and similar conjunctive-disjunctive performance gaps.