ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models
作者: Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong
分类: cs.AI
发布日期: 2026-04-09
备注: Accepted to ACL 2026 Main Conference
💡 一句话要点
提出ImplicitMemBench,用于评估大语言模型中无意识行为适应能力的基准测试。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 隐式记忆 基准测试 行为适应 认知科学
📋 核心要点
- 现有LLM Agent的记忆评估侧重于显式记忆,忽略了在无意识下自动执行的隐式记忆,这限制了对Agent真实能力的评估。
- ImplicitMemBench通过程序记忆、启动和经典条件反射三个认知学结构,系统地评估LLM的隐式记忆能力。
- 实验结果表明,现有LLM在隐式记忆方面存在显著不足,需要架构创新来提升其无意识行为适应能力。
📝 摘要(中文)
现有的LLM Agent记忆基准测试主要评估对事实的显式回忆,而忽略了隐式记忆,即经验在没有意识检索的情况下转化为自动化行为。这种差距至关重要:有效的助手必须自动应用学习到的程序或避免失败的操作,而无需明确的提醒。我们引入了ImplicitMemBench,这是第一个通过三个认知学结构来系统评估隐式记忆的基准测试,这些结构来自非陈述性记忆的标准认知科学解释:程序记忆(干扰后的一次性技能习得)、启动(通过配对的实验/控制实例实现主题驱动的偏差)和经典条件反射(条件刺激-无条件刺激(CS-US)关联塑造初始决策)。我们的300项测试套件采用统一的学习/启动-干扰-测试协议,并对首次尝试进行评分。对17个模型的评估显示出严重的局限性:没有一个模型的总体得分超过66%,其中表现最佳的DeepSeek-R1(65.3%)、Qwen3-32B(64.1%)和GPT-5(63.0%)远低于人类基线。分析揭示了巨大的不对称性(抑制17.6% vs. 偏好75.0%)和普遍的瓶颈,需要超越参数缩放的架构创新。ImplicitMemBench将评估从“Agent回忆什么”重新定义为“它们自动执行什么”。
🔬 方法详解
问题定义:论文旨在解决现有大语言模型(LLM)Agent评估体系中,对隐式记忆能力评估的缺失问题。现有基准测试主要关注LLM对事实的显式回忆,而忽略了LLM在无意识状态下自动执行任务、适应环境的能力。这种能力的缺失会导致LLM在实际应用中无法有效利用经验,需要不断地显式提醒,影响用户体验。
核心思路:论文的核心思路是借鉴认知科学中对人类隐式记忆的研究方法,构建一套针对LLM的隐式记忆评估基准。通过设计特定的任务,考察LLM在程序记忆、启动和经典条件反射等方面的表现,从而全面评估LLM的无意识行为适应能力。这种设计思路能够更真实地反映LLM在实际应用中的能力,并为未来的模型改进提供指导。
技术框架:ImplicitMemBench包含300个测试用例,每个用例都遵循统一的“学习/启动-干扰-测试”协议。该协议包含以下几个阶段:1)学习/启动阶段:LLM接触到需要学习的程序、主题或条件刺激;2)干扰阶段:引入干扰因素,以考察LLM的记忆保持能力;3)测试阶段:评估LLM在没有显式提示的情况下,是否能够自动执行学习到的程序、受到启动的影响或对条件刺激做出反应。评估指标主要基于LLM的首次尝试结果,以反映其无意识行为适应能力。
关键创新:ImplicitMemBench的关键创新在于其首次将认知科学中对人类隐式记忆的研究方法应用于LLM的评估。与现有基准测试相比,ImplicitMemBench更加关注LLM的无意识行为适应能力,能够更全面地评估LLM在实际应用中的能力。此外,ImplicitMemBench采用统一的“学习/启动-干扰-测试”协议,使得不同类型的隐式记忆能力能够在一个统一的框架下进行评估。
关键设计:在程序记忆方面,测试LLM在干扰后能否一次性掌握新技能。在启动方面,通过配对的实验/控制实例,考察LLM是否受到主题驱动的偏差影响。在经典条件反射方面,通过条件刺激-无条件刺激(CS-US)的关联,考察LLM是否能够根据条件刺激做出相应的决策。评估指标主要基于LLM的首次尝试结果,以反映其无意识行为适应能力。没有提供具体的参数设置、损失函数或网络结构细节,因为该工作主要关注基准测试的设计和评估,而非模型本身的改进。
🖼️ 关键图片
📊 实验亮点
对17个模型的评估结果显示,没有一个模型的总体得分超过66%,其中表现最佳的DeepSeek-R1(65.3%)、Qwen3-32B(64.1%)和GPT-5(63.0%)远低于人类基线。分析还揭示了巨大的不对称性(抑制17.6% vs. 偏好75.0%)和普遍的瓶颈,表明现有LLM在隐式记忆方面存在显著不足,需要架构创新来提升其无意识行为适应能力。
🎯 应用场景
ImplicitMemBench的研究成果可以应用于开发更智能、更人性化的LLM Agent。例如,在智能客服领域,Agent可以自动学习用户的偏好和习惯,无需用户重复提供信息。在机器人控制领域,机器人可以自动适应环境变化,无需人工干预。此外,该基准测试还可以用于评估不同LLM架构的优劣,指导未来的模型设计。
📄 摘要(原文)
Existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval. This gap is critical: effective assistants must automatically apply learned procedures or avoid failed actions without explicit reminders. We introduce ImplicitMemBench, the first systematic benchmark evaluating implicit memory through three cognitively grounded constructs drawn from standard cognitive-science accounts of non-declarative memory: Procedural Memory (one-shot skill acquisition after interference), Priming (theme-driven bias via paired experimental/control instances), and Classical Conditioning (Conditioned Stimulus--Unconditioned Stimulus (CS--US) associations shaping first decisions). Our 300-item suite employs a unified Learning/Priming-Interfere-Test protocol with first-attempt scoring. Evaluation of 17 models reveals severe limitations: no model exceeds 66% overall, with top performers DeepSeek-R1 (65.3%), Qwen3-32B (64.1%), and GPT-5 (63.0%) far below human baselines. Analysis uncovers dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling. ImplicitMemBench reframes evaluation from "what agents recall" to "what they automatically enact".