Sensi: Learn One Thing at a Time -- Curriculum-Based Test-Time Learning for LLM Game Agents

作者: Mohsen Arjmandi

分类: cs.AI, cs.LG

发布日期: 2026-03-18

备注: Preprint. 18 pages, 5 figures, 2 tables. Independent research. Code and Colab demo coming soon on GitHub

💡 一句话要点

Sensi：面向LLM游戏Agent的课程学习型测试时学习方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 测试时学习 课程学习 样本效率 ARC-AGI 游戏AI 感知基础 数据库控制平面

📋 核心要点

现有LLM Agent在未知环境中学习任务结构时，需要大量交互才能形成有效的假设。
Sensi通过双玩家架构、课程学习和数据库控制平面，实现结构化的测试时学习，提升样本效率。
实验表明，Sensi v2在完成学习课程时，样本效率比同类系统提升50-94倍，但瓶颈转移到感知层面。

📝 摘要（中文）

本文提出Sensi，一种用于ARC-AGI-3游戏挑战的大语言模型(LLM) Agent架构，通过三个机制引入结构化的测试时学习：(1)分离感知和动作的双玩家架构，(2)由外部状态机管理的基于课程的学习系统，(3)使Agent上下文窗口可编程控制的数据库作为控制平面。此外，本文还引入了一个LLM作为裁判的组件，利用动态生成的评估标准来确定Agent何时已充分学习一个主题以进入下一个主题。Sensi v1仅使用双玩家架构解决了2个游戏关卡，而Sensi v2添加了课程学习，解决了0个关卡，但在大约32次动作尝试中完成了整个学习课程，比需要1600-3000次尝试的同类系统实现了50-94倍的样本效率提升。作者精确地将失败模式诊断为源于感知层的自洽幻觉级联，表明架构瓶颈已从学习效率转移到感知基础，这是一个更容易解决的问题。

🔬 方法详解

问题定义：现有的大语言模型Agent在部署到未知环境中时，需要通过大量的交互才能学习到任务的结构，这导致了样本效率低下。尤其是在ARC-AGI-3这样的复杂游戏中，Agent需要快速适应并解决各种挑战，因此提高学习效率至关重要。现有方法往往需要数千次交互才能形成有用的假设，这限制了它们在实际应用中的可行性。

核心思路：Sensi的核心思路是通过结构化的测试时学习来提高LLM Agent的样本效率。具体来说，它将Agent分解为感知和动作两个部分，并引入课程学习机制，让Agent逐步学习任务的各个方面。此外，Sensi还使用数据库作为控制平面，使得Agent的上下文窗口可以被编程控制，从而更好地引导学习过程。

技术框架：Sensi的整体架构包括以下几个主要模块：1) 感知模块：负责从环境中获取信息并进行处理。2) 动作模块：根据感知模块的输出，生成相应的动作。3) 状态机：管理课程学习的进度，决定Agent当前应该学习哪个主题。4) 数据库：存储Agent的学习经验和知识，并作为控制平面，控制Agent的上下文窗口。5) LLM裁判：使用动态生成的评估标准来判断Agent是否已经掌握了某个主题，并决定是否进入下一个阶段。

关键创新：Sensi最重要的技术创新点在于其结构化的测试时学习方法。与传统的端到端学习方法不同，Sensi将Agent分解为感知和动作两个部分，并通过课程学习和数据库控制平面来引导学习过程。这种结构化的方法使得Agent可以更有效地利用有限的样本，并更快地适应新的环境。此外，LLM裁判的使用也使得学习过程更加自动化和可控。

关键设计：Sensi的关键设计包括：1) 双玩家架构：将Agent分解为感知和动作两个部分，使得每个部分可以独立地进行优化。2) 课程学习：通过状态机管理学习进度，让Agent逐步学习任务的各个方面。3) 数据库控制平面：使用数据库来存储Agent的学习经验和知识，并控制Agent的上下文窗口。4) LLM裁判：使用动态生成的评估标准来判断Agent是否已经掌握了某个主题。

📊 实验亮点

Sensi v2虽然没有解决任何游戏关卡，但它在约32次动作尝试中完成了整个学习课程，比需要1600-3000次尝试的同类系统实现了50-94倍的样本效率提升。作者通过实验诊断出失败模式为感知层产生的自洽幻觉级联，表明架构瓶颈已转移到感知基础，这是一个相对更容易解决的问题，为后续研究指明了方向。

🎯 应用场景

Sensi的研究成果可以应用于各种需要LLM Agent在未知环境中进行快速学习和适应的场景，例如机器人导航、自动化控制、游戏AI等。通过提高Agent的样本效率，Sensi可以降低训练成本，并使得Agent能够更好地适应新的环境和任务。未来，Sensi的结构化学习方法可以与其他技术相结合，例如强化学习、模仿学习等，以进一步提高Agent的性能。

📄 摘要（原文）

Large language model (LLM) agents deployed in unknown environments must learn task structure at test time, but current approaches require thousands of interactions to form useful hypotheses. We present Sensi, an LLM agent architecture for the ARC-AGI-3 game-playing challenge that introduces structured test-time learning through three mechanisms: (1) a two-player architecture separating perception from action, (2) a curriculum-based learning system managed by an external state machine, and (3) a database-as-control-plane that makes the agents context window programmatically steerable. We further introduce an LLM-as-judge component with dynamically generated evaluation rubrics to determine when the agent has learned enough about one topic to advance to the next. We report results across two iterations: Sensi v1 solves 2 game levels using the two-player architecture alone, while Sensi v2 adds curriculum learning and solves 0 levels - but completes its entire learning curriculum in approximately 32 action attempts, achieving 50-94x greater sample efficiency than comparable systems that require 1600-3000 attempts. We precisely diagnose the failure mode as a self-consistent hallucination cascade originating in the perception layer, demonstrating that the architectural bottleneck has shifted from learning efficiency to perceptual grounding - a more tractable problem.

Sensi: Learn One Thing at a Time -- Curriculum-Based Test-Time Learning for LLM Game Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理