Learning Explicit Behavioral Models with Adaptive Questions and World-Model Probes
作者: Hikaru Shindo, Yu Deng, Teng Cao, Quentin Delfosse, Christopher Tauchmann, Jannis Blüml, Gopika Sudhakaran, Kristian Kersting
分类: cs.LG
发布日期: 2026-06-05
💡 一句话要点
提出显式符号行为模型以解决交互代理适应性不足问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 显式符号行为模型 交互代理 任务表现 机制预测 适应性问题生成
📋 核心要点
- 现有的交互代理方法在仅依赖任务回报时,无法有效捕捉成功行为的机制,导致适应性不足。
- 本文提出的显式符号行为模型(ESBM)通过结合任务表现与基于证据的问题回答,增强了代理的行为理解能力。
- 在Atari风格的实验中,ESBM不仅学习到了高得分策略,还能提供明确的答案和可执行的机制预测。
📝 摘要(中文)
交互代理仅通过任务回报进行训练,虽然能获得高分,但往往无法有效表示其成功行为的机制。这导致行为脆弱,难以诊断,并限制了在环境动态变化时的适应能力。现有的大型语言模型反思和策略代码修复方法通常在训练后使用问题和世界理解测试。本文提出了一种显式符号行为模型(ESBM),它将任务表现与基于证据的问题回答和可执行机制预测相结合。ESBM通过类型谓词、加权规则、有限选项和机制记忆来表示行为,机制层在行动干预下预测符号事件、对象变化、奖励和终端后果。通过适应性问题和主动世界模型探测,将得分失败、问答错误和转移预测错误转化为ESBM的局部编辑约束。
🔬 方法详解
问题定义:本文旨在解决交互代理在仅依赖任务回报时,无法有效表示成功行为机制的问题。现有方法在环境动态变化时表现出适应性不足,难以诊断行为脆弱性。
核心思路:提出显式符号行为模型(ESBM),该模型通过结合任务表现与基于证据的问题回答,增强了代理的行为理解能力。ESBM能够在训练过程中动态调整,提升代理的适应性。
技术框架:ESBM的整体架构包括行为表示层、机制层和适应性问题生成模块。行为表示层使用类型谓词和加权规则来描述行为,机制层负责预测符号事件和奖励,而适应性问题模块则根据代理的表现生成问题和探测。
关键创新:ESBM的核心创新在于将行为表示与适应性问题生成相结合,使得模型能够在训练过程中实时调整。与现有方法相比,ESBM不仅关注任务得分,还重视行为机制的可解释性。
关键设计:ESBM的设计包括使用加权规则来表示行为的优先级,机制记忆用于存储历史行为信息,损失函数则结合了任务得分、问答准确性和世界模型一致性等多重标准。
🖼️ 关键图片
📊 实验亮点
在Atari风格的实验中,ESBM成功学习到了高得分策略,同时提供了明确的答案和可执行的机制预测。与基线相比,ESBM在任务得分和问答准确性上均有显著提升,展示了其在机制学习中的有效性。
🎯 应用场景
该研究的潜在应用领域包括智能机器人、游戏AI和自主系统等。通过提升交互代理的行为理解能力,能够在动态环境中实现更高效的适应和决策,具有重要的实际价值和未来影响。
📄 摘要(原文)
Interactive agents trained only against task return can achieve high scores while failing to represent the mechanisms that make their actions succeed. This makes brittle behavior difficult to diagnose and limits adaptation when environment dynamics change. Existing LLM reflection and policy-code repair can revise behavior from failed trajectories, but questions and world-understanding tests are usually used only after training. We introduce an Explicit Symbolic Behavioral Model (ESBM), a trainable behavioral model that couples task performance with evidence-grounded question answering and executable mechanism prediction. An ESBM represents behavior through typed predicates, weighted rules, bounded options and mechanism memory; the mechanism layer predicts symbolic events, object changes, rewards and terminal consequences under action interventions. After each rollout, adaptive questions and active world-model probes convert score failures, QA errors and transition-prediction errors into constraints for local ESBM edits. Candidate models are selected by a multi-criterion rule that jointly evaluates task score, answerability and active world-model consistency. Under the tested Atari-style protocols, ESBM learns high-scoring policies while producing explicit answers and executable mechanism predictions, indicating that adaptive questions can serve as both training pressure and reusable benchmarks for mechanistic policy learning in this setting.