COMAP: Co-Evolving World Models and Agent Policies for LLM Agents

📄 arXiv: 2606.02372v1 📥 PDF

作者: Youwei Liu, Jian Wang, Hanlin Wang, Wenjie Li

分类: cs.AI, cs.CL

发布日期: 2026-06-01

🔗 代码/项目: GITHUB


💡 一句话要点

COMAP:面向LLM Agent的协同进化世界模型与策略,提升交互环境决策能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: LLM Agent 世界模型 协同进化 自蒸馏 未来感知 具身智能 Web导航

📋 核心要点

  1. 现有文本世界模型无法适应Agent策略演进,导致预测精度下降,限制了Agent在复杂环境中的决策能力。
  2. COMAP通过协同进化世界模型和Agent策略,使世界模型适应Agent的交互分布,Agent利用世界模型进行未来感知反思。
  3. 实验结果表明,COMAP在多个基准测试中显著优于现有方法,验证了协同进化策略在提升Agent决策能力方面的有效性。

📝 摘要(中文)

本文提出COMAP框架,旨在通过闭环交互协同进化文本世界模型和Agent策略。现有文本世界模型在训练后通常固定,无法适应Agent策略演进带来的状态-动作分布变化。同时,Agent优化方法依赖外部奖励或验证器,限制了其在真实交互环境中的应用。COMAP在每个决策步骤中,世界模型预测候选动作的未来状态反馈,Agent通过评估反馈的可靠性进行未来感知反思,并相应地优化动作。生成的on-policy轨迹通过自蒸馏更新世界模型,使其更好地匹配Agent的交互分布。在具身任务规划、Web导航和工具使用基准测试中,COMAP始终优于现有方法,例如使用Qwen3-4B时相对提升16.75%。分析表明,协同进化循环提高了世界模型的预测精度,并实现了更有效的长程决策。

🔬 方法详解

问题定义:论文旨在解决LLM Agent在复杂交互环境中进行有效决策的问题。现有方法主要存在两个痛点:一是文本世界模型训练完成后固定,无法适应Agent策略演进带来的状态-动作分布变化;二是Agent优化依赖外部奖励或验证器,难以应用于真实的交互环境。

核心思路:COMAP的核心思路是协同进化世界模型和Agent策略。Agent策略的改进会改变其与环境的交互方式,进而影响世界模型的预测准确性。反过来,一个更准确的世界模型可以帮助Agent做出更好的决策。通过闭环交互,世界模型和Agent策略相互促进,共同进化。

技术框架:COMAP框架包含两个主要模块:世界模型和Agent策略。在每个决策步骤中,Agent首先生成多个候选动作。然后,世界模型预测每个候选动作执行后可能产生的未来状态反馈。Agent根据世界模型的预测结果,评估反馈的可靠性,并进行未来感知反思,最终选择最佳动作。Agent执行动作后产生的on-policy轨迹用于通过自蒸馏更新世界模型。

关键创新:COMAP的关键创新在于提出了协同进化机制,将世界模型的训练与Agent策略的优化紧密结合。与传统的先训练世界模型再训练Agent策略的方法不同,COMAP允许世界模型和Agent策略在交互过程中相互适应和改进。这种协同进化机制能够更好地利用Agent与环境的交互数据,提高世界模型的预测精度和Agent的决策能力。

关键设计:COMAP使用自蒸馏方法更新世界模型,鼓励世界模型学习Agent策略产生的on-policy轨迹。Agent通过评估世界模型预测的未来状态反馈的可靠性来进行未来感知反思。具体的可靠性评估方法和Agent策略优化方法在论文中未详细说明,属于未知细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

COMAP在具身任务规划、Web导航和工具使用等多个基准测试中取得了显著的性能提升。例如,在使用Qwen3-4B作为基础模型时,COMAP相比现有方法取得了16.75%的相对改进。实验结果表明,COMAP能够有效提高世界模型的预测精度,并提升Agent的长程决策能力。

🎯 应用场景

COMAP框架具有广泛的应用前景,可应用于机器人导航、游戏AI、智能助手等需要与环境进行复杂交互的领域。通过协同进化世界模型和Agent策略,COMAP能够提升Agent在动态环境中的适应性和决策能力,实现更智能、更自主的交互行为。该研究为开发更强大的LLM Agent提供了新的思路。

📄 摘要(原文)

Equipping language agents with world models enables them to anticipate environment dynamics and evaluate candidate actions before execution. However, existing textual world models are typically fixed after training, preventing them from adapting to the on-policy state-action distributions induced by an evolving agent. Meanwhile, agent-improvement methods often rely on external rewards or verifiers, limiting their applicability in realistic interactive environments. In this paper, we propose COMAP, a novel framework that co-evolves textual world models and agent policies through closed-loop interaction. At each decision step, the world model predicts future state feedback for candidate actions, and the agent performs future-aware reflection by estimating the reliability of this feedback and refining its action accordingly. The resulting on-policy trajectories are then used to update the world model via self-distillation, allowing it to better match the agent's evolving interaction distribution. Across embodied task planning, Web navigation, and tool-use benchmarks, COMAP consistently outperforms competitive baselines, e.g., +16.75% relative improvement with Qwen3-4B. Further analyses show that the co-evolutionary loop improves the world model's prediction accuracy over time and leads to more effective long-horizon decision-making. Our code is available at: https://github.com/loyiv/CoMAP.