ReCode: Unify Plan and Action for Universal Granularity Control
作者: Zhaoyang Yu, Jiayi Zhang, Huixue Su, Yufan Zhao, Yifan Wu, Mingyi Deng, Jinyu Xiang, Yizhang Lin, Lingxiao Tang, Yuyu Luo, Bang Liu, Chenglin Wu
分类: cs.AI, cs.CL, cs.LG
发布日期: 2025-10-27 (更新: 2026-01-06)
🔗 代码/项目: GITHUB
💡 一句话要点
ReCode:通过统一计划与行动实现通用粒度控制
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 递归代码生成 通用粒度控制 计划与行动统一 大型语言模型 分层决策
📋 核心要点
- 现有基于LLM的智能体在高层计划和低层行动之间存在严格分离,导致动态适应性和泛化能力受限。
- ReCode通过递归代码生成统一计划和行动,将高层计划视为抽象函数,递归分解为细粒度子函数,实现动态粒度控制。
- 实验表明,ReCode在推理性能上显著超越现有方法,并具有更高的数据效率,验证了统一计划与行动的有效性。
📝 摘要(中文)
现实世界的任务需要在不同粒度上进行决策,而人类擅长于此,他们利用统一的认知表征,将计划理解为一种高级形式的行动。然而,目前基于大型语言模型(LLM)的智能体缺乏这种在决策粒度上流畅操作的关键能力。这种局限性源于现有范式强制将高层计划和低层行动严格分离,从而损害了动态适应性和泛化能力。我们提出ReCode(递归代码生成),这是一种新颖的范式,通过在单个代码表示中统一计划和行动来解决这一局限性。在这种表示中,ReCode将高层计划视为抽象的占位符函数,智能体递归地将其分解为更细粒度的子函数,直到达到原始行动。这种递归方法消除了计划和行动之间的严格界限,使智能体能够动态地控制其决策粒度。此外,递归结构固有地生成了丰富的、多粒度的训练数据,使模型能够学习分层决策过程。大量实验表明,ReCode在推理性能方面显著超越了先进的基线,并在训练中表现出卓越的数据效率,验证了我们的核心观点,即通过递归代码生成统一计划和行动是实现通用粒度控制的强大而有效的方法。
🔬 方法详解
问题定义:现有基于大型语言模型的智能体在处理需要不同粒度决策的现实任务时,由于高层计划和低层行动的严格分离,无法灵活地调整决策粒度,导致动态适应性和泛化能力不足。这种分离使得智能体难以像人类一样,将计划视为一种高级形式的行动,从而限制了其在复杂环境中的表现。
核心思路:ReCode的核心思路是将计划和行动统一在一种代码表示中,通过递归地将高层计划分解为更细粒度的子函数,直到达到原始行动,从而实现对决策粒度的动态控制。这种方法模仿了人类的认知过程,将计划视为一种抽象的行动,并允许智能体根据任务的需求灵活地调整决策的详细程度。
技术框架:ReCode的技术框架主要包含以下几个阶段:1) 将高层目标转化为抽象的占位符函数;2) 递归地将这些占位符函数分解为更细粒度的子函数,直到达到可以直接执行的原始行动;3) 使用生成的递归代码结构进行训练,从而学习分层决策过程。整个过程通过代码生成的方式实现,使得计划和行动在形式上统一,便于模型学习和推理。
关键创新:ReCode最重要的技术创新点在于它通过递归代码生成的方式,打破了高层计划和低层行动之间的严格界限,实现了对决策粒度的动态控制。与现有方法不同,ReCode不依赖于预定义的计划层级或固定的行动空间,而是允许智能体根据任务的需求自适应地调整决策的粒度。这种方法使得智能体能够更好地应对复杂和动态的环境。
关键设计:ReCode的关键设计包括:1) 使用代码作为统一的表示形式,将计划和行动都表示为函数;2) 设计递归的代码生成机制,允许智能体将高层计划分解为低层行动;3) 利用生成的递归代码结构,构建多粒度的训练数据,从而提高模型的学习效率。具体的参数设置、损失函数和网络结构等细节未在摘要中提及,属于未知信息。
🖼️ 关键图片
📊 实验亮点
摘要中提到ReCode在推理性能方面显著超越了先进的基线,并在训练中表现出卓越的数据效率。具体的性能数据、对比基线和提升幅度未在摘要中给出,属于未知信息。但总体而言,实验结果验证了ReCode通过递归代码生成统一计划和行动的有效性。
🎯 应用场景
ReCode的潜在应用领域包括机器人控制、游戏AI、任务规划等。通过实现通用粒度控制,ReCode可以使智能体在复杂环境中更有效地完成任务,例如,机器人可以根据环境的变化动态地调整其行动的粒度,从而更好地适应不同的场景。未来,ReCode有望推动智能体在现实世界中的应用,提高其自主性和适应性。
📄 摘要(原文)
Real-world tasks require decisions at varying granularities, and humans excel at this by leveraging a unified cognitive representation where planning is fundamentally understood as a high-level form of action. However, current Large Language Model (LLM)-based agents lack this crucial capability to operate fluidly across decision granularities. This limitation stems from existing paradigms that enforce a rigid separation between high-level planning and low-level action, which impairs dynamic adaptability and limits generalization. We propose ReCode (Recursive Code Generation), a novel paradigm that addresses this limitation by unifying planning and action within a single code representation. In this representation, ReCode treats high-level plans as abstract placeholder functions, which the agent then recursively decomposes into finer-grained sub-functions until reaching primitive actions. This recursive approach dissolves the rigid boundary between plan and action, enabling the agent to dynamically control its decision granularity. Furthermore, the recursive structure inherently generates rich, multi-granularity training data, enabling models to learn hierarchical decision-making processes. Extensive experiments show ReCode significantly surpasses advanced baselines in inference performance and demonstrates exceptional data efficiency in training, validating our core insight that unifying planning and action through recursive code generation is a powerful and effective approach to achieving universal granularity control. The code is available at https://github.com/FoundationAgents/ReCode.