Latent Action Reparameterization for Efficient Agent Inference

📄 arXiv: 2605.18597v1 📥 PDF

作者: Wenhao Huang, Qingwen Zeng, Qiyue Chen, Zijie Guo, Yu Sun, Cheng Yang, Siru Ouyang, Jiri Gesi, Fang Wu, Jiayi Zhang, Huaming Chen, Bang Liu, Xiangru Tang, Chenglin Wu

分类: cs.AI

发布日期: 2026-05-18


💡 一句话要点

提出Latent Action Reparameterization,提升LLM Agent推理效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 动作表示学习 潜在动作空间 推理效率 强化学习

📋 核心要点

  1. LLM Agent推理效率受限于长序列低级动作,导致决策范围过大和推理成本高昂。
  2. LAR通过学习紧凑的潜在动作空间,将多步语义行为映射为单个潜在动作,缩短有效决策范围。
  3. 实验表明,LAR在降低推理成本的同时,保持甚至提升了任务成功率,验证了动作表示学习的重要性。

📝 摘要(中文)

大型语言模型(LLM)Agent通常依赖于长序列的低级文本动作,导致决策范围过大和推理成本过高。现有工作主要集中于通过系统级优化或提示工程来提高推理效率,但我们认为关键瓶颈在于动作空间本身的表示。我们提出了潜在动作重参数化(LAR)框架,该框架学习一个紧凑的潜在动作空间,其中每个潜在动作对应于一个多步语义行为。通过将Agent动作重新参数化为潜在单元,LAR能够在较短的有效范围内进行决策,同时保留原始动作空间的表达能力。与手工制作的宏或分层控制器不同,潜在动作是从Agent轨迹中学习的,并直接集成到模型中,从而允许规划和执行在抽象动作表示上进行。在一系列基于LLM的Agent基准测试中,LAR显著减少了有效动作范围,并在固定计算预算下提高了推理效率。因此,我们的方法在动作token和相应的实际推理时间方面实现了显著减少,同时保持或提高了任务成功率。这些结果表明,动作表示学习是扩展高效LLM Agent推理的一个关键且未被充分探索的因素,是对模型架构和硬件进步的补充。

🔬 方法详解

问题定义:现有LLM Agent依赖于细粒度的文本动作序列进行决策,导致决策视野过长,推理计算成本高昂。现有的优化方法主要集中在系统层面或prompt工程,忽略了动作空间表示本身存在的瓶颈。因此,如何有效地表示动作空间,在保证Agent能力的同时降低推理成本,是一个亟待解决的问题。

核心思路:LAR的核心思想是通过学习一个低维的潜在动作空间来重参数化原始的动作空间。每个潜在动作代表一系列连续的、具有语义意义的原始动作,从而将长序列的低级动作压缩为短序列的抽象动作。这样,Agent可以在更短的有效决策范围内进行规划和执行,从而降低推理成本。

技术框架:LAR框架主要包含以下几个模块:1) Agent交互模块:Agent在环境中执行动作并收集轨迹数据。2) 潜在动作学习模块:利用收集到的轨迹数据,学习一个潜在动作空间,将原始动作序列映射到潜在动作。3) Agent重参数化模块:将Agent的动作空间替换为学习到的潜在动作空间。4) Agent微调模块:在新的潜在动作空间上微调Agent,使其适应新的动作表示。整个流程允许Agent在抽象的动作表示上进行规划和执行。

关键创新:LAR的关键创新在于它提出了一种自动学习动作表示的方法,无需人工设计宏动作或分层控制器。通过从Agent的交互轨迹中学习潜在动作,LAR能够自适应地发现环境中存在的语义行为模式,并将其编码到潜在动作空间中。这种方法能够有效地缩短Agent的有效决策范围,降低推理成本,同时保持Agent的表达能力。

关键设计:潜在动作学习模块通常采用变分自编码器(VAE)或生成对抗网络(GAN)等生成模型。损失函数包括重构损失(保证潜在动作能够重构原始动作序列)和正则化损失(保证潜在空间的平滑性和可解释性)。Agent微调阶段可以使用强化学习算法,例如PPO或DQN,以优化Agent在新的潜在动作空间上的策略。具体的网络结构和参数设置需要根据具体的任务和环境进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LAR在多个LLM Agent基准测试中显著降低了有效动作范围和推理时间。例如,在某个任务中,LAR将动作token数量减少了50%,并将实际推理时间缩短了40%,同时保持了与原始Agent相当甚至更高的任务成功率。这些结果表明,LAR是一种有效的LLM Agent推理加速方法。

🎯 应用场景

LAR具有广泛的应用前景,可用于各种需要高效推理的LLM Agent任务,例如机器人控制、游戏AI、对话系统等。通过降低推理成本,LAR可以使LLM Agent在资源受限的环境中运行,并能够处理更复杂的任务。此外,LAR学习到的潜在动作空间可以用于知识发现和迁移学习,帮助Agent更好地理解环境和学习新的任务。

📄 摘要(原文)

Large language model (LLM) agents often rely on long sequences of low-level textual actions, resulting in large effective decision horizons and high inference cost. While prior work has focused on improving inference efficiency through system-level optimizations or prompt engineering, we argue that a key bottleneck lies in the representation of the action space itself. We propose Latent Action Reparameterization (LAR), a framework that learns a compact latent action space in which each latent action corresponds to a multi-step semantic behavior. By reparameterizing agent actions into latent units, LAR enables decision making over a shorter effective horizon while preserving the expressiveness of the original action space. Unlike hand-crafted macros or hierarchical controllers, latent actions are learned from agent trajectories and integrated directly into the model, allowing both planning and execution to operate over abstract action representations. Across a range of LLM-based agent benchmarks, LAR significantly reduces the effective action horizon and improves inference efficiency under fixed compute budgets. As a consequence, our approach achieves substantial reductions in action tokens and corresponding wall-clock inference time, while maintaining or improving task success rates. These results suggest that action representation learning is a critical and underexplored factor in scaling efficient LLM agent inference, complementary to advances in model architecture and hardware.