AgentOCR: Reimagining Agent History via Optical Self-Compression

📄 arXiv: 2601.04786v1 📥 PDF

作者: Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu, Zhenglin Wan, Ming Yan, Bo An

分类: cs.LG, cs.AI

发布日期: 2026-01-08

备注: Work in progress


💡 一句话要点

AgentOCR:通过光学自压缩重构Agent历史,提升token效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agent系统 历史压缩 光学字符识别 强化学习 大型语言模型 视觉token 自压缩

📋 核心要点

  1. 现有Agent系统受限于文本历史记录快速增长,导致token预算和内存消耗过大,阻碍了实际部署。
  2. AgentOCR将观察-动作历史压缩为渲染图像,利用视觉token高信息密度,并采用分段光学缓存避免重复渲染。
  3. 实验表明,AgentOCR在保持95%性能的同时,显著降低了50%以上的token消耗,并验证了渲染加速和自压缩的有效性。

📝 摘要(中文)

大型语言模型(LLMs)的最新进展使得能够训练基于强化学习(RL)的agent系统,该系统通过多轮交互轨迹进行训练。然而,实际部署受到快速增长的文本历史记录的限制,这些历史记录膨胀了token预算和内存使用。我们引入AgentOCR,这是一个通过将累积的观察-动作历史表示为紧凑的渲染图像来利用视觉token的卓越信息密度的框架。为了使多轮rollout具有可扩展性,AgentOCR提出了分段光学缓存。通过将历史分解为可哈希的段并维护视觉缓存,该机制消除了冗余的重新渲染。除了固定渲染之外,AgentOCR还引入了agentic自压缩,其中agent主动发出压缩率,并使用压缩感知奖励进行训练,以自适应地平衡任务成功和token效率。我们在具有挑战性的agent基准测试ALFWorld和基于搜索的QA上进行了广泛的实验。值得注意的是,结果表明AgentOCR保留了超过95%的基于文本的agent性能,同时显着降低了token消耗(> 50%),从而实现了始终如一的token和内存效率。我们进一步的分析验证了分段光学缓存带来的20倍渲染加速以及自压缩的有效战略平衡。

🔬 方法详解

问题定义:现有基于LLM的Agent系统在处理多轮交互时,需要维护大量的文本历史记录。这些历史记录会迅速增加token数量,导致计算成本上升和内存占用过大,严重限制了Agent系统的可扩展性和实际应用。现有方法缺乏有效的历史信息压缩和管理机制。

核心思路:AgentOCR的核心思路是将Agent的观察-动作历史记录转换为视觉表示,即渲染成图像。视觉token具有比文本token更高的信息密度,因此可以更紧凑地表示相同的历史信息。此外,AgentOCR引入了分段光学缓存和agentic自压缩机制,进一步提高效率。

技术框架:AgentOCR框架主要包含以下几个模块:1) 历史记录渲染模块:将Agent的观察和动作历史记录渲染成图像。2) 分段光学缓存模块:将历史记录分割成可哈希的片段,并缓存渲染后的图像,避免重复渲染。3) Agentic自压缩模块:Agent根据当前状态动态调整压缩率,平衡任务成功率和token效率。4) LLM推理模块:使用渲染后的图像作为输入,进行下一步的动作决策。

关键创新:AgentOCR的关键创新在于:1) 利用视觉token的高信息密度来压缩Agent历史记录。2) 提出分段光学缓存机制,有效减少重复渲染。3) 引入agentic自压缩,使Agent能够自适应地平衡任务性能和token效率。与现有方法相比,AgentOCR能够显著降低token消耗,提高Agent系统的可扩展性。

关键设计:在历史记录渲染模块中,需要选择合适的渲染方式,例如将文本信息转换为图像中的文字或符号。分段光学缓存模块需要设计合适的哈希函数,以便快速检索缓存的图像。Agentic自压缩模块需要设计压缩感知奖励函数,引导Agent学习合适的压缩策略。具体来说,奖励函数可以包含任务奖励和token消耗惩罚项,通过调整两者的权重来控制压缩程度。

📊 实验亮点

AgentOCR在ALFWorld和基于搜索的QA等具有挑战性的Agent基准测试中取得了显著成果。实验结果表明,AgentOCR在保持超过95%的文本Agent性能的同时,显著降低了超过50%的token消耗。分段光学缓存实现了20倍的渲染加速。这些结果验证了AgentOCR的有效性和优越性。

🎯 应用场景

AgentOCR具有广泛的应用前景,例如在对话系统、游戏AI、机器人控制等领域,可以有效降低计算成本和内存占用,提高Agent系统的可扩展性和部署效率。尤其是在资源受限的边缘设备上,AgentOCR的优势更加明显。未来,可以将AgentOCR与其他压缩技术相结合,进一步提高压缩效率。

📄 摘要(原文)

Recent advances in large language models (LLMs) enable agentic systems trained with reinforcement learning (RL) over multi-turn interaction trajectories, but practical deployment is bottlenecked by rapidly growing textual histories that inflate token budgets and memory usage. We introduce AgentOCR, a framework that exploits the superior information density of visual tokens by representing the accumulated observation-action history as a compact rendered image. To make multi-turn rollouts scalable, AgentOCR proposes segment optical caching. By decomposing history into hashable segments and maintaining a visual cache, this mechanism eliminates redundant re-rendering. Beyond fixed rendering, AgentOCR introduces agentic self-compression, where the agent actively emits a compression rate and is trained with compression-aware reward to adaptively balance task success and token efficiency. We conduct extensive experiments on challenging agentic benchmarks, ALFWorld and search-based QA. Remarkably, results demonstrate that AgentOCR preserves over 95\% of text-based agent performance while substantially reducing token consumption (>50\%), yielding consistent token and memory efficiency. Our further analysis validates a 20x rendering speedup from segment optical caching and the effective strategic balancing of self-compression.