AgentOCR: Reimagining Agent History via Optical Self-Compression

作者: Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu, Zhenglin Wan, Ming Yan, Bo An

分类: cs.LG, cs.AI

发布日期: 2026-01-08

备注: Work in progress

💡 一句话要点

AgentOCR：通过光学自压缩重构Agent历史，提升token效率

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agent系统 历史压缩 光学字符识别 强化学习 大型语言模型 视觉token 自压缩

📋 核心要点

现有Agent系统受限于文本历史记录快速增长，导致token预算和内存消耗过大，阻碍了实际部署。
AgentOCR将观察-动作历史压缩为渲染图像，利用视觉token高信息密度，并采用分段光学缓存避免重复渲染。
实验表明，AgentOCR在保持95%性能的同时，显著降低了50%以上的token消耗，并验证了渲染加速和自压缩的有效性。

📝 摘要（中文）

大型语言模型(LLMs)的最新进展使得能够训练基于强化学习(RL)的agent系统，该系统通过多轮交互轨迹进行训练。然而，实际部署受到快速增长的文本历史记录的限制，这些历史记录膨胀了token预算和内存使用。我们引入AgentOCR，这是一个通过将累积的观察-动作历史表示为紧凑的渲染图像来利用视觉token的卓越信息密度的框架。为了使多轮rollout具有可扩展性，AgentOCR提出了分段光学缓存。通过将历史分解为可哈希的段并维护视觉缓存，该机制消除了冗余的重新渲染。除了固定渲染之外，AgentOCR还引入了agentic自压缩，其中agent主动发出压缩率，并使用压缩感知奖励进行训练，以自适应地平衡任务成功和token效率。我们在具有挑战性的agent基准测试ALFWorld和基于搜索的QA上进行了广泛的实验。值得注意的是，结果表明AgentOCR保留了超过95％的基于文本的agent性能，同时显着降低了token消耗（> 50％），从而实现了始终如一的token和内存效率。我们进一步的分析验证了分段光学缓存带来的20倍渲染加速以及自压缩的有效战略平衡。

🔬 方法详解

问题定义：现有基于LLM的Agent系统在处理多轮交互时，需要维护大量的文本历史记录。这些历史记录会迅速增加token数量，导致计算成本上升和内存占用过大，严重限制了Agent系统的可扩展性和实际应用。现有方法缺乏有效的历史信息压缩和管理机制。

核心思路：AgentOCR的核心思路是将Agent的观察-动作历史记录转换为视觉表示，即渲染成图像。视觉token具有比文本token更高的信息密度，因此可以更紧凑地表示相同的历史信息。此外，AgentOCR引入了分段光学缓存和agentic自压缩机制，进一步提高效率。

技术框架：AgentOCR框架主要包含以下几个模块：1) 历史记录渲染模块：将Agent的观察和动作历史记录渲染成图像。2) 分段光学缓存模块：将历史记录分割成可哈希的片段，并缓存渲染后的图像，避免重复渲染。3) Agentic自压缩模块：Agent根据当前状态动态调整压缩率，平衡任务成功率和token效率。4) LLM推理模块：使用渲染后的图像作为输入，进行下一步的动作决策。

关键创新：AgentOCR的关键创新在于：1) 利用视觉token的高信息密度来压缩Agent历史记录。2) 提出分段光学缓存机制，有效减少重复渲染。3) 引入agentic自压缩，使Agent能够自适应地平衡任务性能和token效率。与现有方法相比，AgentOCR能够显著降低token消耗，提高Agent系统的可扩展性。

关键设计：在历史记录渲染模块中，需要选择合适的渲染方式，例如将文本信息转换为图像中的文字或符号。分段光学缓存模块需要设计合适的哈希函数，以便快速检索缓存的图像。Agentic自压缩模块需要设计压缩感知奖励函数，引导Agent学习合适的压缩策略。具体来说，奖励函数可以包含任务奖励和token消耗惩罚项，通过调整两者的权重来控制压缩程度。

📊 实验亮点

AgentOCR在ALFWorld和基于搜索的QA等具有挑战性的Agent基准测试中取得了显著成果。实验结果表明，AgentOCR在保持超过95%的文本Agent性能的同时，显著降低了超过50%的token消耗。分段光学缓存实现了20倍的渲染加速。这些结果验证了AgentOCR的有效性和优越性。

🎯 应用场景

AgentOCR具有广泛的应用前景，例如在对话系统、游戏AI、机器人控制等领域，可以有效降低计算成本和内存占用，提高Agent系统的可扩展性和部署效率。尤其是在资源受限的边缘设备上，AgentOCR的优势更加明显。未来，可以将AgentOCR与其他压缩技术相结合，进一步提高压缩效率。

📄 摘要（原文）

Recent advances in large language models (LLMs) enable agentic systems trained with reinforcement learning (RL) over multi-turn interaction trajectories, but practical deployment is bottlenecked by rapidly growing textual histories that inflate token budgets and memory usage. We introduce AgentOCR, a framework that exploits the superior information density of visual tokens by representing the accumulated observation-action history as a compact rendered image. To make multi-turn rollouts scalable, AgentOCR proposes segment optical caching. By decomposing history into hashable segments and maintaining a visual cache, this mechanism eliminates redundant re-rendering. Beyond fixed rendering, AgentOCR introduces agentic self-compression, where the agent actively emits a compression rate and is trained with compression-aware reward to adaptively balance task success and token efficiency. We conduct extensive experiments on challenging agentic benchmarks, ALFWorld and search-based QA. Remarkably, results demonstrate that AgentOCR preserves over 95\% of text-based agent performance while substantially reducing token consumption (>50\%), yielding consistent token and memory efficiency. Our further analysis validates a 20x rendering speedup from segment optical caching and the effective strategic balancing of self-compression.

AgentOCR: Reimagining Agent History via Optical Self-Compression

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理