RT-Cache: Training-Free Retrieval for Real-Time Manipulation

作者: Owen Kwon, Abraham George, Alison Bartsch, Amir Barati Farimani

分类: cs.RO, cs.AI, cs.CV, cs.LG

发布日期: 2025-05-14 (更新: 2025-08-25)

备注: 8 pages, 6 figures. 2025 IEEE-RAS 24th International Conference on Humanoid Robots

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

RT-Cache：用于实时操作的免训练检索方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人控制 检索式学习 实时操作 免训练 少量样本学习

📋 核心要点

现有机器人控制器在泛化到新环境时，面临着计算成本高昂或需要大量微调的问题。
RT-Cache通过检索相似经验轨迹来控制机器人，避免了每一步的复杂模型推理或耗时的微调。
实验表明，RT-Cache在真实机器人任务中，相比现有检索方法，成功率更高，完成时间更短，且能快速适应新任务。

📝 摘要（中文）

真实机器人需要在极少新数据的条件下，在新环境中重复相同的行为。然而，现有的控制器要么需要繁重的单步推理，要么需要在部署时进行微调。我们提出了RT-Cache，一种免训练的检索即控制流程，它将多样化的图像-动作轨迹缓存在统一的向量存储器中。在测试时，它嵌入当前帧以检索和回放多步片段，从而取代了单步模型调用。分层搜索将百万规模的查找保持在亚秒级，将成本从计算转移到存储，并在适中的GPU上实现实时控制。在真实机器人任务和大型开放日志中，RT-Cache比强大的检索基线实现了更高的成功率和更短的完成时间（在我们的设置中，成功率大约高2倍，速度快约30%）。单次演示的锚定研究表明，无需微调即可立即适应更复杂的、接触丰富的任务。RT-Cache将经验转化为仅追加的内存，为当今的少量样本部署提供了一个简单、可扩展的路径，并为多模态键和与高级策略的可选集成奠定了基础。

🔬 方法详解

问题定义：现有机器人控制方法在实际部署中面临两个主要问题。一是基于模型的控制方法通常需要大量的计算资源进行单步推理，难以满足实时性要求。二是需要微调才能适应新的环境，这需要大量数据和时间，限制了其在少量样本学习场景下的应用。

核心思路：RT-Cache的核心思想是利用检索来代替传统的控制模型。它将机器人过去的经验（图像-动作轨迹）存储起来，并在运行时，通过检索与当前状态最相似的经验片段，直接执行相应的动作序列。这种方法避免了复杂的模型推理，并且由于利用了过去的经验，因此具有较强的泛化能力。

技术框架：RT-Cache的整体框架包括离线缓存阶段和在线检索控制阶段。在离线缓存阶段，系统收集并存储多样化的图像-动作轨迹，并构建用于快速检索的索引结构。在线检索控制阶段，系统首先将当前图像嵌入到向量空间中，然后使用分层搜索算法在缓存中检索最相似的轨迹片段，最后执行检索到的动作序列。

关键创新：RT-Cache的关键创新在于其免训练的检索即控制方法。与传统的基于模型的控制方法不同，RT-Cache不需要训练任何模型，而是直接利用过去的经验进行控制。此外，RT-Cache还采用了分层搜索算法，实现了在百万规模数据集上的亚秒级检索速度，满足了实时性要求。

关键设计：RT-Cache的关键设计包括图像嵌入网络的选择、相似度度量方式、分层搜索算法的实现以及动作序列的回放策略。图像嵌入网络用于将图像转换为向量表示，相似度度量方式用于衡量当前状态与缓存轨迹之间的相似度，分层搜索算法用于加速检索过程，动作序列的回放策略则决定了如何执行检索到的动作序列。

🖼️ 关键图片

📊 实验亮点

RT-Cache在真实机器人任务中取得了显著的性能提升。实验结果表明，RT-Cache的成功率比强大的检索基线高约2倍，完成时间快约30%。此外，单次演示的锚定研究表明，RT-Cache无需微调即可立即适应更复杂的、接触丰富的任务，展示了其强大的泛化能力和快速适应性。

🎯 应用场景

RT-Cache具有广泛的应用前景，尤其适用于需要在资源受限的环境中进行实时控制的机器人应用，例如家庭服务机器人、工业自动化机器人等。该方法还可以应用于虚拟现实、游戏等领域，通过检索相似的游戏场景和玩家行为，实现更智能的交互体验。此外，RT-Cache为机器人学习提供了一种新的思路，即通过积累和利用过去的经验，实现更高效的自主学习。

📄 摘要（原文）

Real robots are expected to repeat the same behavior in new environments with very little new data, yet modern controllers either incur heavy per-step inference or require deployment-time fine-tuning. We propose RT-Cache, a training-free retrieval-as-control pipeline that caches diverse image action trajectories in a unified vector memory and, at test time, embeds the current frame to retrieve and replay multi-step snippets, replacing per-step model calls. A hierarchical search keeps lookups sub-second at million scale, shifting cost from compute to storage and enabling real-time control on modest GPUs. Across real-robot tasks and large open logs, RT-Cache achieves higher success and lower completion time than strong retrieval baselines (approximately x2 higher success and ~30% faster in our settings), and a single-episode anchoring study shows immediate adaptation to a more complex, contact-rich task without fine-tuning. RT-Cache turns experience into an append-only memory, offering a simple, scalable path to few-shot deployment today and a foundation for multimodal keys and optional integration with high-level policies. Project page: https://rt-cache.github.io/.

RT-Cache: Training-Free Retrieval for Real-Time Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理