RoboRouter: Training-Free Policy Routing for Robotic Manipulation

作者: Yiteng Chen, Zhe Cao, Hongjia Ren, Chenjie Yang, Wenbo Li, Shiyi Wang, Yemin Wang, Li Zhang, Yanming Shao, Zhenjun Zhao, Huiping Zhuang, Qingyao Wu

分类: cs.RO

发布日期: 2026-03-09

💡 一句话要点

RoboRouter：一种用于机器人操作的免训练策略路由方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 策略路由 免训练学习 异构策略集成 任务泛化

📋 核心要点

现有机器人操作策略泛化性不足，难以适应多样化任务。
RoboRouter通过免训练的策略路由，集成异构策略的优势。
实验表明，RoboRouter在模拟和真实环境中均显著提升了任务成功率。

📝 摘要（中文）

机器人操作领域涌现了多种策略范式，包括视觉-语言-动作(VLA)模型、视觉-动作(VA)策略和基于代码的组合方法。然而，具体策略通常在特定任务分布上表现出色，但在泛化能力方面存在局限性。本文提出RoboRouter，一个免训练框架，通过智能策略路由来利用现有方法的互补优势。RoboRouter维护一个异构策略池，并通过累积的执行经验学习为每个任务选择最佳策略。对于新任务，RoboRouter构建语义任务表示，检索相似任务的历史记录，预测最优策略选择，并结合结构化反馈来优化后续路由决策。集成新策略只需轻量级评估，无需训练开销。在模拟和真实环境评估中，RoboRouter始终优于单个策略，在模拟中平均成功率提高3%以上，在真实环境中提高13%以上，同时保持执行效率。结果表明，跨异构、现成策略的智能路由为构建更强大的机器人系统提供了一条实用且可扩展的途径。

🔬 方法详解

问题定义：现有机器人操作策略，如VLA模型、VA策略等，虽然在特定任务分布上表现良好，但泛化能力有限，难以适应真实世界中复杂多变的任务需求。每种策略都有其擅长的任务类型，如何有效地利用这些异构策略的优势是一个挑战。

核心思路：RoboRouter的核心思想是利用策略路由，根据任务的语义信息，动态地选择最适合该任务的策略。通过维护一个异构策略池，并根据历史执行经验学习每个策略的适用范围，从而实现对不同任务的最优策略选择。这种方法无需对现有策略进行训练，即可提升整体性能。

技术框架：RoboRouter包含以下主要模块：1) 语义任务表示：将任务描述转化为语义向量。2) 历史记录检索：根据语义相似度检索历史任务记录。3) 策略选择预测：基于历史记录预测最优策略。4) 结构化反馈：根据执行结果调整策略选择模型。整体流程是，给定新任务，首先构建语义表示，然后检索相似任务的历史记录，预测最优策略，执行策略并收集反馈，最后更新策略选择模型。

关键创新：RoboRouter的关键创新在于免训练的策略路由机制。它不需要对现有策略进行任何修改或训练，即可实现策略的动态选择和集成。通过利用历史执行经验，RoboRouter能够不断优化策略选择模型，提高整体性能。与传统的单一策略方法相比，RoboRouter具有更好的泛化能力和适应性。

关键设计：RoboRouter使用语义向量来表示任务，可以使用预训练的语言模型或领域知识来构建。历史记录检索使用相似度度量，如余弦相似度。策略选择预测可以使用分类器或回归模型，根据历史记录预测每个策略的成功率。结构化反馈可以采用强化学习或监督学习的方法，根据执行结果调整策略选择模型。

🖼️ 关键图片

📊 实验亮点

RoboRouter在模拟和真实环境评估中均表现出色。在模拟环境中，RoboRouter的平均成功率比单个策略提高了3%以上。在真实环境中，RoboRouter的平均成功率比单个策略提高了13%以上。这些结果表明，RoboRouter能够有效地利用异构策略的优势，提高机器人操作的整体性能。

🎯 应用场景

RoboRouter可应用于各种机器人操作任务，如家庭服务机器人、工业机器人、医疗机器人等。通过集成不同的策略，RoboRouter能够适应复杂多变的环境，提高任务完成的成功率和效率。该研究为构建更智能、更可靠的机器人系统提供了一种新的思路。

📄 摘要（原文）

Research on robotic manipulation has developed a diverse set of policy paradigms, including vision-language-action (VLA) models, vision-action (VA) policies, and code-based compositional approaches. Concrete policies typically attain high success rates on specific task distributions but lim-ited generalization beyond it. Rather than proposing an other monolithic policy, we propose to leverage the complementary strengths of existing approaches through intelligent policy routing. We introduce RoboRouter, a training-free framework that maintains a pool of heterogeneous policies and learns to select the best-performing policy for each task through accumulated execution experience. Given a new task, RoboRouter constructs a semantic task representation, retrieves historical records of similar tasks, predicts the optimal policy choice without requiring trial-and-error, and incorporates structured feedback to refine subsequent routing decisions. Integrating a new policy into the system requires only lightweight evaluation and incurs no training overhead. Across simulation benchmark and real-world evaluations, RoboRouter consistently outperforms than in-dividual policies, improving average success rate by more than 3% in simulation and over 13% in real-world settings, while preserving execution efficiency. Our results demonstrate that intelligent routing across heterogeneous, off-the-shelf policies provides a practical and scalable pathway toward building more capable robotic systems.

RoboRouter: Training-Free Policy Routing for Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理