GLUE: Global-Local Unified Encoding for Imitation Learning via Key-Patch Tracking

作者: Ye Chen, Zichen Zhou, Jianyu Dou, Te Cui, Yi Yang, Yufeng Yue

分类: cs.RO

发布日期: 2025-09-27

备注: 8 pages, 5 figures

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出GLUE，通过关键区域跟踪实现模仿学习中的全局-局部统一编码

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 模仿学习 机器人 视觉表征学习 全局-局部融合 关键区域跟踪

📋 核心要点

复杂环境中全局视觉表征易受干扰，导致模仿学习策略性能下降，是当前方法面临的核心问题。
GLUE通过文本引导的关键区域跟踪，融合全局和局部特征，引导机器人关注任务相关对象，提升鲁棒性。
实验结果表明，GLUE在模拟和真实环境中均显著优于现有方法，尤其在真实环境泛化能力上提升显著。

📝 摘要（中文）

近年来，视觉表征学习在机器人模仿学习中备受关注。然而，在复杂且分布外(OOD)的环境中，全局视觉表征的注意力可能被稀释或干扰，导致策略性能下降。任务相关对象的局部表征的不变性提供了一种解决方案。通过有效利用这些局部表征，可以将训练和测试数据映射到更相似的特征空间，从而缓解协变量偏移问题。因此，我们提出GLUE，一个基于关键区域跟踪的模仿学习全局-局部统一编码框架。GLUE通过文本引导机制选择和跟踪关键区域作为关键局部表征。它采用了一种新颖的融合框架，其中全局patch特征查询局部patch以提取关键信息，从而产生相对于全局上下文具有低异质性的细粒度局部特征。这种融合的表征引导机器人的视觉注意力集中于任务相关对象，并保留精确的全局上下文，从而将训练和测试分布对齐到相似且具有任务信息的特征空间，最终增强模仿学习策略的鲁棒性。实验表明，GLUE在模拟和真实环境中的各种任务中都取得了强大的性能，在模拟环境中优于最强的基线17.6%，在真实环境中优于36.3%，在真实环境泛化设置中优于58.3%。

🔬 方法详解

问题定义：论文旨在解决模仿学习在复杂、分布外（OOD）环境中性能下降的问题。现有方法依赖的全局视觉表征容易受到环境杂乱和遮挡的干扰，导致策略泛化能力不足。尤其是在训练和测试环境存在显著差异时，性能下降更为明显。

核心思路：论文的核心思路是结合全局和局部视觉信息，利用局部表征对任务相关对象的不变性，缓解协变量偏移问题。通过选择和跟踪关键局部区域（key-patches），并将其与全局上下文信息融合，使模型能够更准确地关注任务相关的特征，从而提高策略的鲁棒性和泛化能力。

技术框架：GLUE框架包含以下主要模块：1) 关键区域选择与跟踪：使用文本引导机制选择并跟踪图像中的关键局部区域。2) 全局特征提取：提取全局图像的patch特征。3) 局部特征提取：提取关键局部区域的特征。4) 全局-局部融合：使用全局patch特征查询局部patch特征，提取关键信息，生成融合的特征表示。5) 策略学习：使用融合的特征表示训练模仿学习策略。

关键创新：GLUE的关键创新在于全局-局部统一编码框架，以及其中使用的文本引导的关键区域选择和全局特征查询局部特征的融合机制。与传统方法相比，GLUE能够更有效地利用局部表征的不变性，并将其与全局上下文信息相结合，从而提高策略的鲁棒性和泛化能力。

关键设计：文本引导机制用于选择关键区域，具体实现方式未知。全局-局部融合模块使用全局特征作为query，局部特征作为key和value，通过注意力机制提取相关信息。损失函数的设计细节未知，但目标是使训练和测试分布对齐，并提高策略的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GLUE在模拟和真实环境中的多个任务上均取得了显著的性能提升。在模拟环境中，GLUE优于最强基线17.6%；在真实环境中，GLUE优于最强基线36.3%；在真实环境泛化设置中，GLUE优于最强基线58.3%。这些结果表明，GLUE能够有效地提高模仿学习策略的鲁棒性和泛化能力。

🎯 应用场景

GLUE框架可应用于各种机器人模仿学习任务，尤其是在复杂、动态和分布外环境中。例如，它可以用于家庭服务机器人、自动驾驶、工业自动化等领域，提高机器人在真实世界中的适应性和可靠性。该研究对于提升机器人智能水平，使其更好地服务于人类具有重要意义。

📄 摘要（原文）

In recent years, visual representation learning has gained widespread attention in robotic imitation learning. However, in complex Out-of-Distribution(OOD) settings characterized by clutter and occlusion, the attention of global visual representations can be diluted or interfered, leading to degraded policy performance. The invariance of local representations for task-relevant objects offers a solution. By efficiently utilizing these local representations, training and testing data can be mapped to a more similar feature space, thereby mitigating the covariate shift problem. Accordingly, we propose GLUE, a global-local unified encoding framework for imitation learning based on key-patch tracking. GLUE selects and tracks key-patches as critical local representations by employing a text-guided mechanism. It features a novel fusion framework where global patch features query local patches to distill essential information, yielding fine-grained local features with low heterogeneity relative to the global context. This fused representation steers the robot's visual attention toward task-relevant objects and preserves precise global context, which together align the training and testing distributions into a similar and task-informative feature space, ultimately enhancing the robustness of the imitation learning policy. Experiments demonstrate that GLUE achieves strong performance across diverse tasks in both simulation and real-world settings, outperforming the strongest baseline by 17.6% in simulation, 36.3% in real-world environments, and 58.3% on real-world generalization settings. The project website of GLUE is available at https://GLUE666.github.io/.

GLUE: Global-Local Unified Encoding for Imitation Learning via Key-Patch Tracking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理