AutoFocus-IL: VLM-based Saliency Maps for Data-Efficient Visual Imitation Learning without Extra Human Annotations

作者: Litian Gong, Fatemeh Bahrani, Yutai Zhou, Amin Banayeeanzade, Jiachen Li, Erdem Bıyık

分类: cs.RO, cs.CV

发布日期: 2025-11-23 (更新: 2025-11-25)

备注: 8 pages, 6 figures. Code and datasets available at http://autofocus-il.github.io/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

AutoFocus-IL：基于VLM显著性图的数据高效视觉模仿学习，无需额外人工标注

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视觉模仿学习 显著性正则化 视觉语言模型 行为克隆 数据高效学习

📋 核心要点

现有视觉模仿学习方法依赖昂贵的人工标注或人类视线数据进行显著性正则化，限制了数据效率和泛化能力。
AutoFocus-IL利用视觉语言模型自动生成时间显著性图，引导策略关注任务相关特征，抑制干扰，无需额外人工标注。
实验表明，AutoFocus-IL在CARLA模拟器和真实机器人操作任务中，优于标准行为克隆和依赖人类监督的基线方法。

📝 摘要（中文）

AutoFocus-IL是一种简单而有效的方法，旨在通过引导策略关注任务相关的特征而非干扰因素和虚假相关性，从而提高视觉模仿学习中的数据效率和泛化能力。虽然显著性正则化已成为实现这一目标的一种有前景的方法，但现有方法通常需要昂贵的监督，例如人类视线数据或手动显著性标注。相比之下，AutoFocus-IL利用视觉语言模型（VLM）自动识别和跟踪演示中的关键对象，生成时间显著性图，突出显示因果视觉信号，同时抑制干扰因素。然后，这些图用于正则化行为克隆策略，从而增强视觉注意力和任务相关线索之间的一致性。在CARLA模拟器和真实机器人操作任务中的实验表明，AutoFocus-IL不仅优于标准行为克隆，而且超越了最先进的基线方法，这些基线方法假定可以特权访问人类监督，例如视线数据。

🔬 方法详解

问题定义：视觉模仿学习旨在让智能体通过观察人类或其他智能体的演示来学习行为策略。然而，现有方法容易受到干扰因素和虚假相关性的影响，导致数据效率低下和泛化能力差。现有的显著性正则化方法虽然可以引导策略关注任务相关特征，但通常需要昂贵的人工标注或人类视线数据，限制了其应用范围。

核心思路：AutoFocus-IL的核心思路是利用视觉语言模型（VLM）的强大能力，自动生成时间显著性图，无需额外的人工标注。通过VLM识别和跟踪演示中的关键对象，并生成相应的显著性图，从而引导行为克隆策略关注任务相关的视觉信号，抑制干扰因素。

技术框架：AutoFocus-IL的整体框架包括以下几个主要步骤：1) 使用视觉语言模型（如CLIP）处理演示视频，识别和跟踪关键对象。2) 基于对象跟踪结果，生成时间显著性图，突出显示与任务相关的视觉区域。3) 使用生成的显著性图对行为克隆策略进行正则化，鼓励策略关注显著区域，忽略干扰因素。4) 使用正则化后的策略进行训练，最终得到一个能够有效模仿演示行为的智能体。

关键创新：AutoFocus-IL最重要的技术创新在于利用视觉语言模型自动生成显著性图，无需额外的人工标注。这与现有方法依赖昂贵的人工监督形成了鲜明对比，大大提高了数据效率和泛化能力。此外，AutoFocus-IL还提出了一种有效的时间显著性图生成方法，能够准确地捕捉任务相关的视觉信号。

关键设计：AutoFocus-IL的关键设计包括：1) 使用CLIP等预训练的视觉语言模型，以获得强大的视觉特征表示能力。2) 设计了一种基于对象跟踪的时间显著性图生成算法，能够准确地捕捉任务相关的视觉区域。3) 使用L1损失或KL散度等正则化项，鼓励行为克隆策略关注显著区域，忽略干扰因素。具体参数设置需要根据具体任务进行调整。

📊 实验亮点

AutoFocus-IL在CARLA模拟器和真实机器人操作任务中取得了显著的实验结果。在CARLA中，AutoFocus-IL优于标准行为克隆和其他基线方法，包括那些使用人类视线数据的基线方法。在真实机器人操作任务中，AutoFocus-IL也表现出优越的性能，证明了其在实际场景中的有效性。实验结果表明，AutoFocus-IL能够有效地引导策略关注任务相关特征，抑制干扰因素，从而提高数据效率和泛化能力。

🎯 应用场景

AutoFocus-IL可应用于各种视觉模仿学习任务，例如机器人操作、自动驾驶、游戏AI等。该方法无需额外的人工标注，降低了数据收集成本，提高了数据效率和泛化能力，有望推动视觉模仿学习在实际场景中的广泛应用。未来，可以探索将AutoFocus-IL与其他模仿学习方法相结合，进一步提高性能。

📄 摘要（原文）

AutoFocus-IL is a simple yet effective method to improve data efficiency and generalization in visual imitation learning by guiding policies to attend to task-relevant features rather than distractors and spurious correlations. Although saliency regularization has emerged as a promising way to achieve this, existing approaches typically require costly supervision such as human gaze data or manual saliency annotations. In contrast, AutoFocus-IL leverages vision-language models (VLMs) to automatically identify and track key objects in demonstrations, generating temporal saliency maps that highlight causal visual signals while suppressing distractors. These maps are then used to regularize behavior cloning policies, yielding stronger alignment between visual attention and task-relevant cues. Experiments in both the CARLA simulator and real-robot manipulation tasks demonstrate that AutoFocus-IL not only outperforms standard behavior cloning but also surpasses state-of-the-art baselines that assume privileged access to human supervision, such as gaze data. Code, datasets, and trained policy videos are available at https://AutoFocus-IL.github.io/.

AutoFocus-IL: VLM-based Saliency Maps for Data-Efficient Visual Imitation Learning without Extra Human Annotations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册