TAVIS: A Benchmark for Egocentric Active Vision and Anticipatory Gaze in Imitation Learning

📄 arXiv: 2605.07943v1 📥 PDF

作者: Giacomo Spigler

分类: cs.RO, cs.AI, cs.CV, cs.LG

发布日期: 2026-05-08

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

提出TAVIS基准测试框架,量化评估具身智能中的主动视觉与预测性注视能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 具身智能 主动视觉 模仿学习 预测性注视 机器人基准测试 多模态感知

📋 核心要点

  1. 现有模仿学习缺乏统一的基准,难以量化主动视觉在不同任务类型及环境条件下的实际贡献与性能边界。
  2. 提出TAVIS基准框架,通过Head与Hands两套任务套件,结合IsaacLab仿真环境,系统性评估主动视觉策略。
  3. 实验揭示了主动视觉的条件性收益,并验证了模仿学习策略具备产生类人预测性注视的能力,为具身智能提供了量化指标。

📝 摘要(中文)

主动视觉(即策略在操作过程中自主控制视线)已成为模仿学习的关键能力。然而,目前缺乏统一的基准来量化主动视觉在不同任务和条件下的贡献。本文提出了TAVIS,这是一个用于主动视觉模仿学习的评估基础设施。TAVIS包含两套互补的任务套件:TAVIS-Head(通过云台实现全局搜索)和TAVIS-Hands(通过腕部相机解决局部遮挡),并基于IsaacLab在GR1T2和Reachy2两种人形躯干上构建。TAVIS提供了三种评估原语:固定相机与主动相机的配对协议、基于认知科学的预测性注视指标GALT,以及程序化的ID/OOD划分。基线实验表明,主动视觉的收益具有任务依赖性,多任务策略在分布偏移下性能显著下降,且模仿学习能够自发产生与人类操作员相当的预测性注视行为。

🔬 方法详解

问题定义:论文旨在解决具身智能中“主动视觉”缺乏标准化评估的问题。现有研究多为孤立的系统演示,缺乏统一的基准来衡量策略在自主控制视线时的有效性、鲁棒性以及预测性注视的质量。

核心思路:通过构建包含全局搜索(Head)与局部遮挡(Hands)两类场景的基准,引入认知科学中的注视指标,对比主动视觉与固定视角策略,从而揭示主动视觉在模仿学习中的真实价值。

技术框架:TAVIS基于IsaacLab仿真环境,支持GR1T2和Reachy2人形机器人。框架包含任务生成器、配对评估协议、以及用于分析注视行为的GALT指标计算模块,支持对Diffusion Policy和π₀等主流算法的标准化测试。

关键创新:引入了GALT(Gaze-Action Lead Time)指标,该指标借鉴认知科学与人机交互领域,量化了策略在执行动作前注视目标的提前量,是衡量机器人“预测性行为”的首个量化标准。

关键设计:采用配对评估协议(Paired Headcam-vs-Fixedcam),确保在完全相同的演示数据下对比不同视觉策略;同时设计了程序化的ID/OOD数据划分,用于评估策略在分布偏移下的泛化能力与多任务学习的退化现象。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验表明,主动视觉在特定任务中具有显著优势,但并非所有任务均能获益。研究发现,模仿学习策略能够自发产生预测性注视,其GALT中位数与人类操作员相当。此外,实验揭示了多任务策略在受控分布偏移下性能会发生剧烈退化,为后续提升策略鲁棒性提供了重要参考。

🎯 应用场景

该研究主要应用于人形机器人与具身智能领域,特别是在复杂操作任务(如精细装配、动态环境交互)中。其评估框架可用于指导机器人感知系统的设计,优化主动视觉策略的训练,并为开发更具预测性、类人化的自主机器人提供标准化的性能度量工具。

📄 摘要(原文)

Active vision -- where a policy controls its own gaze during manipulation -- has emerged as a key capability for imitation learning, with multiple independent systems demonstrating its benefits in the past year. Yet there is no shared benchmark to compare approaches or quantify what active vision contributes, on which task types, and under what conditions. We introduce TAVIS, evaluation infrastructure for active-vision imitation learning, with two complementary task suites -- TAVIS-Head (5 tasks, global search via pan/tilt necks) and TAVIS-Hands (3 tasks, local occlusion via wrist cameras) -- on two humanoid torso embodiments (GR1T2, Reachy2), built on IsaacLab. TAVIS provides three evaluation primitives: a paired headcam-vs-fixedcam protocol on identical demonstrations; GALT (Gaze-Action Lead Time), a novel metric grounded in cognitive science and HRI that quantifies anticipatory gaze in learned policies; and procedural ID/OOD splits. Baseline experiments with Diffusion Policy and $π_0$ reveal that (i) active-vision generally helps, but benefits are task-conditional rather than uniform; (ii) multi-task policies degrade sharply under controlled distribution shifts on both suites; and (iii) imitation alone yields anticipatory gaze, with median lead times comparable to the human teleoperator reference. Code, evaluation scripts, demonstrations (LeRobot v3.0; ~2200 episodes) and trained baselines are released at https://github.com/spiglerg/tavis and https://huggingface.co/tavis-benchmark.