Look, Zoom, Understand: The Robotic Eyeball for Embodied Perception

📄 arXiv: 2511.15279 📥 PDF

作者: Jiashu Yang, Yifan Han, Yucheng Xie, Ning Guo, Wenzhao Lian

分类: cs.RO, cs.CV

发布日期: 2026-04-06


💡 一句话要点

提出EyeVLA,解决具身智能中语言引导的主动视觉感知问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 主动视觉感知 视觉-语言模型 强化学习 机器人控制

📋 核心要点

  1. 现有视觉模型难以兼顾广域场景理解和细节捕捉,限制了其在开放世界机器人应用中的能力。
  2. EyeVLA通过集成视觉、语言和动作,利用自回归模型预测PTZ相机控制,实现主动视觉感知。
  3. 该方法仅需少量真实数据,即可将预训练VLM的知识迁移到具身智能体,并取得了显著的性能提升。

📝 摘要(中文)

在具身人工智能中,视觉感知应该是主动的而非被动的:系统必须决定观察哪里以及以何种尺度进行感知,以便在像素和空间预算约束下获取最大信息量的数据。现有的视觉模型与固定的RGB-D相机相结合,无法兼顾广域覆盖和细粒度细节获取,严重限制了它们在开放世界机器人应用中的有效性。本文研究了语言引导的主动视觉感知任务:给定单个RGB图像和自然语言指令,智能体必须输出真实PTZ(云台-倾斜-变焦)相机的平移、倾斜和变焦调整,以获取指定任务的最具信息量的视图。我们提出了EyeVLA,一个统一的框架,通过将视觉感知、语言理解和物理相机控制集成到一个自回归视觉-语言-动作模型中来解决此任务。EyeVLA引入了一种语义丰富且高效的分层动作编码,它紧凑地标记连续相机调整,并将它们嵌入到VLM词汇表中以进行联合多模态推理。通过一个数据高效的流程,包括伪标签生成、迭代IoU控制的数据细化以及使用Group Relative Policy Optimization (GRPO) 的强化学习,我们仅使用500个真实世界样本将预训练VLM的开放世界理解转移到具身主动感知策略。在50个不同的真实世界场景中进行的五次独立评估运行表明,EyeVLA实现了平均96%的任务完成率。我们的工作为多模态具身系统中指令驱动的主动视觉信息获取建立了一种新的范例。

🔬 方法详解

问题定义:论文旨在解决具身智能中,如何根据自然语言指令,控制PTZ相机主动获取最有信息量的视觉数据的问题。现有方法通常依赖固定相机,无法在广阔场景中兼顾全局视野和局部细节,导致任务完成率低。

核心思路:论文的核心在于将视觉感知、语言理解和相机控制整合到一个统一的框架EyeVLA中。通过学习一个策略,根据输入的图像和指令,预测PTZ相机的平移、倾斜和变焦动作,从而主动地调整视角,获取更适合完成任务的视觉信息。这种主动感知的方式能够克服固定相机的局限性。

技术框架:EyeVLA采用自回归视觉-语言-动作模型。整体流程如下:1) 输入RGB图像和自然语言指令;2) 通过视觉编码器和语言编码器提取特征;3) 使用自回归解码器,依次预测PTZ相机的动作序列;4) 执行动作,更新视觉输入,重复步骤3,直到完成任务或达到最大步数。模型通过联合训练,学习视觉、语言和动作之间的关系。

关键创新:EyeVLA的关键创新在于:1) 提出了语义丰富且高效的分层动作编码,将连续的相机调整离散化为token,并嵌入到VLM词汇表中,便于联合多模态推理;2) 提出了一个数据高效的训练流程,包括伪标签生成、迭代IoU控制的数据细化和基于Group Relative Policy Optimization (GRPO) 的强化学习,仅需少量真实数据即可完成训练;3) 将预训练的视觉-语言模型(VLM)的知识迁移到具身智能体上,利用VLM的先验知识提升了模型的泛化能力。

关键设计:EyeVLA使用分层动作编码,将PTZ相机的连续动作空间离散化为多个层级,例如粗略的平移/倾斜调整和精细的变焦调整。损失函数包括模仿学习损失和强化学习奖励。强化学习部分使用了Group Relative Policy Optimization (GRPO),鼓励智能体探索不同的动作组合。数据增强方面,使用了IoU控制的数据细化方法,筛选出高质量的训练样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EyeVLA在50个真实场景中进行了评估,平均任务完成率达到96%。该方法仅使用500个真实世界样本进行训练,证明了其数据效率。实验结果表明,EyeVLA能够有效地利用预训练VLM的知识,并将其迁移到具身智能任务中,显著提升了主动视觉感知的性能。

🎯 应用场景

该研究成果可应用于各种需要主动视觉感知的机器人应用中,例如:智能安防监控、智能家居服务机器人、工业巡检机器人等。通过语言指令引导机器人主动调整视角,可以更高效地完成目标检测、物体识别、场景理解等任务,提升机器人的智能化水平和实用性。

📄 摘要(原文)

In embodied AI, visual perception should be active rather than passive: the system must decide where to look and at what scale to sense to acquire maximally informative data under pixel and spatial budget constraints. Existing vision models coupled with fixed RGB-D cameras fundamentally fail to reconcile wide-area coverage with fine-grained detail acquisition, severely limiting their efficacy in open-world robotic applications. We study the task of language-guided active visual perception: given a single RGB image and a natural language instruction, the agent must output pan, tilt, and zoom adjustments of a real PTZ (pan-tilt-zoom) camera to acquire the most informative view for the specified task. We propose EyeVLA, a unified framework that addresses this task by integrating visual perception, language understanding, and physical camera control within a single autoregressive vision-language-action model. EyeVLA introduces a semantically rich and efficient hierarchical action encoding that compactly tokenizes continuous camera adjustments and embeds them into the VLM vocabulary for joint multimodal reasoning. Through a data-efficient pipeline comprising pseudo-label generation, iterative IoU-controlled data refinement, and reinforcement learning with Group Relative Policy Optimization (GRPO), we transfer the open-world understanding of a pre-trained VLM to an embodied active perception policy using only 500 real-world samples. Evaluations on 50 diverse real-world scenes across five independent evaluation runs demonstrate that EyeVLA achieves an average task completion rate of 96%. Our work establishes a new paradigm for instruction-driven active visual information acquisition in multimodal embodied systems.