AnywhereVLA: Language-Conditioned Exploration and Mobile Manipulation

📄 arXiv: 2509.21006v1 📥 PDF

作者: Konstantin Gubernatorov, Artem Voronov, Roman Voronov, Sergei Pasynkov, Stepan Perminov, Ziang Guo, Dzmitry Tsetserukou

分类: cs.RO, cs.AI

发布日期: 2025-09-25


💡 一句话要点

AnywhereVLA:面向复杂环境的语言条件移动操作框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 移动操作 视觉语言操作 SLAM 任务规划 机器人

📋 核心要点

  1. 现有移动操作方法在复杂、动态环境中泛化能力不足,难以处理自然语言指令。
  2. AnywhereVLA将经典SLAM与视觉语言操作相结合,利用任务图驱动探索和操作规划。
  3. 实验表明,该系统在真实环境中实现了较高的任务成功率,并保持了实时性能。

📝 摘要(中文)

AnywhereVLA是一个模块化的移动操作框架,用于在未知的、不可预测的室内环境中执行自然语言引导的抓取和放置任务。用户输入的文本提示被解析为结构化的任务图,用于调节基于激光雷达和相机的经典SLAM、度量语义地图以及任务感知的边界探索策略。然后,方法规划器选择考虑可见性和可达性的预抓取基座姿态。在交互方面,紧凑型SmolVLA操作头在TheRobotStudio的SO-101平台上进行微调,以适应抓取和放置轨迹,从而将局部视觉上下文和子目标融入到抓取和放置方案中。整个系统完全在消费级硬件上运行,Jetson Orin NX用于感知和VLA,Intel NUC用于SLAM、探索和控制,从而保持实时运行。我们在静态场景和正常人体运动下的多房间实验室中评估了AnywhereVLA。在这种设置下,系统实现了46%的总体任务成功率,同时保持了嵌入式计算的吞吐量。通过将经典堆栈与微调的VLA操作相结合,该系统继承了几何导航的可靠性以及语言条件操作的敏捷性和任务泛化能力。

🔬 方法详解

问题定义:论文旨在解决在复杂、未知的室内环境中,机器人如何根据自然语言指令完成抓取和放置任务的问题。现有方法通常依赖于预定义的地图或环境,难以适应动态变化的环境,并且缺乏对自然语言指令的理解和泛化能力。

核心思路:论文的核心思路是将经典的SLAM导航技术与视觉语言操作(VLA)相结合,利用自然语言指令生成任务图,驱动机器人的探索和操作规划。通过任务图,机器人可以理解任务目标,并根据环境信息自主地规划路径和操作步骤。

技术框架:AnywhereVLA框架主要包含以下几个模块:1) 文本解析模块:将用户输入的自然语言指令解析为结构化的任务图。2) SLAM与度量语义地图构建模块:利用激光雷达和相机构建环境的度量语义地图。3) 任务感知的边界探索模块:根据任务图和环境地图,自主地探索未知的区域。4) 操作规划模块:选择考虑可见性和可达性的预抓取基座姿态。5) VLA操作模块:利用微调的SmolVLA操作头,根据局部视觉上下文和子目标,完成抓取和放置操作。

关键创新:该论文的关键创新在于将经典的SLAM导航技术与视觉语言操作相结合,实现了一种能够在复杂、动态环境中执行自然语言指令的移动操作框架。通过任务图驱动的探索和操作规划,机器人可以更好地理解任务目标,并根据环境信息自主地完成任务。

关键设计:在VLA操作模块中,作者对紧凑型SmolVLA操作头进行了微调,使其能够更好地适应抓取和放置轨迹。此外,作者还设计了一种任务感知的边界探索策略,该策略能够根据任务图和环境地图,自主地探索未知的区域,从而提高任务完成的效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AnywhereVLA在多房间实验室环境中进行了评估,实现了46%的总体任务成功率。该系统能够在消费级硬件上实时运行,证明了其在实际应用中的可行性。此外,该系统还能够处理静态场景和正常人体运动,表明其具有一定的鲁棒性。

🎯 应用场景

AnywhereVLA具有广泛的应用前景,例如家庭服务机器人、仓库自动化、医疗辅助机器人等。该技术可以使机器人更好地理解人类的指令,并在复杂、动态的环境中自主地完成任务,从而提高工作效率和服务质量。未来,该技术有望应用于更广泛的领域,例如灾难救援、太空探索等。

📄 摘要(原文)

We address natural language pick-and-place in unseen, unpredictable indoor environments with AnywhereVLA, a modular framework for mobile manipulation. A user text prompt serves as an entry point and is parsed into a structured task graph that conditions classical SLAM with LiDAR and cameras, metric semantic mapping, and a task-aware frontier exploration policy. An approach planner then selects visibility and reachability aware pre grasp base poses. For interaction, a compact SmolVLA manipulation head is fine tuned on platform pick and place trajectories for the SO-101 by TheRobotStudio, grounding local visual context and sub-goals into grasp and place proposals. The full system runs fully onboard on consumer-level hardware, with Jetson Orin NX for perception and VLA and an Intel NUC for SLAM, exploration, and control, sustaining real-time operation. We evaluated AnywhereVLA in a multi-room lab under static scenes and normal human motion. In this setting, the system achieves a $46\%$ overall task success rate while maintaining throughput on embedded compute. By combining a classical stack with a fine-tuned VLA manipulation, the system inherits the reliability of geometry-based navigation with the agility and task generalization of language-conditioned manipulation.