AnywhereVLA: Language-Conditioned Exploration and Mobile Manipulation
作者: Konstantin Gubernatorov, Artem Voronov, Roman Voronov, Sergei Pasynkov, Stepan Perminov, Ziang Guo, Dzmitry Tsetserukou
分类: cs.RO, cs.AI
发布日期: 2025-09-25
💡 一句话要点
AnywhereVLA:面向未见环境的语言条件移动操作框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 移动操作 自然语言引导 SLAM 视觉语言模型 任务图 机器人 自主探索
📋 核心要点
- 现有移动操作方法在复杂、未知的室内环境中,难以实现自然语言引导的可靠操作。
- AnywhereVLA框架结合经典SLAM与视觉语言模型,利用任务图驱动探索和操作,提升泛化性。
- 实验表明,AnywhereVLA在真实场景中实现了46%的任务成功率,验证了其有效性和实时性。
📝 摘要(中文)
AnywhereVLA是一个模块化的移动操作框架,用于解决在未见过的、不可预测的室内环境中进行自然语言引导的拾取和放置任务。用户文本提示作为入口,被解析成结构化的任务图,用于调节基于激光雷达和相机的经典SLAM、度量语义地图以及任务感知的边界探索策略。然后,方法规划器选择可见性和可达性感知的预抓取基位姿。对于交互,一个紧凑的SmolVLA操作头在TheRobotStudio的SO-101平台上进行微调,用于平台拾取和放置轨迹,将局部视觉上下文和子目标融入到抓取和放置提议中。整个系统完全在消费级硬件上运行,Jetson Orin NX用于感知和VLA,Intel NUC用于SLAM、探索和控制,保持实时运行。我们在静态场景和正常人体运动下的多房间实验室中评估了AnywhereVLA。在这种设置下,系统实现了46%的总体任务成功率,同时保持了嵌入式计算的吞吐量。通过将经典堆栈与微调的VLA操作相结合,该系统继承了几何导航的可靠性以及语言条件操作的敏捷性和任务泛化能力。
🔬 方法详解
问题定义:论文旨在解决在复杂、未知的室内环境中,如何实现自然语言引导的移动操作任务,例如“把苹果从厨房拿到卧室”。现有方法通常依赖于预定义的地图或环境,泛化能力较差,难以适应动态变化的环境。此外,将自然语言指令转化为可执行的机器人动作也面临挑战。
核心思路:AnywhereVLA的核心思路是将自然语言指令解析为结构化的任务图,并利用该任务图来指导机器人的探索、导航和操作。通过结合经典的SLAM和度量语义地图构建,以及任务感知的边界探索策略,机器人能够自主地探索未知环境,并找到合适的抓取和放置位置。同时,利用微调的VLA操作头,将局部视觉上下文和子目标融入到抓取和放置提议中,提高操作的成功率。
技术框架:AnywhereVLA框架主要包含以下几个模块:1) 任务图解析器:将用户输入的自然语言指令解析为结构化的任务图。2) SLAM和度量语义地图构建:利用激光雷达和相机数据构建环境的SLAM地图和度量语义地图。3) 任务感知的边界探索策略:根据任务图,自主地探索未知环境,寻找目标物体和放置位置。4) 方法规划器:选择可见性和可达性感知的预抓取基位姿。5) VLA操作头:执行抓取和放置操作。整个系统在Jetson Orin NX和Intel NUC上运行,实现实时操作。
关键创新:AnywhereVLA的关键创新在于将经典的SLAM和度量语义地图构建与视觉语言模型相结合,利用任务图来驱动机器人的探索和操作。这种方法不仅提高了机器人在未知环境中的自主导航能力,还增强了其对自然语言指令的理解和执行能力。此外,通过微调VLA操作头,将局部视觉上下文融入到抓取和放置提议中,提高了操作的成功率。
关键设计:任务图解析器的具体实现细节未知。任务感知的边界探索策略可能使用了强化学习或基于规则的方法。VLA操作头的微调使用了平台拾取和放置轨迹,损失函数和网络结构未知。系统在Jetson Orin NX上运行感知和VLA,在Intel NUC上运行SLAM、探索和控制。
📊 实验亮点
AnywhereVLA在多房间实验室环境中进行了评估,实现了46%的总体任务成功率。该系统在消费级硬件上运行,保持了嵌入式计算的吞吐量,验证了其在实际应用中的可行性。与传统的基于几何的导航方法相比,AnywhereVLA具有更强的泛化能力和对自然语言指令的理解能力。
🎯 应用场景
AnywhereVLA具有广泛的应用前景,例如家庭服务机器人、仓库自动化、医疗辅助机器人等。它可以帮助机器人在复杂、动态的环境中自主地完成各种任务,例如物品拾取、整理、清洁等,从而提高工作效率和生活质量。未来,该技术有望应用于更广泛的领域,例如灾难救援、太空探索等。
📄 摘要(原文)
We address natural language pick-and-place in unseen, unpredictable indoor environments with AnywhereVLA, a modular framework for mobile manipulation. A user text prompt serves as an entry point and is parsed into a structured task graph that conditions classical SLAM with LiDAR and cameras, metric semantic mapping, and a task-aware frontier exploration policy. An approach planner then selects visibility and reachability aware pre grasp base poses. For interaction, a compact SmolVLA manipulation head is fine tuned on platform pick and place trajectories for the SO-101 by TheRobotStudio, grounding local visual context and sub-goals into grasp and place proposals. The full system runs fully onboard on consumer-level hardware, with Jetson Orin NX for perception and VLA and an Intel NUC for SLAM, exploration, and control, sustaining real-time operation. We evaluated AnywhereVLA in a multi-room lab under static scenes and normal human motion. In this setting, the system achieves a $46\%$ overall task success rate while maintaining throughput on embedded compute. By combining a classical stack with a fine-tuned VLA manipulation, the system inherits the reliability of geometry-based navigation with the agility and task generalization of language-conditioned manipulation.