Real2Sim based on Active Perception with automatically VLM-generated Behavior Trees
作者: Alessandro Adami, Sebastian Zudaire, Ruggero Carli, Pietro Falco
分类: cs.RO
发布日期: 2026-01-13
💡 一句话要点
提出基于主动感知和VLM自动生成行为树的Real2Sim框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: Real2Sim 主动感知 行为树 视觉-语言模型 机器人交互
📋 核心要点
- 传统Real2Sim方法依赖手动测量或预编程探索,难以适应不同任务和用户意图。
- 该论文提出利用视觉-语言模型自动生成行为树,驱动机器人进行特定任务的物理交互,从而估计仿真所需参数。
- 实验表明,该方法可在多种场景下有效估计物体质量、表面高度和摩擦等参数,即使存在遮挡或模型不完整。
📝 摘要(中文)
构建精确的真实世界环境仿真模型需要可靠地估计物理参数,如质量、几何形状、摩擦和接触面。传统的Real2Sim流程依赖于手动测量或固定的、预编程的探索程序,这限制了它们对不同任务和用户意图的适应性。本文提出了一种Real2Sim框架,该框架自主生成并执行特定任务的物理交互行为树,以获取给定仿真目标所需的参数,而无需依赖预定义的任务模板或专家设计的探索程序。给定一个高级用户请求、一个不完整的仿真描述和一个场景的RGB观测,视觉-语言模型执行多模态推理,以识别相关对象,推断所需的物理参数,并生成由基本机器人动作组成的结构化行为树。生成的行为在扭矩控制的Franka Emika Panda上执行,从而实现顺从的、富含接触的交互以进行参数估计。获取的测量结果用于自动构建物理感知的仿真。在真实机械臂上的实验结果表明,在多个场景中,包括遮挡对象和不完整的先验模型,可以估计对象质量、表面高度和与摩擦相关的量。所提出的方法实现了可解释的、意图驱动的和自主的Real2Sim流程,将高级推理与物理基础的机器人交互联系起来。
🔬 方法详解
问题定义:现有Real2Sim方法依赖人工或预定义的探索策略,无法根据任务目标自适应地获取物理参数,导致仿真模型精度受限,且泛化能力不足。特别是对于复杂场景和用户特定需求,传统方法难以有效应对。
核心思路:利用视觉-语言模型(VLM)进行多模态推理,将用户意图、场景信息和不完整的仿真模型相结合,自动生成机器人行为树,指导机器人主动与环境交互,获取仿真所需的物理参数。这种方法避免了人工干预和预定义模板的限制,提高了Real2Sim的自适应性和智能化水平。
技术框架:该框架包含以下主要模块:1) VLM推理模块:接收用户请求、场景RGB图像和不完整的仿真描述,识别相关对象,推断所需物理参数。2) 行为树生成模块:根据VLM的推理结果,生成包含基本机器人动作的结构化行为树。3) 机器人执行模块:在扭矩控制的Franka Emika Panda机器人上执行行为树,进行接触丰富的物理交互。4) 参数估计模块:根据机器人交互过程中采集的数据,估计对象的物理参数。5) 仿真模型构建模块:利用估计的物理参数,自动构建物理感知的仿真模型。
关键创新:该方法的核心创新在于利用VLM自动生成机器人行为树,实现意图驱动的主动感知。与传统方法相比,该方法无需预定义任务模板或专家设计的探索程序,能够根据用户需求和场景特点自适应地生成交互策略,从而更有效地获取仿真所需的物理参数。
关键设计:VLM采用预训练的视觉-语言模型,通过微调使其能够理解用户意图,识别场景中的对象,并推断所需的物理参数。行为树采用模块化设计,包含一系列基本机器人动作,如移动、抓取、推动等。参数估计采用卡尔曼滤波等方法,根据机器人交互过程中采集的力、位移等数据,估计对象的质量、摩擦系数等参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够在多个场景下有效估计物体质量、表面高度和摩擦等参数,即使存在遮挡对象和不完整的先验模型。例如,在估计物体质量时,该方法能够达到较高的精度,并且能够处理不同形状和材质的物体。此外,该方法还能够根据用户意图,自适应地调整交互策略,从而更有效地获取所需的物理参数。
🎯 应用场景
该研究成果可应用于机器人仿真、虚拟环境构建、物理参数估计等领域。例如,可以用于快速构建机器人训练环境,提高机器人在真实世界中的适应性;也可以用于虚拟现实和增强现实应用,提供更逼真的物理交互体验;还可以用于工业自动化领域,实现对生产线设备的精确建模和控制。
📄 摘要(原文)
Constructing an accurate simulation model of real-world environments requires reliable estimation of physical parameters such as mass, geometry, friction, and contact surfaces. Traditional real-to-simulation (Real2Sim) pipelines rely on manual measurements or fixed, pre-programmed exploration routines, which limit their adaptability to varying tasks and user intents. This paper presents a Real2Sim framework that autonomously generates and executes Behavior Trees for task-specific physical interactions to acquire only the parameters required for a given simulation objective, without relying on pre-defined task templates or expert-designed exploration routines. Given a high-level user request, an incomplete simulation description, and an RGB observation of the scene, a vision-language model performs multi-modal reasoning to identify relevant objects, infer required physical parameters, and generate a structured Behavior Tree composed of elementary robotic actions. The resulting behavior is executed on a torque-controlled Franka Emika Panda, enabling compliant, contact-rich interactions for parameter estimation. The acquired measurements are used to automatically construct a physics-aware simulation. Experimental results on the real manipulator demonstrate estimation of object mass, surface height, and friction-related quantities across multiple scenarios, including occluded objects and incomplete prior models. The proposed approach enables interpretable, intent-driven, and autonomously Real2Sim pipelines, bridging high-level reasoning with physically-grounded robotic interaction.