FORGE-Tree: Diffusion-Forcing Tree Search for Long-Horizon Robot Manipulation

📄 arXiv: 2510.21744v1 📥 PDF

作者: Yanjia Huang, Shuo Liu, Sheng Liu, Qingxiao Xu, Mingyang Wu, Xiangbo Gao, Zhengzhong Tu

分类: cs.RO

发布日期: 2025-10-07

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出FORGE-Tree,通过扩散强制树搜索解决长时程机器人操作中的漂移和暴露偏差问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长时程机器人操作 视觉-语言-动作策略 扩散模型 蒙特卡洛树搜索 轨迹优化 局部编辑 场景图 机器人控制

📋 核心要点

  1. 长时程机器人操作任务中,VLA策略易受漂移和暴露偏差影响,导致误差累积。
  2. FORGE-Tree通过阶段对齐的扩散强制和蒙特卡洛树扩散,实现轨迹的局部编辑和优化。
  3. 在LIBERO数据集上,FORGE-Tree相比现有VLA基线,成功率提升了13.4%到17.2%。

📝 摘要(中文)

长时程机器人操作任务对视觉-语言-动作(VLA)策略来说仍然具有挑战性,因为存在漂移和暴露偏差。现有方法通常使用固定的超参数对整个轨迹进行去噪,导致小的几何误差在各个阶段累积,并且没有机制在间隙较小的地方分配额外的测试时计算资源。为了解决这些挑战,我们引入了FORGE-Tree,一个插件控制层,它将阶段对齐的扩散强制(DF)头与测试时蒙特卡洛树扩散(MCTD)相结合。在冻结VLA编码器的情况下,DF将时间步与子任务阶段对齐;在推理过程中,我们只部分地对目标段进行去噪,同时保持其他token冻结,从而将轨迹细化转化为一系列局部编辑。然后,我们应用蒙特卡洛树扩散来选择下一个要细化的段。场景图为扩展提供先验,并为rollout提供几何关系感知的评分,从而产生树状结构的去噪,其性能随搜索预算的增加而扩展,同时保留已执行的前缀。在LIBERO上的评估表明,FORGE-Tree在OpenVLA和Octo-Base两种基线上,成功率提高了13.4到17.2个百分点。在可比的计算预算下,尤其是在长时程变体上,增益保持一致。

🔬 方法详解

问题定义:现有VLA策略在长时程机器人操作任务中面临漂移和暴露偏差问题,导致小误差在时间序列上累积,最终影响任务成功率。此外,现有方法通常采用全局去噪策略,无法根据任务的难易程度动态分配计算资源,效率较低。

核心思路:FORGE-Tree的核心思路是将长时程轨迹优化分解为一系列局部编辑任务。通过扩散强制(DF)头将时间步与子任务阶段对齐,并利用蒙特卡洛树扩散(MCTD)选择需要细化的轨迹段。这种局部优化策略能够有效控制误差累积,并允许根据需要动态分配计算资源。

技术框架:FORGE-Tree包含一个冻结的VLA编码器、一个阶段对齐的扩散强制(DF)头和一个蒙特卡洛树扩散(MCTD)模块。首先,DF头将时间步与子任务阶段对齐。然后,MCTD模块利用场景图提供的先验知识,对轨迹进行树状搜索,选择需要细化的轨迹段。最后,DF头对选定的轨迹段进行局部去噪,完成轨迹优化。

关键创新:FORGE-Tree的关键创新在于将扩散模型与蒙特卡洛树搜索相结合,实现了一种高效的局部轨迹优化策略。与传统的全局去噪方法相比,FORGE-Tree能够有效控制误差累积,并根据任务的难易程度动态分配计算资源。此外,场景图的引入为MCTD提供了有用的先验知识,提高了搜索效率。

关键设计:DF头的设计关键在于如何将时间步与子任务阶段对齐。论文采用了一种阶段对齐的损失函数,鼓励模型学习将时间步与对应的子任务阶段相关联。MCTD模块的设计关键在于如何利用场景图提供的先验知识进行有效的树状搜索。论文采用了一种几何关系感知的评分函数,用于评估不同轨迹段的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FORGE-Tree在LIBERO数据集上进行了评估,结果表明,相比于OpenVLA和Octo-Base两种基线,FORGE-Tree的成功率分别提高了13.4%和17.2%。在可比的计算预算下,尤其是在长时程变体上,FORGE-Tree的性能提升仍然显著,验证了该方法的有效性。

🎯 应用场景

FORGE-Tree可应用于各种长时程机器人操作任务,例如家庭服务机器人、工业自动化机器人等。该方法能够提高机器人在复杂环境中的操作成功率和效率,具有重要的实际应用价值。未来,该方法可以进一步扩展到更复杂的任务和环境,例如多机器人协作、未知环境探索等。

📄 摘要(原文)

Long-horizon robot manipulation tasks remain challenging for Vision-Language-Action (VLA) policies due to drift and exposure bias, often denoise the entire trajectory with fixed hyperparameters, causing small geometric errors to compound across stages and offering no mechanism to allocate extra test-time compute where clearances are tight. To address these challenges, we introduce FORGE-Tree, a plug-in control layer that couples a stage-aligned Diffusion Forcing (DF) head with test-time Monte Carlo Tree Diffusion (MCTD). With a frozen VLA encoder, DF aligns timesteps to subtask stages; during inference we partially denoise only a target segment while keeping other tokens frozen, turning trajectory refinement into a sequence of local edits. We then apply Monte Carlo Tree Diffusion to select the next segment to refine. A scene graph supplies priors for expansion and geometry relation-aware scoring for rollouts, yielding tree-structured denoising whose performance scales with search budget while preserving the executed prefix. Evaluation on LIBERO, FORGE-Tree improves success rate by 13.4 to 17.2 pp over the native VLA baselines with both OpenVLA and Octo-Base. Gains remain consistent under comparable compute budgets, especially on long-horizon variants. Videos available at: https://taco-group.github.io/FORGE-Tree/