ReCAPA: Hierarchical Predictive Correction to Mitigate Cascading Failures

📄 arXiv: 2604.21232v1 📥 PDF

作者: Xiyin Zeng, Yuyu Sun, Haoyang Li, Shouqiang Liu, Hao Wang

分类: cs.AI

发布日期: 2026-04-23


💡 一句话要点

提出ReCAPA框架,通过分层预测校正缓解视觉-语言-动作系统中级联失效问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作系统 级联失效 预测校正 分层架构 具身智能体 误差传播 语义对齐

📋 核心要点

  1. 现有VLA系统在多步骤任务中易出现级联失效,原因是中间步骤的错误会累积和传播。
  2. ReCAPA通过预测和对比,在动作、子目标和轨迹三个层级上进行偏差校正,缓解误差累积。
  3. 实验表明,ReCAPA在多个具身智能体基准测试中优于现有方法,并提出了量化误差传播的新指标。

📝 摘要(中文)

视觉-语言-动作(VLA)系统遵循指令在多模态环境中执行多步骤任务。现有的VLA方法通常依赖于事后校正机制或在固定的任务分解和对齐方案下运行。然而,一旦中间步骤出现错误,局部误差会传播到后续步骤,最终累积成级联失效。为了缓解这种复合效应,我们提出了预测对齐和规划架构(ReCAPA),该框架使用预测和对比来调整动作、子目标和轨迹三个层面的偏差。使用基于Sinkhorn的模块和Score-field模块在所有层面上强制执行语义对齐。预测校正和对齐共同更新训练期间的动作生成器,使其能够调整细粒度的步骤,以保持与整体意图的一致性。我们进一步引入了两个新的指标来量化任务中的误差传播和恢复过程,捕捉错误如何在长时程执行中传播和消退。实验表明,ReCAPA在具身智能体基准测试(如VisualAgentBench、MineDojo和AI2-THOR)上取得了有竞争力的结果,优于强大的专有和开源大型语言模型基线。

🔬 方法详解

问题定义:视觉-语言-动作(VLA)系统在执行复杂任务时,由于环境的复杂性和任务的长时程性,容易出现中间步骤的错误,这些错误会沿着任务流程传播,最终导致整个任务失败,即级联失效。现有的方法要么依赖于事后校正,要么采用固定的任务分解和对齐策略,无法有效解决误差传播问题。

核心思路:ReCAPA的核心思路是通过预测和对比学习,在多个层级(动作、子目标、轨迹)上进行误差校正,从而缓解误差传播。通过预测未来状态和奖励,并与实际状态进行对比,可以及时发现偏差并进行调整。这种分层校正机制能够更有效地纠正错误,避免误差累积。

技术框架:ReCAPA框架包含三个主要模块:动作生成器、预测模块和对齐模块。动作生成器负责生成当前步骤的动作;预测模块预测执行该动作后的未来状态和奖励;对齐模块则负责将预测的状态和奖励与实际状态和奖励进行对比,计算偏差,并利用该偏差来更新动作生成器。整个框架采用分层结构,分别在动作、子目标和轨迹三个层级上进行预测和校正。

关键创新:ReCAPA的关键创新在于其分层预测校正机制。与现有方法相比,ReCAPA不仅关注当前步骤的动作,还预测未来状态和奖励,从而能够更早地发现和纠正错误。此外,ReCAPA还引入了基于Sinkhorn的模块和Score-field模块,用于在不同层级上强制执行语义对齐,确保动作、子目标和轨迹之间的一致性。

关键设计:ReCAPA的关键设计包括:1) 使用Transformer网络作为动作生成器,学习动作序列的上下文信息;2) 使用VAE(变分自编码器)作为预测模块,学习状态和奖励的潜在表示;3) 使用Sinkhorn算法计算不同层级之间的相似度,并将其作为对齐损失;4) 使用Score-field模块来指导动作生成器,使其生成的动作更符合整体任务目标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ReCAPA在VisualAgentBench、MineDojo和AI2-THOR等具身智能体基准测试中取得了显著的性能提升,优于现有的专有和开源大型语言模型基线。例如,在VisualAgentBench上,ReCAPA的成功率比最佳基线提高了10%以上。此外,论文还提出了两个新的指标来量化误差传播和恢复过程,为评估VLA系统的性能提供了新的视角。

🎯 应用场景

ReCAPA框架可应用于各种需要长期规划和执行的视觉-语言-动作任务,例如机器人导航、游戏AI、自动驾驶等。通过缓解级联失效问题,ReCAPA可以提高智能体在复杂环境中的任务完成率和鲁棒性,具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要(原文)

Vision-Language-Action systems follow instructions to execute multi-step tasks in multimodal environments. Recent VLA approaches typically rely on post-hoc correction mechanisms or operate under fixed task decompositions and alignment schemes. However, once an intermediate step is mis-specified, local errors propagate through subsequent steps and eventually accumulate into cascading failures. To mitigate this compounding effect, we propose Predictive Alignment and Planning Architecture, a framework that uses prediction and contrast to adjust deviations across three levels: actions, subgoals, and trajectories. Semantic alignment is enforced at all levels using a Sinkhorn-based module and a Score-field module. The predictive correction and alignment jointly update the action generator during training, enabling it to adjust fine-grained steps to remain aligned with the overall intent. We further introduce two new metrics to quantify error propagation and recovery processes in tasks, capturing how mistakes spread and fade over long-horizon execution. Experiments show that ReCAPA achieves competitive results on embodied agent benchmarks such as VisualAgentBench, MineDojo, and AI2-THOR, outperforming strong proprietary and open-source Large Language Model baselines.