Pre-VLA: Preemptive Runtime Verification for Reliable Vision-Language-Action and World-Model Rollouts

作者: Zhen Sun, Yongjian Guo, Haoran Sun, Luqiao Wang, Wei Lu, Jiachi Ji, Shengzhe Ji, Junwu Xiong, Zhijun Meng

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-05-21

💡 一句话要点

Pre-VLA：面向VLA模型和世界模型的可靠性，提出抢占式运行时验证架构。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 运行时验证 视觉-语言-动作模型 世界模型 具身智能 抢占式重采样

📋 核心要点

VLA模型和世界模型面临动作生成不确定性带来的挑战，可能导致物理失败或误导性推演。
Pre-VLA通过运行时验证，在执行前评估动作有效性，过滤低质量动作并自适应重采样。
实验表明，Pre-VLA提升了闭环成功率，减少了执行步骤，并减轻了世界模型推演中的误差累积。

📝 摘要（中文）

大型视觉-语言-动作（VLA）模型和生成式世界模型（WM）在长时程具身智能方面取得了进展，但学习型动作生成的不确定性仍然是实际部署的挑战。低质量的动作可能导致执行期间的物理故障，或导致具有冗余渲染成本的误导性世界模型推演。为了解决这个问题，我们提出了Pre-VLA，一种统一的运行时验证架构，在物理执行或世界模型想象之前执行抢占式动作有效性评估。Pre-VLA利用高效的多模态骨干网络，结合模态感知池化和一个轻量级的双分支头，来预测候选动作块的安全置信度和评论家导出的优势分数。为了处理严重的类别不平衡和不稳定的边界决策，我们使用多任务目标训练Pre-VLA，该目标结合了Focal分类、优势回归和软阈值校准。在部署期间，双模抢占式重采样调度器过滤低质量的动作，并在有限的计算预算下触发自适应重采样。在LIBERO基准测试上的实验表明，Pre-VLA在四个套件上的平均闭环成功率从RynnVLA-002的30.79％提高到37.62％，减少了任务执行步骤，实现了每个动作块183.9毫秒的平均前向验证时间，并减轻了世界模型推演中的误差累积。

🔬 方法详解

问题定义：现有的大型视觉-语言-动作模型（VLA）和生成式世界模型（WM）在长时程具身智能任务中，由于学习型动作生成的不确定性，容易产生低质量的动作。这些低质量的动作可能导致实际执行中的物理失败，或者在世界模型推演中产生误导性的结果，并带来不必要的计算开销。因此，如何提高VLA模型和世界模型在实际部署中的可靠性是一个关键问题。

核心思路：Pre-VLA的核心思路是在动作执行或世界模型推演之前，对候选动作进行抢占式的有效性评估。通过预测动作的安全置信度和优势分数，Pre-VLA能够识别并过滤掉低质量的动作，从而避免潜在的物理失败或误导性推演。这种方法类似于安全机制中的“预警”系统，能够在问题发生之前进行干预。

技术框架：Pre-VLA的整体架构包含以下几个主要模块：1) 多模态骨干网络：用于提取视觉和语言信息的特征表示。2) 模态感知池化：用于融合不同模态的特征。3) 双分支头部：用于预测动作的安全置信度和优势分数。4) 抢占式重采样调度器：用于根据预测结果过滤低质量动作并触发自适应重采样。整个流程是，首先通过多模态骨干网络提取特征，然后通过模态感知池化进行融合，接着通过双分支头部预测动作的质量，最后通过抢占式重采样调度器进行动作过滤和重采样。

关键创新：Pre-VLA的关键创新在于其统一的运行时验证架构，该架构能够同时评估动作的安全性和优势，并根据评估结果进行抢占式的干预。与传统的后验式验证方法不同，Pre-VLA能够在问题发生之前就进行预防，从而提高了系统的可靠性。此外，Pre-VLA还采用了多任务学习方法，结合了Focal分类、优势回归和软阈值校准，以解决类别不平衡和边界决策不稳定的问题。

关键设计：Pre-VLA的关键设计包括：1) 多模态骨干网络的选择，需要能够高效地提取视觉和语言信息。2) 模态感知池化的设计，需要能够有效地融合不同模态的特征。3) 双分支头部的设计，需要能够准确地预测动作的安全置信度和优势分数。4) 损失函数的设计，采用了多任务学习方法，结合了Focal分类、优势回归和软阈值校准。5) 抢占式重采样调度器的设计，需要在有限的计算预算下，平衡动作过滤和重采样的效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Pre-VLA在LIBERO基准测试的四个套件上，相较于RynnVLA-002，平均闭环成功率从30.79%提升至37.62%。同时，Pre-VLA还减少了任务执行步骤，并实现了每个动作块183.9毫秒的平均前向验证时间。这些数据表明，Pre-VLA能够在保证实时性的前提下，显著提高VLA模型和世界模型的可靠性。

🎯 应用场景

Pre-VLA技术可应用于各种需要高可靠性的具身智能任务中，例如机器人导航、自动驾驶、智能制造等。通过在动作执行前进行验证，可以有效避免潜在的物理损坏和安全风险，提高系统的稳定性和安全性。此外，该技术还可以应用于虚拟环境中的模拟和训练，减少不必要的计算开销，提高训练效率。未来，Pre-VLA有望成为具身智能系统中的关键组成部分。

📄 摘要（原文）

While large vision-language-action (VLA) models and generative world models (WM) have advanced long-horizon embodied intelligence, their practical deployment remains challenged by uncertainty in learning-based action generation. Low-quality actions may cause physical failures during execution or lead to misleading world-model rollouts with redundant rendering costs. To address this issue, we propose Pre-VLA, a unified runtime verification architecture that performs preemptive action validity assessment before physical execution or world-model imagination. Pre-VLA leverages an efficient multimodal backbone with modality-aware pooling and a lightweight dual-branch head to predict both safety confidence and critic-derived advantage scores for candidate action chunks. To handle severe class imbalance and unstable boundary decisions, we train Pre-VLA with a multi-task objective combining Focal classification, advantage regression, and soft-threshold calibration. During deployment, a dual-mode preemptive resampling scheduler filters low-quality actions and triggers adaptive resampling under a limited computation budget. Experiments on the LIBERO benchmark show that Pre-VLA improves the average closed-loop success rate across four suites from 30.79\% to 37.62\% over RynnVLA-002, reduces task execution steps, achieves 183.9 ms average forward verification time per action chunk, and mitigates error accumulation in world-model rollouts.

Pre-VLA: Preemptive Runtime Verification for Reliable Vision-Language-Action and World-Model Rollouts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理