Sci-VLA: Agentic VLA Inference Plugin for Long-Horizon Tasks in Scientific Experiments

📄 arXiv: 2602.09430v1 📥 PDF

作者: Yiwen Pang, Bo Zhou, Changjin Li, Xuanhao Wang, Shengxiang Xu, Deng-Bao Wang, Min-Ling Zhang, Shimin Di

分类: cs.RO, cs.AI

发布日期: 2026-02-10


💡 一句话要点

提出Agentic VLA插件,解决科学实验中长时程任务的VLA模型推理难题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人实验室 视觉-语言-动作模型 长时程任务 大型语言模型 Agentic推理 科学实验 过渡推理

📋 核心要点

  1. 现有VLA模型难以处理科学实验中长时程任务,主要原因是训练时原子任务与推理时复合任务存在分布不匹配。
  2. 论文提出Agentic VLA推理插件,利用LLM进行过渡推理,生成过渡性机器人动作代码,弥补VLA模型的不足。
  3. 实验表明,该方法在模拟环境中将原子任务的平均成功率提高了42%,并可迁移到真实实验室。

📝 摘要(中文)

本文提出了一种用于科学实验中长时程任务的Agentic VLA推理插件。现有的视觉-语言-动作(VLA)模型在处理由多个原子任务组成的复杂科学实验时面临挑战。虽然针对科学任务微调的VLA模型可以可靠地执行训练期间见过的原子动作,但它们在执行由这些已知原子动作重新排序和组合而成的复合任务时常常失败。这种局限性源于训练时的原子任务和推理时的复合任务之间的分布不匹配,阻碍了VLA模型执行原子任务之间必要的过渡操作。为了解决这个问题,我们提出了一个基于LLM的agentic推理机制,通过执行显式的过渡推理并生成过渡性的机器人动作代码来引导VLA模型完成缺失的过渡步骤,从而无需任何额外的训练即可可靠地执行复合科学工作流程。在模拟环境中,验证了该方法在推理过程中将每个原子任务的平均成功率提高了42%。此外,该方法可以轻松地从模拟环境转移到真实的科学实验室。

🔬 方法详解

问题定义:现有VLA模型在科学实验中执行长时程任务时,难以处理由多个原子任务组合而成的复合任务。即使VLA模型能够成功执行单个原子任务,也常常无法在原子任务之间进行正确的过渡操作,导致整个实验流程失败。这种问题源于训练数据和实际推理场景之间的分布差异,即训练数据主要包含原子任务,而推理场景需要处理复杂的复合任务。

核心思路:论文的核心思路是引入一个基于大型语言模型(LLM)的Agentic推理机制,作为VLA模型的插件。该插件在VLA模型执行原子任务之间进行干预,通过分析当前状态和任务目标,推理出需要执行的过渡操作,并生成相应的机器人动作代码。这样,即使VLA模型本身不具备处理复合任务的能力,也可以在Agentic插件的辅助下完成整个实验流程。

技术框架:整体框架包含VLA模型和Agentic推理插件两个主要模块。VLA模型负责执行已知的原子任务,Agentic推理插件负责在原子任务之间进行过渡推理。具体流程如下:1) VLA模型执行一个原子任务;2) Agentic插件观察当前环境状态和任务目标;3) Agentic插件利用LLM推理出下一个需要执行的过渡操作;4) Agentic插件生成相应的机器人动作代码;5) 机器人执行过渡动作;6) VLA模型执行下一个原子任务。重复以上步骤,直到完成整个实验流程。

关键创新:最重要的创新点在于引入了LLM进行过渡推理,从而弥补了VLA模型在处理复合任务时的不足。与直接训练VLA模型处理复合任务相比,该方法无需额外的训练数据,计算效率更高,更适合开放式的长时程机器人实验室任务。此外,该方法将VLA模型和LLM的优势结合起来,VLA模型负责执行已知的原子任务,LLM负责推理未知的过渡操作,实现了更好的性能。

关键设计:Agentic插件的关键设计在于如何利用LLM进行有效的过渡推理。具体来说,Agentic插件需要:1) 观察当前环境状态(例如,通过摄像头获取图像);2) 理解任务目标(例如,通过自然语言描述);3) 利用LLM推理出下一个需要执行的过渡操作(例如,将试管从A位置移动到B位置);4) 将过渡操作转化为具体的机器人动作代码(例如,控制机械臂的运动轨迹)。为了提高推理的准确性和效率,可以使用prompt engineering技术来优化LLM的输入,例如,提供相关的背景知识和示例。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在模拟环境中将每个原子任务的平均成功率提高了42%。此外,该方法具有良好的可迁移性,可以轻松地从模拟环境转移到真实的科学实验室。这些结果表明,该方法能够有效地解决VLA模型在处理长时程科学实验任务时面临的挑战,并具有很强的实用价值。

🎯 应用场景

该研究成果可广泛应用于自动化科学实验领域,例如药物发现、材料科学、合成生物学等。通过结合VLA模型和LLM,可以实现更加智能和灵活的机器人实验室,从而加速科学研究的进程。未来,该方法有望扩展到其他需要长时程任务的机器人应用场景,例如智能制造、家庭服务等。

📄 摘要(原文)

Robotic laboratories play a critical role in autonomous scientific discovery by enabling scalable, continuous experimental execution. Recent vision-language-action (VLA) models offer a promising foundation for robotic laboratories. However, scientific experiments typically involve long-horizon tasks composed of multiple atomic tasks, posing a fundamental challenge to existing VLA models. While VLA models fine-tuned for scientific tasks can reliably execute atomic experimental actions seen during training, they often fail to perform composite tasks formed by reordering and composing these known atomic actions. This limitation arises from a distributional mismatch between training-time atomic tasks and inference-time composite tasks, which prevents VLA models from executing necessary transitional operations between atomic tasks. To address this challenge, we propose an Agentic VLA Inference Plugin for Long-Horizon Tasks in Scientific Experiments. It introduces an LLM-based agentic inference mechanism that intervenes when executing sequential manipulation tasks. By performing explicit transition inference and generating transitional robotic action code, the proposed plugin guides VLA models through missing transitional steps, enabling reliable execution of composite scientific workflows without any additional training. This inference-only intervention makes our method computationally efficient, data-efficient, and well-suited for open-ended and long-horizon robotic laboratory tasks. We build 3D assets of scientific instruments and common scientific operating scenes within an existing simulation environment. In these scenes, we have verified that our method increases the average success rate per atomic task by 42\% during inference. Furthermore, we show that our method can be easily transferred from the simulation to real scientific laboratories.