SOMA: Strategic Orchestration and Memory-Augmented System for Vision-Language-Action Model Robustness via In-Context Adaptation

📄 arXiv: 2603.24060v1 📥 PDF

作者: Zhuoran Li, Zhiyang Li, Kaijun Zhou, Jinyu Gu

分类: cs.RO

发布日期: 2026-03-25

备注: 9 pages, 16 figures, 3 table. Submitted to IROS 2026

🔗 代码/项目: GITHUB


💡 一句话要点

SOMA:通过上下文适应增强视觉-语言-动作模型鲁棒性的策略编排与记忆增强系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人控制 上下文学习 记忆增强 策略编排 鲁棒性 大语言模型

📋 核心要点

  1. VLA模型在复杂环境中鲁棒性不足,缺乏长期记忆和动态干预能力是关键挑战。
  2. SOMA通过在线对比RAG、LLM编排和MCP干预,结合离线记忆巩固,实现VLA策略的上下文适应。
  3. 实验表明,SOMA在LIBERO-PRO和LIBERO-SOMA基准测试中,成功率平均提升56.6%,长时程任务链提升89.1%。

📝 摘要(中文)

尽管视觉-语言-动作(VLA)模型展现了作为通用机器人控制器的潜力,但它们在分布外(OOD)任务中,面对感知噪声和环境变化的鲁棒性,由于缺乏长期记忆、因果失败归因和动态干预能力而受到根本限制。为了解决这个问题,我们提出了SOMA,一个策略编排和记忆增强系统,用于升级冻结的VLA策略,以实现鲁棒的上下文适应,而无需参数微调。具体来说,SOMA通过一个在线流程运行,该流程包括对比双记忆检索增强生成(RAG)、一个归因驱动的大型语言模型(LLM)编排器和可扩展的模型上下文协议(MCP)干预,同时一个离线记忆巩固模块不断地将执行轨迹提炼成可靠的先验知识。在LIBERO-PRO和我们提出的LIBERO-SOMA基准测试中,对三个骨干模型(pi0、pi0.5和SmolVLA)的实验评估表明,SOMA实现了平均56.6%的绝对成功率提升。这包括在长时程任务链中89.1%的显著绝对改进。

🔬 方法详解

问题定义:现有的视觉-语言-动作(VLA)模型在面对真实世界机器人任务时,尤其是在分布外(OOD)场景下,鲁棒性较差。主要痛点在于缺乏长期记忆机制,无法有效进行因果失败归因,以及缺乏动态干预能力,导致无法适应环境变化和噪声干扰。

核心思路:SOMA的核心思路是通过引入外部记忆和策略编排机制,增强VLA模型在上下文中的适应能力,而无需对VLA模型本身进行微调。通过检索相关经验、利用大型语言模型进行策略规划和干预,以及持续巩固记忆,SOMA能够提升VLA模型在复杂任务中的表现。

技术框架:SOMA包含一个在线流程和一个离线模块。在线流程包括:1) 对比双记忆检索增强生成(RAG):从记忆库中检索相关经验,增强VLA模型的输入;2) 归因驱动的大型语言模型(LLM)编排器:利用LLM进行策略规划和任务分解;3) 可扩展的模型上下文协议(MCP)干预:根据LLM的决策,对VLA模型进行动态干预。离线模块则负责记忆巩固,将执行轨迹提炼成可靠的先验知识,用于后续的在线检索。

关键创新:SOMA的关键创新在于其策略编排和记忆增强机制,它允许VLA模型在不进行参数微调的情况下,通过上下文适应来提升鲁棒性。与传统的微调方法相比,SOMA更加灵活和高效,能够更好地适应新的环境和任务。此外,SOMA的在线和离线模块协同工作,实现了持续学习和知识积累。

关键设计:SOMA的关键设计包括:1) 对比双记忆的设计,用于存储成功和失败的经验,并进行对比学习;2) 归因驱动的LLM编排器,用于根据任务目标和环境状态,生成合适的策略;3) 可扩展的MCP干预,允许对VLA模型的行为进行细粒度的控制;4) 离线记忆巩固模块,使用蒸馏技术将执行轨迹提炼成先验知识。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SOMA在LIBERO-PRO和LIBERO-SOMA基准测试中,对pi0、pi0.5和SmolVLA三个骨干模型进行了评估,结果显示SOMA实现了平均56.6%的绝对成功率提升。尤其是在长时程任务链中,SOMA取得了89.1%的显著绝对改进,表明其在复杂任务中的优越性能。这些结果验证了SOMA的有效性和泛化能力。

🎯 应用场景

SOMA具有广泛的应用前景,可用于提升机器人在复杂环境中的自主导航、操作和协作能力。例如,在家庭服务机器人、工业自动化、医疗辅助等领域,SOMA可以帮助机器人更好地适应环境变化、处理异常情况,并完成更复杂的任务。此外,SOMA的记忆增强和策略编排机制也可以应用于其他类型的AI模型,提升其鲁棒性和适应性。

📄 摘要(原文)

Despite the promise of Vision-Language-Action (VLA) models as generalist robotic controllers, their robustness against perceptual noise and environmental variations in out-of-distribution (OOD) tasks remains fundamentally limited by the absence of long-term memory, causal failure attribution, and dynamic intervention capability. To address this, we propose SOMA, a Strategic Orchestration and Memory-Augmented System that upgrades frozen VLA policies for robust in-context adaptation without parameter fine-tuning. Specifically, SOMA operates through an online pipeline of contrastive Dual-Memory Retrieval-Augmented Generation (RAG), an Attribution-Driven Large-Language-Model (LLM) Orchestrator, and extensible Model Context Protocol (MCP) interventions, while an offline Memory Consolidation module continuously distills the execution traces into reliable priors. Experimental evaluations across three backbone models (pi0, pi0.5, and SmolVLA) on LIBERO-PRO and our proposed LIBERO-SOMA benchmarks demonstrate that SOMA achieves an average absolute success rate gain of 56.6%. This includes a significant absolute improvement of 89.1% in long-horizon task chaining. Project page and source code are available at: https://github.com/LZY-1021/SOMA.