SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation

作者: Wei Li, Renshan Zhang, Rui Shao, Zhijian Fang, Kaiwen Zhou, Zhuotao Tian, Liqiang Nie

分类: cs.CV, cs.RO

发布日期: 2025-11-13

备注: Accepted to AAAI 2026 (Oral), Project Page: https://github.com/JiuTian-VL/SemanticVLA

🔗 代码/项目: GITHUB

💡 一句话要点

SemanticVLA：面向高效机器人操作的语义对齐稀疏化与增强

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 机器人操作 视觉语言动作模型 语义对齐 稀疏化 特征融合 深度学习 机器人控制

📋 核心要点

现有VLA模型在机器人操作中存在感知冗余和指令-视觉对齐不足的问题，导致效率低下和泛化能力弱。
SemanticVLA通过语义对齐的稀疏化和增强，有效减少冗余信息，并增强语义与动作的关联，提升操作性能。
实验结果表明，SemanticVLA在LIBERO基准测试中显著超越现有方法，并在训练和推理效率上均有提升。

📝 摘要（中文）

视觉-语言-动作(VLA)模型在机器人操作领域取得了显著进展，但实际部署仍受到两个关键限制的阻碍：1)感知冗余，即不相关的视觉输入被低效处理；2)表面指令-视觉对齐，阻碍了动作的语义基础。本文提出了SemanticVLA，一种新颖的VLA框架，它执行语义对齐的稀疏化和增强，以实现高效的机器人操作。具体来说：1)为了在保持语义对齐的同时稀疏化冗余感知，语义引导的双视觉修剪器(SD-Pruner)执行：指令驱动的修剪器(ID-Pruner)提取SigLIP中的全局动作线索和局部语义锚点；空间聚合修剪器(SA-Pruner)将几何丰富的特征压缩为DINOv2中的任务自适应tokens。2)为了利用稀疏化的特征并将语义与空间几何相结合，语义互补的分层融合器(SH-Fuser)融合SigLIP和DINOv2中的密集patches和稀疏tokens，以实现连贯的表示。3)为了增强从感知到动作的转换，语义条件动作耦合器(SA-Coupler)取代了传统的观察到自由度(DoF)的方法，从而为操作任务产生更高效和可解释的行为建模。在模拟和真实世界任务上的大量实验表明，SemanticVLA在性能和效率方面都创造了新的SOTA。在LIBERO基准测试中，SemanticVLA的成功率超过OpenVLA 21.1%，同时训练成本和推理延迟分别降低了3.0倍和2.7倍。SemanticVLA已开源，可在https://github.com/JiuTian-VL/SemanticVLA公开获取。

🔬 方法详解

问题定义：现有VLA模型在机器人操作任务中面临着两个主要问题：一是视觉感知的冗余，即模型需要处理大量与当前任务无关的视觉信息，导致计算资源的浪费；二是指令和视觉信息之间的对齐不够充分，使得模型难以准确理解指令的语义，从而影响操作的精度和效率。现有方法通常采用端到端的训练方式，缺乏对视觉信息的选择性处理和对语义信息的有效利用，导致模型难以在复杂环境中泛化。

核心思路：SemanticVLA的核心思路是通过语义对齐的稀疏化和增强来解决上述问题。具体来说，首先通过语义引导的双视觉修剪器(SD-Pruner)来减少视觉信息的冗余，同时保留关键的语义信息。然后，通过语义互补的分层融合器(SH-Fuser)将稀疏化的视觉特征与语义信息进行融合，从而得到更具表达力的表示。最后，通过语义条件动作耦合器(SA-Coupler)将融合后的表示映射到动作空间，从而实现高效的机器人操作。

技术框架：SemanticVLA的整体框架包括三个主要模块：SD-Pruner、SH-Fuser和SA-Coupler。SD-Pruner负责对视觉信息进行稀疏化，包括ID-Pruner和SA-Pruner两个子模块，分别从指令和空间几何的角度进行修剪。SH-Fuser负责将稀疏化的视觉特征与语义信息进行融合，采用分层融合的方式，逐步将不同尺度的特征进行整合。SA-Coupler负责将融合后的表示映射到动作空间，采用语义条件的方式，根据不同的语义信息生成不同的动作。

关键创新：SemanticVLA的关键创新在于提出了语义对齐的稀疏化和增强策略。传统的VLA模型通常直接将所有视觉信息输入到模型中，而SemanticVLA则通过SD-Pruner选择性地保留与当前任务相关的视觉信息，从而减少了计算资源的浪费。此外，SemanticVLA还通过SH-Fuser将视觉特征与语义信息进行融合，从而增强了模型对指令的理解能力。SA-Coupler则通过语义条件的方式，使得模型能够根据不同的语义信息生成不同的动作，从而提高了操作的精度和效率。

关键设计：SD-Pruner中的ID-Pruner利用SigLIP模型提取全局动作线索和局部语义锚点，SA-Pruner利用DINOv2模型提取几何丰富的特征，并将这些特征压缩为任务自适应的tokens。SH-Fuser采用分层融合的方式，逐步将SigLIP和DINOv2的特征进行整合。SA-Coupler采用语义条件的方式，根据不同的语义信息生成不同的动作。损失函数方面，采用了标准的交叉熵损失函数和回归损失函数，用于优化模型的参数。

📊 实验亮点

SemanticVLA在LIBERO基准测试中取得了显著的性能提升，成功率超过OpenVLA 21.1%，同时训练成本和推理延迟分别降低了3.0倍和2.7倍。这些结果表明，SemanticVLA在性能和效率方面都具有显著优势，为机器人操作领域的研究提供了新的思路。

🎯 应用场景

SemanticVLA具有广泛的应用前景，可应用于各种机器人操作任务，如物体抓取、装配、导航等。该研究成果有助于提高机器人在复杂环境中的操作效率和精度，降低计算成本，并为未来的机器人智能化发展奠定基础。此外，该方法还可以推广到其他视觉-语言任务中，如图像描述、视觉问答等。

📄 摘要（原文）

Vision-Language-Action (VLA) models have advanced in robotic manipulation, yet practical deployment remains hindered by two key limitations: 1) perceptual redundancy, where irrelevant visual inputs are processed inefficiently, and 2) superficial instruction-vision alignment, which hampers semantic grounding of actions. In this paper, we propose SemanticVLA, a novel VLA framework that performs Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation. Specifically: 1) To sparsify redundant perception while preserving semantic alignment, Semantic-guided Dual Visual Pruner (SD-Pruner) performs: Instruction-driven Pruner (ID-Pruner) extracts global action cues and local semantic anchors in SigLIP; Spatial-aggregation Pruner (SA-Pruner) compacts geometry-rich features into task-adaptive tokens in DINOv2. 2) To exploit sparsified features and integrate semantics with spatial geometry, Semantic-complementary Hierarchical Fuser (SH-Fuser) fuses dense patches and sparse tokens across SigLIP and DINOv2 for coherent representation. 3) To enhance the transformation from perception to action, Semantic-conditioned Action Coupler (SA-Coupler) replaces the conventional observation-to-DoF approach, yielding more efficient and interpretable behavior modeling for manipulation tasks. Extensive experiments on simulation and real-world tasks show that SemanticVLA sets a new SOTA in both performance and efficiency. SemanticVLA surpasses OpenVLA on LIBERO benchmark by 21.1% in success rate, while reducing training cost and inference latency by 3.0-fold and 2.7-fold.SemanticVLA is open-sourced and publicly available at https://github.com/JiuTian-VL/SemanticVLA

SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册