BLaDA: Bridging Language to Functional Dexterous Actions within 3DGS Fields

📄 arXiv: 2604.08410v1 📥 PDF

作者: Fan Yang, Wenrui Chen, Guorun Yan, Ruize Liao, Wanjun Jia, Dongsheng Luo, Kailun Yang, Zhiyong Li, Yaonan Wang

分类: cs.CV, cs.RO

发布日期: 2026-04-09

备注: Code will be publicly available at https://github.com/PopeyePxx/BLaDA

🔗 代码/项目: GITHUB


💡 一句话要点

提出BLaDA以解决功能性灵巧抓取中的语义与姿态耦合问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 功能性抓取 语义理解 3D定位 机器人技术 自然语言处理

📋 核心要点

  1. 现有方法依赖于预定义的可供性标签,缺乏功能性灵巧操作所需的紧密语义与姿态耦合。
  2. BLaDA通过知识引导语言解析模块将自然语言解析为结构化的操作约束,建立可解释的推理链。
  3. 实验结果显示,BLaDA在多种类别和任务中,功能操作的成功率和可供性定位精度显著提升。

📝 摘要(中文)

在非结构化环境中,功能性灵巧抓取需要语义理解、精确的3D功能定位和可物理解释的执行之间的紧密集成。现有的模块化层次方法虽然比端到端的视觉语言-动作(VLA)方法更具可控性和可解释性,但仍依赖于预定义的可供性标签,缺乏功能性灵巧操作所需的紧密语义-姿态耦合。为此,本文提出了BLaDA(在3DGS领域中将语言与灵巧动作连接起来),这是一个可解释的零样本框架,将开放词汇指令作为功能性灵巧操作的感知和控制约束。BLaDA通过知识引导语言解析模块(KLP)将自然语言解析为结构化的操作约束六元组,建立了可解释的推理链。为实现姿态一致的空间推理,本文引入了三角功能点定位模块(TriLocation),利用3D高斯点云作为连续场景表示,并在三角几何约束下识别功能区域。最后,3D关键点抓取矩阵变换执行模块(KGT3D+)将这些语义-几何约束解码为物理上合理的手腕姿态和指尖级命令。大量实验表明,BLaDA在可供性定位精度和功能操作成功率方面显著优于现有方法。

🔬 方法详解

问题定义:本文旨在解决功能性灵巧抓取中的语义理解与姿态控制之间的耦合问题。现有方法通常依赖于预定义的可供性标签,导致在复杂环境中的适应性不足。

核心思路:BLaDA提出了一种可解释的零样本框架,通过将开放词汇指令转化为感知和控制约束,增强了语义与姿态之间的紧密结合。

技术框架:BLaDA的整体架构包括三个主要模块:知识引导语言解析模块(KLP),三角功能点定位模块(TriLocation),以及3D关键点抓取矩阵变换执行模块(KGT3D+)。这些模块协同工作,实现从自然语言到功能性操作的完整转化。

关键创新:BLaDA的创新之处在于其可解释性和零样本能力,能够在没有预定义标签的情况下进行有效的功能性灵巧操作,显著提升了操作的灵活性和适应性。

关键设计:在KLP模块中,采用结构化的六元组表示操作约束;TriLocation模块利用3D高斯点云进行空间推理;KGT3D+模块则负责将语义-几何约束转化为物理可行的手部动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在复杂基准测试中,BLaDA在可供性定位精度上提升了XX%,在功能操作的成功率上提升了YY%,显著优于现有方法,展示了其在多样化任务中的强大能力。

🎯 应用场景

BLaDA的研究成果在机器人抓取、自动化生产线、以及人机交互等领域具有广泛的应用潜力。通过提升机器对复杂环境中语义指令的理解和执行能力,能够显著提高自动化系统的灵活性和效率,推动智能机器人技术的发展。

📄 摘要(原文)

In unstructured environments, functional dexterous grasping calls for the tight integration of semantic understanding, precise 3D functional localization, and physically interpretable execution. Modular hierarchical methods are more controllable and interpretable than end-to-end VLA approaches, but existing ones still rely on predefined affordance labels and lack the tight semantic--pose coupling needed for functional dexterous manipulation. To address this, we propose BLaDA (Bridging Language to Dexterous Actions in 3DGS fields), an interpretable zero-shot framework that grounds open-vocabulary instructions as perceptual and control constraints for functional dexterous manipulation. BLaDA establishes an interpretable reasoning chain by first parsing natural language into a structured sextuple of manipulation constraints via a Knowledge-guided Language Parsing (KLP) module. To achieve pose-consistent spatial reasoning, we introduce the Triangular Functional Point Localization (TriLocation) module, which utilizes 3D Gaussian Splatting as a continuous scene representation and identifies functional regions under triangular geometric constraints. Finally, the 3D Keypoint Grasp Matrix Transformation Execution (KGT3D+) module decodes these semantic-geometric constraints into physically plausible wrist poses and finger-level commands. Extensive experiments on complex benchmarks demonstrate that BLaDA significantly outperforms existing methods in both affordance grounding precision and the success rate of functional manipulation across diverse categories and tasks. Code will be publicly available at https://github.com/PopeyePxx/BLaDA.