Resource-Efficient Affordance Grounding with Complementary Depth and Semantic Prompts
作者: Yizhou Huang, Fan Yang, Guoliang Zhu, Gen Li, Hao Shi, Yukun Zuo, Wenrui Chen, Zhiyong Li, Kailun Yang
分类: cs.CV, cs.RO, eess.IV
发布日期: 2025-03-04 (更新: 2025-07-19)
备注: Accepted to IROS 2025. The source code will be made publicly available at https://github.com/DAWDSE/BiT-Align
🔗 代码/项目: GITHUB
💡 一句话要点
提出BiT-Align框架,利用互补深度和语义提示提升资源受限下的可供性推理性能。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 可供性推理 多模态融合 深度信息 文本引导 资源效率
📋 核心要点
- 现有可供性推理方法面临结构设计简单、融合方式基础以及模型参数量大等问题,难以满足实际部署需求。
- BiT-Align框架通过旁路提示模块(BPM)和文本特征引导(TFG)注意力选择机制,提升功能区域定位精度和可供性特征理解。
- 实验结果表明,该方法在AGD20K数据集上KLD指标提升6.0%,同时模型参数减少88.8%,具有实际应用价值。
📝 摘要(中文)
可供性是指智能体从环境中感知和利用的功能属性,是机器人执行动作的关键感知信息。这种信息本质上是丰富且多模态的。现有的多模态可供性方法在提取有用信息方面存在局限性,主要由于简单的结构设计、基础的融合方法和庞大的模型参数,难以满足实际部署的性能要求。为了解决这些问题,本文提出了BiT-Align图像-深度-文本可供性映射框架。该框架包括旁路提示模块(BPM)和文本特征引导(TFG)注意力选择机制。BPM直接将辅助模态深度图像作为提示集成到主要模态RGB图像中,将其嵌入到主要模态编码器中,而无需引入额外的编码器。这减少了模型的参数数量,并有效提高了功能区域定位的准确性。TFG机制利用文本特征引导图像编码器中注意力头的选择和增强,从而提高对可供性特征的理解。实验结果表明,所提出的方法在公共AGD20K和HICO-IIF数据集上取得了显著的性能提升。在AGD20K数据集上,与当前最先进的方法相比,我们在KLD指标上实现了6.0%的提升,同时将模型参数减少了88.8%,展示了实际应用价值。源代码将在https://github.com/DAWDSE/BiT-Align上公开。
🔬 方法详解
问题定义:论文旨在解决现有可供性推理方法在资源受限情况下,由于模型参数量大、特征融合方式简单等问题导致的性能瓶颈。现有方法难以有效利用多模态信息,特别是深度信息和文本信息,导致功能区域定位精度和可供性特征理解能力不足。
核心思路:论文的核心思路是设计一个资源高效的多模态可供性推理框架,通过旁路提示模块(BPM)将深度信息直接注入到图像编码器中,避免引入额外的编码器增加参数量。同时,利用文本特征引导图像编码器的注意力机制,增强对可供性特征的理解。
技术框架:BiT-Align框架主要包含以下几个模块:1)图像编码器:用于提取RGB图像的特征;2)旁路提示模块(BPM):将深度图像作为提示信息注入到图像编码器中;3)文本编码器:用于提取文本描述的特征;4)文本特征引导(TFG)注意力选择机制:利用文本特征引导图像编码器中注意力头的选择和增强;5)可供性预测模块:基于融合后的特征进行可供性预测。
关键创新:论文的关键创新在于:1)提出了旁路提示模块(BPM),将深度信息作为提示直接注入到图像编码器中,避免了引入额外编码器带来的参数量增加;2)提出了文本特征引导(TFG)注意力选择机制,利用文本信息指导图像编码器关注与可供性相关的特征,提升了模型对可供性特征的理解能力。与现有方法相比,该方法在保证性能的同时,显著降低了模型参数量。
关键设计:BPM模块的具体实现方式是将深度图像经过一个小型卷积网络处理后,得到的特征图直接加到图像编码器的中间层特征图上。TFG机制通过计算文本特征和图像编码器中各个注意力头的相似度,选择与文本特征最相关的注意力头,并对其进行增强。损失函数采用KLD散度,用于衡量预测的可供性分布与真实分布之间的差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BiT-Align框架在AGD20K数据集上,KLD指标相较于当前最优方法提升了6.0%,同时模型参数量减少了88.8%。在HICO-IIF数据集上也取得了具有竞争力的结果,验证了该方法在资源受限情况下进行可供性推理的有效性。
🎯 应用场景
该研究成果可应用于机器人操作、自动驾驶、虚拟现实等领域。例如,在机器人操作中,机器人可以利用可供性信息更好地理解环境,从而执行更复杂的任务。在自动驾驶中,车辆可以利用可供性信息识别道路上的可行驶区域和障碍物,提高行驶安全性。在虚拟现实中,用户可以与虚拟环境中的物体进行交互,体验更真实的操作感。
📄 摘要(原文)
Affordance refers to the functional properties that an agent perceives and utilizes from its environment, and is key perceptual information required for robots to perform actions. This information is rich and multimodal in nature. Existing multimodal affordance methods face limitations in extracting useful information, mainly due to simple structural designs, basic fusion methods, and large model parameters, making it difficult to meet the performance requirements for practical deployment. To address these issues, this paper proposes the BiT-Align image-depth-text affordance mapping framework. The framework includes a Bypass Prompt Module (BPM) and a Text Feature Guidance (TFG) attention selection mechanism. BPM integrates the auxiliary modality depth image directly as a prompt to the primary modality RGB image, embedding it into the primary modality encoder without introducing additional encoders. This reduces the model's parameter count and effectively improves functional region localization accuracy. The TFG mechanism guides the selection and enhancement of attention heads in the image encoder using textual features, improving the understanding of affordance characteristics. Experimental results demonstrate that the proposed method achieves significant performance improvements on public AGD20K and HICO-IIF datasets. On the AGD20K dataset, compared with the current state-of-the-art method, we achieve a 6.0% improvement in the KLD metric, while reducing model parameters by 88.8%, demonstrating practical application values. The source code will be made publicly available at https://github.com/DAWDSE/BiT-Align.