Mitigating Cross-Modal Distraction and Ensuring Geometric Feasibility via Affordance-Guided and Self-Consistent MLLMs for Task Planning in Instruction-Following Manipulation

作者: Yu-Hong Shen, Chuan-Yu Wu, Yi-Ru Yang, Yen-Ling Tai, Yi-Ting Chen

分类: cs.RO, cs.AI

发布日期: 2025-03-17 (更新: 2025-10-08)

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出Affordance引导的自洽MLLM，解决指令跟随操作中的跨模态干扰和几何可行性问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 任务规划 指令跟随操作 可供性 自洽性 机器人操作 视觉推理

📋 核心要点

现有MLLM在指令跟随操作任务规划中，面临数量估计、可达性分析、相对定位和避碰等多重挑战，缺乏全面评估基准。
提出Affordance引导的自洽MLLM，利用可供性预测器指导规划，并采用自洽性方法减轻跨模态干扰造成的推理损失。
在QuARC基准测试中，该方法成功率达到76.7%，显著优于ViLa基线（36.7%），无需额外微调，验证了方法的有效性。

📝 摘要（中文）

本文研究了使用多模态大型语言模型（MLLMs）和上下文学习进行指令跟随操作中的闭环任务规划。我们确定了成功任务规划的四个基本要求：数量估计、可达性分析、相对定位和避碰。然而，现有的基准测试未能支持对所有这些方面的全面评估。为了解决这个差距，我们引入了 extbf{QuARC}（数量、分析、相对定位、碰撞），这是一个基于食物准备场景的新基准，它整合了所有四个挑战。使用QuARC，我们揭示了当前MLLM的两个主要局限性：跨模态干扰和几何不可行性。为了解决这些问题，我们调整了思维链和自洽性来减轻跨模态干扰造成的推理损失，并结合了一个可供性预测器来指导基于几何可行性的规划。我们的综合评估分析了多个基线上的性能，并解释了改进的来源。我们的方法在该基准上实现了76.7%的成功率，显著优于ViLa基线（36.7%），而无需额外的微调。代码和数据集可在https://hcis-lab.github.io/Affordance-Guided-Self-Consistent-MLLM 获得。

🔬 方法详解

问题定义：论文旨在解决指令跟随操作任务规划中，多模态大型语言模型（MLLMs）存在的两个主要问题：跨模态干扰和几何不可行性。现有方法在处理复杂场景时，容易受到视觉信息中无关因素的干扰，导致推理错误。同时，忽略了操作的几何可行性，生成的计划可能无法实际执行。

核心思路：论文的核心思路是利用可供性（Affordance）信息来引导MLLM的规划过程，并采用自洽性（Self-Consistency）方法来减轻跨模态干扰。可供性信息能够提供物体之间的交互方式和操作约束，从而保证生成的计划在几何上是可行的。自洽性方法通过生成多个候选计划，并选择其中最一致的计划，来提高鲁棒性。

技术框架：整体框架包含以下几个主要模块：1) 视觉输入处理模块，用于提取场景的视觉特征；2) 可供性预测模块，用于预测物体之间的可供性关系；3) MLLM规划模块，利用视觉特征、可供性信息和指令生成任务计划；4) 自洽性选择模块，生成多个候选计划并选择最优计划。整个流程是闭环的，可以根据环境反馈进行调整。

关键创新：论文的关键创新在于将可供性信息融入到MLLM的规划过程中，从而保证了生成的计划在几何上是可行的。此外，采用自洽性方法来减轻跨模态干扰，提高了模型的鲁棒性。与现有方法相比，该方法能够更好地处理复杂场景，并生成更可靠的任务计划。

关键设计：可供性预测模块采用预训练的视觉模型来预测物体之间的可供性关系，例如抓取、放置等。MLLM规划模块采用Chain-of-Thought的方式进行推理，逐步生成任务计划。自洽性选择模块采用投票机制，选择出现频率最高的计划作为最终结果。具体参数设置和损失函数细节在论文中有详细描述，此处未知。

📊 实验亮点

实验结果表明，该方法在QuARC基准测试中取得了显著的性能提升，成功率达到76.7%，相比ViLa基线（36.7%）提高了40个百分点。这表明该方法能够有效地解决跨模态干扰和几何不可行性问题，生成更可靠的任务计划。该方法无需额外的微调，具有较好的泛化能力。

🎯 应用场景

该研究成果可应用于机器人自动化、智能家居、辅助生活等领域。例如，在智能厨房中，机器人可以根据用户的语音指令，利用该方法规划并执行食物准备任务。该技术还可以扩展到其他操作任务，例如装配、清洁等，具有广泛的应用前景。

📄 摘要（原文）

We investigate the use of Multimodal Large Language Models (MLLMs) with in-context learning for closed-loop task planning in instruction-following manipulation. We identify four essential requirements for successful task planning: quantity estimation, reachability analysis, relative positioning, and collision avoidance. However, existing benchmarks fail to support holistic evaluation across all these aspects. To address this gap, we introduce \textbf{QuARC} (Quantity, Analysis, Relative positioning, Collision), a new benchmark based on a food preparation scenario that integrates all four challenges. Using QuARC, we reveal two major limitations of current MLLMs: cross-modal distraction and geometric infeasibility. To tackle these, we adapt Chain-of-Thought with Self-Consistency to mitigate reasoning loss from cross-modal distractions and incorporate an affordance predictor to guide planning based on geometric feasibility. Our comprehensive evaluation analyzes performance across multiple baselines and explains sources of improvement. Our method achieves a 76.7\% success rate on the benchmark, significantly outperforming the ViLa baseline (36.7\%), without requiring additional finetuning. Code and dataset are available at https://hcis-lab.github.io/Affordance-Guided-Self-Consistent-MLLM.

Mitigating Cross-Modal Distraction and Ensuring Geometric Feasibility via Affordance-Guided and Self-Consistent MLLMs for Task Planning in Instruction-Following Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理