ADAPT: Benchmarking Commonsense Planning under Unspecified Affordance Constraints

📄 arXiv: 2604.14902v1 📥 PDF

作者: Pei-An Chen, Yong-Ching Liang, Jia-Fong Yeh, Hung-Ting Su, Yi-Ting Chen, Min Sun, Winston Hsu

分类: cs.AI, cs.CL, cs.CV, cs.RO

发布日期: 2026-04-16


💡 一句话要点

ADAPT:针对未明确可供性约束的常识规划基准测试

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 具身智能体 常识规划 可供性推理 动态环境 视觉-语言模型

📋 核心要点

  1. 现有具身智能体方法忽略了环境动态变化和对象可供性的不确定性,导致在复杂环境中表现不佳。
  2. ADAPT模块通过显式推理对象的可供性,增强现有规划器,使其能够适应动态变化的环境。
  3. 实验表明,ADAPT显著提升了智能体在动态环境中的任务成功率,且领域自适应的视觉-语言模型优于GPT-4o。

📝 摘要(中文)

智能具身智能体不应简单地遵循指令,因为现实世界环境通常涉及意外情况和例外。然而,现有方法通常侧重于直接执行指令,而不考虑目标对象是否可以实际操作,这意味着它们无法评估可用的可供性。为了解决这个限制,我们引入了DynAfford,这是一个基准,用于评估具身智能体在动态环境中的表现,在这些环境中,对象的可供性可能会随时间变化,并且未在指令中指定。DynAfford要求智能体感知对象状态,推断隐含的前提条件,并相应地调整其动作。为了实现这种能力,我们引入了ADAPT,这是一个即插即用模块,通过显式的可供性推理来增强现有的规划器。实验表明,结合ADAPT可以显著提高在已见和未见环境中的鲁棒性和任务成功率。我们还表明,经过领域自适应和LoRA微调的视觉-语言模型作为可供性推理后端,优于商业LLM(GPT-4o),突出了任务对齐的可供性基础的重要性。

🔬 方法详解

问题定义:现有具身智能体在执行任务时,通常假设环境是静态的,并且对象的可供性是明确的。然而,现实世界中,对象的可供性会随时间变化,且指令中通常不会明确指定。这导致智能体无法根据实际情况调整行动,从而降低任务成功率。现有方法缺乏对对象可供性的推理能力,难以应对动态变化的环境。

核心思路:ADAPT的核心思路是通过显式地推理对象的可供性,来增强现有规划器的鲁棒性和适应性。它将可供性推理作为一个独立的模块,可以即插即用地集成到现有的规划框架中。通过感知环境状态,ADAPT能够推断出对象当前的可供性,并根据这些信息调整智能体的行动计划,从而更好地完成任务。

技术框架:ADAPT作为一个独立的模块,可以集成到现有的规划框架中。整体流程如下:1) 智能体首先感知环境状态,包括对象的位置、形状、状态等信息。2) ADAPT模块利用视觉-语言模型(VLM)对感知到的环境信息进行分析,推理出对象当前的可供性。3) 规划器根据ADAPT提供的可供性信息,生成行动计划。4) 智能体执行行动计划,并不断重复上述过程,直到完成任务。

关键创新:ADAPT的关键创新在于其显式的可供性推理机制。与现有方法不同,ADAPT不依赖于预定义的规则或固定的知识库,而是通过VLM动态地推理对象的可供性。这种方法能够更好地适应动态变化的环境,并处理未知的对象和情况。此外,ADAPT的即插即用特性使其易于集成到现有的规划框架中,降低了开发成本。

关键设计:ADAPT使用视觉-语言模型(VLM)作为可供性推理的后端。论文中,作者使用领域自适应和LoRA微调的VLM,以提高其在特定任务上的性能。VLM的输入是环境的视觉信息,输出是对象的可供性描述。为了训练VLM,作者构建了一个包含大量标注数据的训练集。此外,作者还设计了一种损失函数,用于优化VLM的性能,使其能够更准确地推理对象的可供性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ADAPT模块能够显著提高智能体在DynAfford基准测试中的任务成功率。在已见和未见环境中,ADAPT都取得了显著的提升。此外,领域自适应和LoRA微调的视觉-语言模型作为可供性推理后端,优于商业LLM(GPT-4o),表明了任务对齐的可供性基础的重要性。

🎯 应用场景

该研究成果可应用于各种需要智能体在复杂动态环境中执行任务的场景,例如家庭服务机器人、工业自动化、自动驾驶等。通过显式地推理对象的可供性,智能体可以更好地适应环境变化,提高任务完成的效率和安全性。未来,该技术有望推动智能体在现实世界中的广泛应用。

📄 摘要(原文)

Intelligent embodied agents should not simply follow instructions, as real-world environments often involve unexpected conditions and exceptions. However, existing methods usually focus on directly executing instructions, without considering whether the target objects can actually be manipulated, meaning they fail to assess available affordances. To address this limitation, we introduce DynAfford, a benchmark that evaluates embodied agents in dynamic environments where object affordances may change over time and are not specified in the instruction. DynAfford requires agents to perceive object states, infer implicit preconditions, and adapt their actions accordingly. To enable this capability, we introduce ADAPT, a plug-and-play module that augments existing planners with explicit affordance reasoning. Experiments demonstrate that incorporating ADAPT significantly improves robustness and task success across both seen and unseen environments. We also show that a domain-adapted, LoRA-finetuned vision-language model used as the affordance inference backend outperforms a commercial LLM (GPT-4o), highlighting the importance of task-aligned affordance grounding.