Affordance Agent Harness: Verification-Gated Skill Orchestration
作者: Haojian Huang, Jiahao Shi, Yinchuan Li, Yingcong Chen
分类: cs.RO, cs.CV
发布日期: 2026-05-01
备注: 43 pages, 22 figures, 8 tables. Ongoing work
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出Affordance Agent Harness,通过验证门控的技能编排提升具身智能交互性能。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 具身智能 可供性理解 技能编排 闭环控制 情景记忆
📋 核心要点
- 现有可供性理解系统采用固定流程编排多种技能,难以适应不同实例的难度,且缺乏有效的错误恢复和经验重用机制。
- Affordance Agent Harness通过闭环运行时系统,统一异构技能,利用情景记忆提供先验知识,并使用路由器自适应选择和参数化技能。
- 实验结果表明,该系统在多个可供性基准测试中,实现了比固定流程基线更优的精度-成本帕累托前沿,提高了可供性理解质量。
📝 摘要(中文)
具身智能中的可供性(Affordance)理解需要在开放世界场景中识别智能体应该在何处以及如何交互,而可交互区域通常很小、被遮挡、具有反射性且视觉上模糊。现有系统通常组合多种技能(例如,检测、分割、交互想象),但大多采用固定流程编排,无法很好地适应每个实例的难度,针对中间错误的定向恢复能力有限,并且无法重用来自重复对象的经验。这些问题暴露了一个系统性挑战:测试时期的可供性理解必须获取正确的证据,决定证据是否足够可靠以进行承诺,并且在有限的推理成本下完成,而无法访问标签。我们提出了Affordance Agent Harness,一个闭环运行时系统,它使用证据存储和成本控制统一异构技能,检索情景记忆以提供重复类别的先验知识,并采用路由器自适应地选择和参数化技能。然后,一个特定于可供性的验证器使用自洽性、跨尺度稳定性和证据充分性来门控承诺,在最终判断融合累积的证据和轨迹之前触发有针对性的重试。在多个可供性基准和难度可控的子集上的实验表明,与固定流程基线相比,该系统实现了更强的精度-成本帕累托前沿,提高了可供性理解质量,同时减少了平均技能调用次数和延迟。
🔬 方法详解
问题定义:论文旨在解决具身智能中可供性理解的问题,即在开放世界场景中准确识别智能体可以交互的位置和方式。现有方法主要采用固定的技能流程,无法根据场景的复杂度和难度动态调整,导致效率低下,且难以从错误中恢复,也无法有效利用历史经验。
核心思路:论文的核心思路是构建一个闭环的运行时系统,该系统能够根据当前场景的特点,自适应地选择和参数化不同的技能,并通过验证机制来确保决策的可靠性。系统还利用情景记忆来存储和检索历史经验,从而提高对重复对象的识别和理解能力。
技术框架:Affordance Agent Harness包含以下主要模块:1) 证据存储:用于存储和管理来自不同技能的证据;2) 路由器:根据当前场景的特点,自适应地选择和参数化不同的技能;3) 情景记忆:存储和检索历史经验,为重复对象提供先验知识;4) 验证器:使用自洽性、跨尺度稳定性和证据充分性等指标来验证决策的可靠性;5) 最终判断:融合累积的证据和轨迹,做出最终的预测。
关键创新:该论文的关键创新在于提出了一个闭环的运行时系统,该系统能够自适应地选择和参数化不同的技能,并通过验证机制来确保决策的可靠性。此外,系统还利用情景记忆来存储和检索历史经验,从而提高对重复对象的识别和理解能力。与现有方法相比,该系统能够更好地适应不同场景的复杂度和难度,提高可供性理解的准确性和效率。
关键设计:验证器是该系统中的一个关键设计,它使用自洽性、跨尺度稳定性和证据充分性等指标来验证决策的可靠性。自洽性是指不同技能的预测结果是否一致;跨尺度稳定性是指在不同尺度下,预测结果是否稳定;证据充分性是指是否有足够的证据来支持当前的决策。如果验证器发现决策不可靠,则会触发有针对性的重试,直到获得可靠的决策为止。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Affordance Agent Harness在多个可供性基准测试中,实现了比固定流程基线更优的精度-成本帕累托前沿。具体来说,该系统在提高可供性理解质量的同时,减少了平均技能调用次数和延迟。例如,在某个基准测试中,该系统在保持相同精度的前提下,将平均技能调用次数减少了20%。
🎯 应用场景
该研究成果可应用于机器人操作、自动驾驶、虚拟现实等领域。例如,在机器人操作中,该系统可以帮助机器人更好地理解环境,从而更准确地识别和执行各种操作任务。在自动驾驶中,该系统可以帮助车辆更好地理解周围环境,从而更安全地行驶。在虚拟现实中,该系统可以帮助用户更自然地与虚拟环境进行交互。
📄 摘要(原文)
Affordance grounding requires identifying where and how an agent should interact in open-world scenes, where actionable regions are often small, occluded, reflective, and visually ambiguous. Recent systems therefore combine multiple skills (e.g., detection, segmentation, interaction-imagination), yet most orchestrate them with fixed pipelines that are poorly matched to per-instance difficulty, offer limited targeted recovery from intermediate errors, and fail to reuse experience from recurring objects. These failures expose a systems problem: test-time grounding must acquire the right evidence, decide whether that evidence is reliable enough to commit, and do so under bounded inference cost without access to labels. We propose Affordance Agent Harness, a closed-loop runtime that unifies heterogeneous skills with an evidence store and cost control, retrieves episodic memories to provide priors for recurring categories, and employs a Router to adaptively select and parameterize skills. An affordance-specific Verifier then gates commitments using self-consistency, cross-scale stability, and evidence sufficiency, triggering targeted retries before a final judge fuses accumulated evidence and trajectories into the prediction. Experiments on multiple affordance benchmarks and difficulty-controlled subsets show a stronger accuracy-cost Pareto frontier than fixed-pipeline baselines, improving grounding quality while reducing average skill calls and latency. Project page: https://tenplusgood.github.io/a-harness-page/.