Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue

📄 arXiv: 2509.15061v2 📥 PDF

作者: Xingyao Lin, Xinghao Zhu, Tianyi Lu, Sicheng Xie, Hui Zhang, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang

分类: cs.RO

发布日期: 2025-09-18 (更新: 2025-09-19)

备注: 9 pages, 4 figures, 7 tables


💡 一句话要点

提出Ask-to-Clarify框架,通过多轮对话解决具身智能体指令模糊问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能体 视觉语言动作 多轮对话 指令模糊 知识隔离

📋 核心要点

  1. 现有基于视觉语言动作(VLA)的具身智能体通常以单向模式运行,无法处理现实场景中常见的指令模糊问题。
  2. Ask-to-Clarify框架通过多轮对话询问澄清模糊指令,然后生成低级动作,实现具身智能体与人类的协作。
  3. 该框架在8个真实世界任务中表现优异,证明了其在解决指令模糊问题和实现协作式具身智能体方面的有效性。

📝 摘要(中文)

本文提出Ask-to-Clarify框架,旨在解决具身智能体在现实场景中因指令模糊而无法有效执行任务的问题。该框架通过多轮对话询问澄清指令,然后端到端地生成低级动作。框架包含一个用于协作的视觉语言模型(VLM)和一个用于动作生成的扩散模型,以及一个连接模块,该模块基于VLM的输出为扩散模型生成条件,通过指令调整观察结果以创建可靠的条件。采用两阶段知识隔离策略训练框架:首先,微调协作组件以处理模糊性;然后,冻结协作组件,同时集成动作组件,微调扩散模型以生成动作。推理时,信号检测器作为路由器,帮助框架在提问和执行动作之间切换。在8个真实世界任务中的评估表明,Ask-to-Clarify框架优于现有的最先进的视觉语言动作(VLA)模型。

🔬 方法详解

问题定义:现有具身智能体通常被动地执行指令,缺乏与人类的交互和沟通能力。在现实世界中,人类给出的指令往往是模糊不清的,这导致智能体无法准确理解指令意图,从而难以完成任务。现有方法主要关注如何直接将指令映射到动作,而忽略了指令本身可能存在的歧义性,因此无法有效解决指令模糊带来的问题。

核心思路:本文的核心思路是通过引入多轮对话机制,使智能体能够主动向人类询问澄清模糊的指令。智能体首先判断指令是否存在歧义,如果存在,则通过对话向人类提问,获取更明确的指令信息。在指令清晰后,智能体再根据指令生成相应的动作。这种主动澄清指令的机制能够有效提高智能体对指令的理解能力,从而提高任务完成的成功率。

技术框架:Ask-to-Clarify框架主要由三个模块组成:协作模块(Collaboration Module)、动作模块(Action Module)和连接模块(Connection Module)。协作模块是一个视觉语言模型(VLM),负责处理指令和视觉输入,并生成问题或动作条件。动作模块是一个扩散模型,负责根据动作条件生成低级动作。连接模块负责将协作模块的输出转换为动作模块所需的输入条件。在推理阶段,还引入了一个信号检测器(Signal Detector),用于判断当前状态是需要提问还是执行动作。

关键创新:该论文的关键创新在于提出了一个能够通过多轮对话澄清指令的具身智能体框架。与以往的单向指令执行方法不同,该框架允许智能体主动与人类进行交互,从而更好地理解指令意图。此外,该论文还提出了一种两阶段知识隔离训练策略,能够有效地训练协作模块和动作模块,并保证框架能够先提问,后执行动作。

关键设计:在训练方面,采用了两阶段知识隔离策略。第一阶段,冻结动作模块,只训练协作模块,使其具备提问澄清指令的能力。第二阶段,冻结协作模块,只训练动作模块,使其能够根据清晰的指令生成动作。这种训练策略能够有效地避免两个模块之间的相互干扰,保证框架的整体性能。连接模块的设计也至关重要,它需要将VLM的输出有效地转换为扩散模型可以理解的条件,从而保证动作生成的准确性。具体的技术细节,例如VLM和扩散模型的选择,以及连接模块的具体实现方式,论文中可能有所描述,但此处无法详细展开。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Ask-to-Clarify框架在8个真实世界任务中均优于现有的最先进的VLA模型。具体性能提升数据未知,但总体结果表明,通过引入多轮对话机制,能够有效提高具身智能体对指令的理解能力和任务完成成功率。该框架的成功证明了在具身智能体中引入交互式学习的有效性。

🎯 应用场景

Ask-to-Clarify框架具有广泛的应用前景,例如在家庭服务机器人、工业自动化、医疗辅助等领域。它可以帮助机器人更好地理解人类的指令,从而更有效地完成各种任务。此外,该框架还可以应用于人机协作领域,使人类和机器人能够更好地协同工作,共同完成复杂的任务。未来,该框架有望成为实现真正智能化的具身智能体的关键技术。

📄 摘要(原文)

The ultimate goal of embodied agents is to create collaborators that can interact with humans, not mere executors that passively follow instructions. This requires agents to communicate, coordinate, and adapt their actions based on human feedback. Recently, advances in VLAs have offered a path toward this goal. However, most current VLA-based embodied agents operate in a one-way mode: they receive an instruction and execute it without feedback. This approach fails in real-world scenarios where instructions are often ambiguous. In this paper, we address this problem with the Ask-to-Clarify framework. Our framework first resolves ambiguous instructions by asking questions in a multi-turn dialogue. Then it generates low-level actions end-to-end. Specifically, the Ask-to-Clarify framework consists of two components, one VLM for collaboration and one diffusion for action. We also introduce a connection module that generates conditions for the diffusion based on the output of the VLM. This module adjusts the observation by instructions to create reliable conditions. We train our framework with a two-stage knowledge-insulation strategy. First, we fine-tune the collaboration component using ambiguity-solving dialogue data to handle ambiguity. Then, we integrate the action component while freezing the collaboration one. This preserves the interaction abilities while fine-tuning the diffusion to generate actions. The training strategy guarantees our framework can first ask questions, then generate actions. During inference, a signal detector functions as a router that helps our framework switch between asking questions and taking actions. We evaluate the Ask-to-Clarify framework in 8 real-world tasks, where it outperforms existing state-of-the-art VLAs. The results suggest that our proposed framework, along with the training strategy, provides a path toward collaborative embodied agents.