When Contextual Inference Fails: Cancelability in Interactive Instruction Following

📄 arXiv: 2603.19997v1 📥 PDF

作者: Natalia Bila, Kata Naszádi, Alexandra Mayn, Christof Monz

分类: cs.CL

发布日期: 2026-03-20


💡 一句话要点

提出BWIM交互式基准,揭示LLM在情境推理失败时的澄清行为缺陷

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情境推理 交互式指令跟随 大型语言模型 澄清行为 人机协作

📋 核心要点

  1. 现有方法难以有效区分字面理解和情境推理,尤其是在交互式任务中。
  2. 论文提出BWIM基准,通过模拟积木搭建任务,考察模型在情境推理失败时的澄清行为。
  3. 实验表明,LLM虽能判断说话者可靠性,但未能有效利用该信息指导澄清行为,表现出次优策略。

📝 摘要(中文)

本文研究了在协同积木搭建任务中,构建者如何利用情境推理来解决指令不明确的问题,从而分离字面解释和情境推理。基于现有的双人心理语言学范式——该范式对比了务实合作的说话者和仅字面可靠的说话者——我们引入了Build What I Mean (BWIM),这是一个用于情境意义构建的交互式基准。在BWIM中,模型必须通过执行情境推理或以较小的沟通成本请求澄清来解决歧义。通过评估几个最先进的LLM,我们发现判断和行动之间存在分离:虽然模型在显式置信度评分中检测到说话者的不可靠性,但它们未能利用这些信息来指导有效的澄清行为。相反,我们观察到次优策略,例如对伙伴视而不见的过度澄清和不确定性下的厌恶提问式猜测。

🔬 方法详解

问题定义:论文旨在解决交互式指令跟随任务中,大型语言模型(LLM)在情境推理失败时,如何进行有效澄清的问题。现有方法通常假设说话者是完全合作的,忽略了现实场景中说话者可能不可靠的情况。这导致模型在遇到歧义指令时,无法根据说话者的可靠性调整澄清策略,从而影响任务完成效率。

核心思路:论文的核心思路是构建一个交互式基准(BWIM),该基准模拟了一个积木搭建场景,其中一个构建者(模型)需要根据指导者的指令搭建积木。指导者可以是合作的,也可以是不可靠的。构建者可以通过提问来澄清指令,但提问会产生一定的成本。模型需要根据指导者的可靠性,权衡提问的成本和收益,从而选择最优的澄清策略。

技术框架:BWIM基准包含以下几个关键组成部分:1) 积木搭建环境:一个模拟的3D积木搭建环境,用于构建者执行指令。2) 指导者模型:模拟合作或不可靠的指导者,生成指令。3) 构建者模型:需要根据指令搭建积木,并可以通过提问来澄清指令。4) 评估指标:用于评估构建者模型的任务完成效率和澄清策略的有效性。整体流程是,指导者给出指令,构建者根据指令和指导者的可靠性,决定是否提问。如果提问,指导者会给出回答,构建者根据回答继续搭建积木。

关键创新:论文的关键创新在于提出了BWIM基准,该基准能够有效地评估LLM在情境推理失败时的澄清行为。与现有基准相比,BWIM更加关注交互性和说话者的可靠性,能够更真实地模拟现实场景。此外,论文还发现LLM在判断说话者可靠性和利用该信息指导澄清行为之间存在脱节,这为未来的研究提供了新的方向。

关键设计:BWIM基准的关键设计包括:1) 指导者模型的可靠性设置:指导者模型可以是完全合作的,也可以是部分不可靠的。2) 提问成本的设置:提问会产生一定的成本,鼓励模型谨慎提问。3) 评估指标的设计:评估指标包括任务完成效率、提问次数和提问的有效性等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,虽然LLM能够识别说话者的不可靠性,但它们未能有效地利用这些信息来指导澄清行为。具体来说,模型表现出过度澄清和厌恶提问式猜测等次优策略。例如,模型在面对不可靠的说话者时,并没有显著增加提问次数,反而倾向于猜测,导致任务完成效率下降。

🎯 应用场景

该研究成果可应用于人机协作、智能客服、机器人导航等领域。通过提高模型在不确定环境下的推理和澄清能力,可以提升人机交互的效率和用户体验。未来,该研究可以扩展到更复杂的任务和场景,例如医疗诊断、法律咨询等。

📄 摘要(原文)

We investigate the separation of literal interpretation from contextual inference in a collaborative block-building task where a builder must resolve underspecified instructions using contextual inferences. Building on an existing two-speaker psycholinguistic paradigm -- which contrasts a pragmatically cooperative speaker with one who is only literally reliable -- we introduce Build What I Mean (BWIM), an interactive benchmark for contextual meaning construction. In BWIM, models must resolve ambiguity by either performing a contextual inference or requesting clarification at a small communication cost. Evaluating several state-of-the-art LLMs, we find a dissociation between judgment and action: while models detect speaker unreliability in explicit confidence ratings, they fail to exploit this information to guide efficient clarification behavior. Instead, we observe suboptimal strategies, such as partner-blind over-clarification and question-averse guessing under uncertainty.