Do LLMs Know Tool Irrelevance? Demystifying Structural Alignment Bias in Tool Invocations

📄 arXiv: 2604.11322v1 📥 PDF

作者: Yilong Liu, Xixun Lin, Pengfei Cao, Ge Zhang, Fang Fang, Yanan Cao

分类: cs.CL, cs.AI

发布日期: 2026-04-13

备注: Accepted to ACL 2026 (Main Conference)


💡 一句话要点

揭示LLM工具调用中的结构对齐偏差,提出SABEval数据集与重平衡策略

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工具调用 结构对齐偏差 语义相关性 注意力归因

📋 核心要点

  1. 现有LLM在工具使用中存在结构对齐偏差,即使工具语义不相关,只要结构匹配就容易被调用。
  2. 提出SABEval数据集,解耦结构对齐和语义相关性,用于系统评估和分析结构对齐偏差。
  3. 提出对比注意力归因方法,揭示LLM内部语义检查和结构匹配的竞争路径,并提出重平衡策略缓解偏差。

📝 摘要(中文)

大型语言模型(LLMs)在利用外部工具方面表现出令人印象深刻的能力。然而,在实践中,LLMs经常会遇到与用户查询无关的工具,在这种情况下,期望的行为是不进行调用。本文发现了一种普遍但被忽视的工具拒绝机制缺陷,我们称之为结构对齐偏差:即使工具无法服务于用户的目标,只要查询属性可以有效地分配给工具参数,LLMs仍然倾向于调用它。为了系统地研究这种偏差,我们引入了SABEval,这是一个新的数据集,它将结构对齐与语义相关性解耦。我们的分析表明,结构对齐偏差会导致LLMs中严重的工具调用错误,但在现有的评估中,这种偏差在很大程度上没有被考虑。为了研究这种偏差背后的内部机制,我们提出了对比注意力归因,它揭示了语义检查和结构匹配的两个竞争路径。这些路径的相对强度驱动了LLMs的工具调用决策。基于这些发现,我们进一步引入了一种重平衡策略,该策略可以有效地缓解结构对齐偏差,并通过广泛的实验证明,该策略不会降低一般的工具使用能力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在工具使用过程中存在的结构对齐偏差问题。现有方法在评估LLMs的工具使用能力时,往往忽略了结构对齐偏差的影响,导致LLMs在面对与用户查询语义无关但结构上匹配的工具时,仍然倾向于错误调用,降低了工具使用的准确性和可靠性。

核心思路:论文的核心思路是将结构对齐与语义相关性解耦,通过构建专门的数据集SABEval来系统地研究结构对齐偏差。同时,通过对比注意力归因方法,深入分析LLMs内部语义检查和结构匹配的机制,并基于分析结果提出一种重平衡策略,以缓解结构对齐偏差。

技术框架:论文的技术框架主要包括三个部分:1) 构建SABEval数据集,该数据集包含结构对齐但语义无关的工具调用场景;2) 提出对比注意力归因方法,用于分析LLMs在工具调用过程中对语义和结构信息的关注程度;3) 设计重平衡策略,通过调整LLMs对语义和结构信息的权重,从而缓解结构对齐偏差。

关键创新:论文最重要的技术创新点在于发现了LLMs在工具调用中存在的结构对齐偏差,并提出了SABEval数据集和对比注意力归因方法来系统地研究和分析这种偏差。与现有方法相比,该论文更加关注LLMs内部的决策机制,并提出了一种有效的重平衡策略来缓解偏差。

关键设计:SABEval数据集的关键设计在于将结构对齐和语义相关性解耦,确保数据集中包含大量结构匹配但语义无关的工具调用场景。对比注意力归因方法通过计算LLMs在不同输入上的注意力分布,从而分析LLMs对语义和结构信息的关注程度。重平衡策略的关键设计在于调整LLMs对语义和结构信息的权重,可以通过调整损失函数或者修改网络结构来实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SABEval数据集能够有效评估LLMs的结构对齐偏差。对比注意力归因方法能够准确揭示LLMs内部语义检查和结构匹配的机制。重平衡策略能够显著缓解结构对齐偏差,并在SABEval数据集上取得了显著的性能提升,同时没有降低LLMs在通用工具使用任务上的性能。

🎯 应用场景

该研究成果可应用于提升LLM在各种实际场景中的工具使用能力,例如智能助手、自动化流程、代码生成等。通过缓解结构对齐偏差,可以提高LLM工具调用的准确性和可靠性,减少不必要的工具调用,从而提升用户体验和系统效率。未来,该研究可以进一步扩展到更复杂的工具使用场景,并与其他技术相结合,例如知识图谱、强化学习等,以实现更智能、更高效的工具使用。

📄 摘要(原文)

Large language models (LLMs) have demonstrated impressive capabilities in utilizing external tools. In practice, however, LLMs are often exposed to tools that are irrelevant to the user's query, in which case the desired behavior is to refrain from invocations. In this work, we identify a widespread yet overlooked mechanistic flaw in tool refusal, which we term structural alignment bias: Even when a tool fails to serve the user's goal, LLMs still tend to invoke it whenever query attributes can be validly assigned to tool parameters. To systematically study this bias, we introduce SABEval, a new dataset that decouples structural alignment from semantic relevance. Our analysis shows that structural alignment bias induces severe tool-invocation errors in LLMs, yet remains largely unaccounted for in existing evaluations. To investigate the internal mechanisms underlying this bias, we propose Contrastive Attention Attribution, which reveals two competing pathways for semantic checking and structural matching. The relative strength of these pathways drives LLMs' tool invocation decisions. Based on these findings, we further introduce a rebalancing strategy that effectively mitigates structural alignment bias, as demonstrated by extensive experiments, without degrading general tool-use capabilities.