When Agents Look the Same: Quantifying Distillation-Induced Similarity in Tool-Use Behaviors
作者: Chenghao Yang, Yuning Zhang, Zhoufutu Wen, Tao Gong, Jiaheng Liu, Qi Chu, Nenghai Yu
分类: cs.CL
发布日期: 2026-04-23
备注: Accepted by ACL 2026 Main Conference
🔗 代码/项目: GITHUB
💡 一句话要点
提出RPS和AGS指标,量化工具使用行为中蒸馏诱导的相似性,揭示Agent同质化现象
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 大型语言模型 Agent 行为蒸馏 行为同质化 工具使用 相似性度量 响应模式相似性 动作图相似性
📋 核心要点
- 现有Agent评估指标难以区分任务必需行为和模型自主偏好,无法有效衡量蒸馏带来的行为同质化。
- 提出响应模式相似性(RPS)和动作图相似性(AGS)两个互补指标,分别量化语言对齐和工具使用习惯的相似性。
- 实验表明,同系列Agent的AGS得分更高,且AGS能区分教师模型特定的收敛与通用性能提升。
📝 摘要(中文)
模型蒸馏是大型语言模型(LLM)Agent快速发展的主要驱动力,但同时也导致了行为同质化。许多新兴Agent表现出几乎相同的推理步骤和失败模式,表明它们可能是少数主导教师模型的蒸馏回声。然而,现有的评估指标无法区分任务成功所需的强制性行为与反映模型自主偏好的非强制性模式。本文提出了两个互补的指标来分离非强制性行为模式:用于评估语言对齐的响应模式相似性(RPS)和用于评估工具使用习惯的动作图相似性(AGS),其中工具使用习惯被建模为有向图。在$τ$-Bench和$τ^2$-Bench上,针对Claude Sonnet 4.5(thinking)评估了来自8个提供商的18个模型,发现同系列模型对的AGS得分比跨系列模型对高5.9个百分点,并且Kimi-K2(thinking)的$S_{ ext{node}}$达到82.6%,$S_{ ext{dep}}$达到94.7%,超过了Anthropic自己的Opus 4.1。受控蒸馏实验进一步证实,AGS可以区分教师模型特定的收敛与通用改进。RPS和AGS捕捉到不同的行为维度(Pearson $r$ = 0.491),为Agent生态系统中的行为收敛提供了互补的诊断信号。代码已开源。
🔬 方法详解
问题定义:现有的大型语言模型Agent通过蒸馏技术快速发展,但同时也出现了行为同质化的问题,即不同的Agent在推理步骤和失败模式上表现出高度的相似性。现有的评估指标主要关注任务完成的准确性,无法有效区分完成任务所必需的行为和模型自主选择的行为模式,因此难以量化蒸馏带来的行为同质化现象。
核心思路:本文的核心思路是将Agent的行为模式分解为语言响应模式和工具使用习惯两个维度,并分别设计指标来量化这两个维度的相似性。通过分析非强制性的行为模式,可以更准确地评估蒸馏对Agent行为的影响,并揭示Agent同质化的程度。
技术框架:本文提出的评估框架包含以下几个主要步骤:1) 定义Agent的行为模式,包括语言响应和工具使用;2) 针对语言响应,提出响应模式相似性(RPS)指标,用于衡量不同Agent在语言表达上的相似程度;3) 针对工具使用,提出动作图相似性(AGS)指标,将Agent的工具使用习惯建模为有向图,并计算图之间的相似度;4) 通过实验,在多个Agent模型上评估RPS和AGS指标,分析Agent之间的行为相似性。
关键创新:本文最重要的技术创新在于提出了RPS和AGS两个互补的指标,用于量化Agent的行为相似性。与现有方法相比,RPS和AGS能够区分任务必需的行为和模型自主选择的行为模式,从而更准确地评估蒸馏对Agent行为的影响。此外,将工具使用习惯建模为有向图,并使用图相似度算法进行评估,也是一个新颖的思路。
关键设计:RPS指标通过比较Agent在相同输入下的语言响应的相似度来衡量语言对齐程度。AGS指标首先将Agent的工具使用过程表示为有向图,其中节点表示工具,边表示工具之间的调用关系。然后,使用基于节点和依赖关系的图相似度算法来计算不同Agent的工具使用习惯的相似度。具体的图相似度计算方法可能涉及节点属性的匹配、边结构的比较以及图编辑距离等技术。
🖼️ 关键图片
📊 实验亮点
实验结果表明,同系列Agent的AGS得分比跨系列Agent高5.9个百分点,表明蒸馏训练会导致Agent在工具使用习惯上更加相似。Kimi-K2 (thinking) 在节点相似度($S_{ ext{node}}$)和依赖关系相似度($S_{ ext{dep}}$)上分别达到了82.6%和94.7%,甚至超过了Anthropic自己的Opus 4.1,突显了蒸馏带来的行为趋同效应。
🎯 应用场景
该研究成果可应用于评估和诊断大型语言模型Agent的行为同质化程度,帮助开发者了解蒸馏训练对Agent行为的影响,并设计更具多样性和鲁棒性的Agent。此外,该方法还可以用于比较不同Agent的工具使用习惯,从而发现更有效的工具使用策略。
📄 摘要(原文)
Model distillation is a primary driver behind the rapid progress of LLM agents, yet it often leads to behavioral homogenization. Many emerging agents share nearly identical reasoning steps and failure modes, suggesting they may be distilled echoes of a few dominant teachers. Existing metrics, however, fail to distinguish mandatory behaviors required for task success from non-mandatory patterns that reflect a model's autonomous preferences. We propose two complementary metrics to isolate non-mandatory behavioral patterns: \textbf{Response Pattern Similarity (RPS)} for verbal alignment and \textbf{Action Graph Similarity (AGS)} for tool-use habits modeled as directed graphs. Evaluating 18 models from 8 providers on $τ$-Bench and $τ^2$-Bench against Claude Sonnet 4.5 (thinking), we find that within-family model pairs score 5.9 pp higher in AGS than cross-family pairs, and that Kimi-K2 (thinking) reaches 82.6\% $S_{\text{node}}$ and 94.7\% $S_{\text{dep}}$, exceeding Anthropic's own Opus 4.1. A controlled distillation experiment further confirms that AGS distinguishes teacher-specific convergence from general improvement. RPS and AGS capture distinct behavioral dimensions (Pearson $r$ = 0.491), providing complementary diagnostic signals for behavioral convergence in the agent ecosystem. Our code is available at https://github.com/Syuchin/AgentEcho.