Large Language Model Agents Are Not Always Faithful Self-Evolvers

📄 arXiv: 2601.22436v1 📥 PDF

作者: Weixiang Zhao, Yingshuo Wang, Yichen Zhang, Yang Deng, Yanyan Zhao, Wanxiang Che, Bing Qin, Ting Liu

分类: cs.CL

发布日期: 2026-01-30

备注: 25 pages, 16 figures, 7 tables


💡 一句话要点

揭示LLM Agent自我进化中经验依赖的非忠实性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自我进化Agent 经验忠实性 因果干预 经验整合

📋 核心要点

  1. 现有自我进化LLM Agent依赖经验进行持续改进,但其决策是否忠实依赖经验尚不明确,存在潜在风险。
  2. 论文通过因果干预方法,系统研究了LLM Agent在利用原始和压缩经验时的忠实性问题,揭示了Agent对不同形式经验的依赖差异。
  3. 实验结果表明,Agent对原始经验依赖性强,但对压缩经验常忽视或误解,揭示了现有自我进化方法在经验整合方面的不足。

📝 摘要(中文)

本文系统性地研究了自我进化大型语言模型(LLM)Agent中的经验忠实性,即Agent决策对所提供经验的因果依赖性。通过对原始和压缩形式的经验进行受控的因果干预,全面评估了10个LLM骨干模型和9个环境下的四个代表性框架。分析发现了一个显著的不对称性:Agent始终依赖于原始经验,但经常忽视或误解压缩经验,即使它是唯一提供的经验。这种差距存在于单Agent和多Agent配置以及不同骨干模型规模中。研究将其根本原因归结为三个因素:压缩内容的语义局限性、抑制经验的内部处理偏差以及预训练先验知识足以完成任务的任务机制。这些发现挑战了关于自我进化方法的普遍假设,并强调了对更忠实和可靠的经验整合方法的需求。

🔬 方法详解

问题定义:现有自我进化LLM Agent通过积累和重用过去的经验来持续改进,但它们是否忠实地依赖这些经验来指导其行为尚不清楚。现有的方法没有充分考虑Agent对不同形式经验的依赖程度,可能导致Agent做出不合理的决策。

核心思路:本文的核心思路是通过因果干预来评估Agent的经验忠实性。具体来说,通过控制Agent接收到的经验(原始或压缩形式),并观察其决策的变化,从而确定Agent的决策在多大程度上依赖于这些经验。这种方法能够量化Agent对不同形式经验的依赖程度,并揭示潜在的非忠实性问题。

技术框架:该研究的技术框架主要包括以下几个步骤:1)选择代表性的自我进化LLM Agent框架;2)构建不同的环境和任务;3)对Agent的经验进行因果干预,包括提供原始经验、压缩经验或不提供经验;4)观察Agent在不同经验条件下的决策,并评估其经验忠实性。研究使用了多种LLM骨干模型和环境,以确保结果的泛化性。

关键创新:该研究的关键创新在于首次系统性地研究了自我进化LLM Agent的经验忠实性问题,并提出了基于因果干预的评估方法。通过这种方法,研究揭示了Agent对原始经验和压缩经验的依赖差异,并发现了Agent在处理压缩经验时存在的非忠实性问题。

关键设计:研究的关键设计包括:1)对原始经验进行压缩,以模拟Agent在实际应用中可能遇到的情况;2)使用多种LLM骨干模型和环境,以确保结果的泛化性;3)采用多种评估指标来量化Agent的经验忠实性,例如决策变化率和决策质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM Agent对原始经验的依赖性远高于压缩经验。即使只提供压缩经验,Agent也经常忽视或误解它。这种现象在不同的LLM骨干模型和环境中普遍存在,表明现有自我进化方法在经验整合方面存在显著缺陷。研究还发现,压缩内容的语义局限性、内部处理偏差和预训练先验知识是导致非忠实性的主要原因。

🎯 应用场景

该研究成果可应用于改进LLM Agent的自我进化机制,使其更可靠地利用经验进行学习和决策。通过提高Agent的经验忠实性,可以提升其在复杂环境中的适应性和性能,例如在智能客服、自动驾驶和机器人控制等领域。

📄 摘要(原文)

Self-evolving large language model (LLM) agents continually improve by accumulating and reusing past experience, yet it remains unclear whether they faithfully rely on that experience to guide their behavior. We present the first systematic investigation of experience faithfulness, the causal dependence of an agent's decisions on the experience it is given, in self-evolving LLM agents. Using controlled causal interventions on both raw and condensed forms of experience, we comprehensively evaluate four representative frameworks across 10 LLM backbones and 9 environments. Our analysis uncovers a striking asymmetry: while agents consistently depend on raw experience, they often disregard or misinterpret condensed experience, even when it is the only experience provided. This gap persists across single- and multi-agent configurations and across backbone scales. We trace its underlying causes to three factors: the semantic limitations of condensed content, internal processing biases that suppress experience, and task regimes where pretrained priors already suffice. These findings challenge prevailing assumptions about self-evolving methods and underscore the need for more faithful and reliable approaches to experience integration.