MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them

作者: Weichen Zhang, Yiyou Sun, Pohao Huang, Jiayue Pu, Heyue Lin, Dawn Song

分类: cs.AI

发布日期: 2025-07-28

备注: Code and data: https://github.com/sunblaze-ucb/mirage-bench.git

💡 一句话要点

MIRAGE-Bench：首个交互式LLM Agent幻觉行为统一评测基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 幻觉行为 评测基准 交互式环境 风险评估

📋 核心要点

现有LLM Agent评估方法分散，缺乏统一的、有原则的测试平台，难以系统性地分析和解决幻觉问题。
MIRAGE-Bench通过系统审计现有Agent基准，并结合快照策略生成确定性、可复现的测试用例，从而引发Agent的幻觉行为。
该研究采用LLM-as-a-Judge范式，结合风险感知提示，实现了对Agent行为的可扩展、高保真度评估，无需枚举所有动作空间。

📝 摘要（中文）

基于大型语言模型（LLM）的Agent存在幻觉风险，通常表现为由认知环境中捏造或误解的信息导致的幻觉行为。尽管最近的研究已经揭示了此类问题，但现有的评估方法仍然分散，缺乏一个有原则的测试平台。本文提出了MIRAGE-Bench——用于测量风险Agent环境中幻觉的基准，这是第一个用于引发和评估交互式LLM Agent场景中幻觉的统一基准。我们首先引入了一个三部分分类法来解决Agent的幻觉问题：不忠于（i）任务指令，（ii）执行历史或（iii）环境观察的行为。为了分析，我们首先通过对现有Agent基准进行系统审计来引出此类失败案例，然后使用快照策略合成测试用例，该策略以确定性和可重复的方式隔离决策点。为了评估幻觉行为，我们采用了一种细粒度级别的LLM-as-a-Judge范式，并结合量身定制的风险感知提示，从而能够对Agent行为进行可扩展、高保真度的评估，而无需枚举完整的动作空间。MIRAGE-Bench提供了关于LLM Agent失败模式的可行见解，并为在交互式环境中减轻幻觉的有原则的进展奠定了基础。

🔬 方法详解

问题定义：论文旨在解决LLM Agent在交互式环境中产生的幻觉问题。现有方法缺乏统一的评估标准和测试平台，难以系统性地识别和分析Agent的幻觉行为，导致难以有效地减轻幻觉风险。现有方法通常需要枚举所有可能的动作空间，评估成本高昂。

核心思路：论文的核心思路是构建一个统一的基准测试平台MIRAGE-Bench，通过系统性的审计和合成测试用例来引发Agent的幻觉行为，并利用LLM-as-a-Judge范式进行高效的评估。通过快照策略隔离决策点，使得测试过程可重复且确定。

技术框架：MIRAGE-Bench包含三个主要部分：1) 幻觉行为分类：将Agent幻觉行为分为不忠于任务指令、执行历史和环境观察三种类型。2) 测试用例生成：通过审计现有Agent基准和使用快照策略合成测试用例，以确定性和可重复的方式隔离决策点。3) 幻觉行为评估：采用LLM-as-a-Judge范式，利用风险感知提示，对Agent行为进行细粒度评估。

关键创新：该研究的关键创新在于：1) 提出了一个统一的、可复现的Agent幻觉行为评测基准MIRAGE-Bench。2) 采用快照策略隔离决策点，使得测试过程更加可控和可重复。3) 利用LLM-as-a-Judge范式，结合风险感知提示，实现了高效的幻觉行为评估，避免了枚举所有动作空间。

关键设计：快照策略：在Agent与环境交互过程中，记录关键决策点的状态，并以此为基础生成新的测试用例。LLM-as-a-Judge：使用预训练的LLM作为裁判，根据风险感知提示，评估Agent行为的合理性和安全性。风险感知提示：在提示LLM裁判时，加入对Agent行为风险的考虑，例如，强调Agent行为可能造成的潜在危害。

🖼️ 关键图片

📊 实验亮点

MIRAGE-Bench通过对现有Agent基准进行审计，发现了多种Agent幻觉行为。实验结果表明，即使在简单的交互式环境中，LLM Agent也容易产生幻觉。该研究还验证了LLM-as-a-Judge范式在幻觉行为评估中的有效性，为未来的Agent安全研究提供了新的思路。

🎯 应用场景

该研究成果可应用于开发更安全、可靠的LLM Agent，尤其是在需要高可靠性的场景中，例如自动驾驶、医疗诊断、金融交易等。通过MIRAGE-Bench，可以系统性地评估和改进LLM Agent的幻觉抑制能力，从而降低Agent在实际应用中产生错误行为的风险。

📄 摘要（原文）

Hallucinations pose critical risks for large language model (LLM)-based agents, often manifesting as hallucinative actions resulting from fabricated or misinterpreted information within the cognitive context. While recent studies have exposed such failures, existing evaluations remain fragmented and lack a principled testbed. In this paper, we present MIRAGE-Bench--Measuring Illusions in Risky AGEnt settings--the first unified benchmark for eliciting and evaluating hallucinations in interactive LLM-agent scenarios. We begin by introducing a three-part taxonomy to address agentic hallucinations: actions that are unfaithful to (i) task instructions, (ii) execution history, or (iii) environment observations. To analyze, we first elicit such failures by performing a systematic audit of existing agent benchmarks, then synthesize test cases using a snapshot strategy that isolates decision points in deterministic and reproducible manners. To evaluate hallucination behaviors, we adopt a fine-grained-level LLM-as-a-Judge paradigm with tailored risk-aware prompts, enabling scalable, high-fidelity assessment of agent actions without enumerating full action spaces. MIRAGE-Bench provides actionable insights on failure modes of LLM agents and lays the groundwork for principled progress in mitigating hallucinations in interactive environments.

MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理