MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them
作者: Weichen Zhang, Yiyou Sun, Pohao Huang, Jiayue Pu, Heyue Lin, Dawn Song
分类: cs.AI
发布日期: 2025-07-28
备注: Code and data: https://github.com/sunblaze-ucb/mirage-bench.git
💡 一句话要点
MIRAGE-Bench:首个交互式LLM Agent幻觉行为统一评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 幻觉行为 评测基准 交互式环境 风险评估
📋 核心要点
- 现有LLM Agent评估方法分散,缺乏统一的、有原则的测试平台,难以系统性地分析和解决幻觉问题。
- MIRAGE-Bench通过系统审计现有Agent基准,并结合快照策略生成确定性、可复现的测试用例,从而引发Agent的幻觉行为。
- 该研究采用LLM-as-a-Judge范式,结合风险感知提示,实现了对Agent行为的可扩展、高保真度评估,无需枚举所有动作空间。
📝 摘要(中文)
基于大型语言模型(LLM)的Agent存在幻觉风险,通常表现为由认知环境中捏造或误解的信息导致的幻觉行为。尽管最近的研究已经揭示了此类问题,但现有的评估方法仍然分散,缺乏一个有原则的测试平台。本文提出了MIRAGE-Bench——用于测量风险Agent环境中幻觉的基准,这是第一个用于引发和评估交互式LLM Agent场景中幻觉的统一基准。我们首先引入了一个三部分分类法来解决Agent的幻觉问题:不忠于(i)任务指令,(ii)执行历史或(iii)环境观察的行为。为了分析,我们首先通过对现有Agent基准进行系统审计来引出此类失败案例,然后使用快照策略合成测试用例,该策略以确定性和可重复的方式隔离决策点。为了评估幻觉行为,我们采用了一种细粒度级别的LLM-as-a-Judge范式,并结合量身定制的风险感知提示,从而能够对Agent行为进行可扩展、高保真度的评估,而无需枚举完整的动作空间。MIRAGE-Bench提供了关于LLM Agent失败模式的可行见解,并为在交互式环境中减轻幻觉的有原则的进展奠定了基础。
🔬 方法详解
问题定义:论文旨在解决LLM Agent在交互式环境中产生的幻觉问题。现有方法缺乏统一的评估标准和测试平台,难以系统性地识别和分析Agent的幻觉行为,导致难以有效地减轻幻觉风险。现有方法通常需要枚举所有可能的动作空间,评估成本高昂。
核心思路:论文的核心思路是构建一个统一的基准测试平台MIRAGE-Bench,通过系统性的审计和合成测试用例来引发Agent的幻觉行为,并利用LLM-as-a-Judge范式进行高效的评估。通过快照策略隔离决策点,使得测试过程可重复且确定。
技术框架:MIRAGE-Bench包含三个主要部分:1) 幻觉行为分类:将Agent幻觉行为分为不忠于任务指令、执行历史和环境观察三种类型。2) 测试用例生成:通过审计现有Agent基准和使用快照策略合成测试用例,以确定性和可重复的方式隔离决策点。3) 幻觉行为评估:采用LLM-as-a-Judge范式,利用风险感知提示,对Agent行为进行细粒度评估。
关键创新:该研究的关键创新在于:1) 提出了一个统一的、可复现的Agent幻觉行为评测基准MIRAGE-Bench。2) 采用快照策略隔离决策点,使得测试过程更加可控和可重复。3) 利用LLM-as-a-Judge范式,结合风险感知提示,实现了高效的幻觉行为评估,避免了枚举所有动作空间。
关键设计:快照策略:在Agent与环境交互过程中,记录关键决策点的状态,并以此为基础生成新的测试用例。LLM-as-a-Judge:使用预训练的LLM作为裁判,根据风险感知提示,评估Agent行为的合理性和安全性。风险感知提示:在提示LLM裁判时,加入对Agent行为风险的考虑,例如,强调Agent行为可能造成的潜在危害。
🖼️ 关键图片
📊 实验亮点
MIRAGE-Bench通过对现有Agent基准进行审计,发现了多种Agent幻觉行为。实验结果表明,即使在简单的交互式环境中,LLM Agent也容易产生幻觉。该研究还验证了LLM-as-a-Judge范式在幻觉行为评估中的有效性,为未来的Agent安全研究提供了新的思路。
🎯 应用场景
该研究成果可应用于开发更安全、可靠的LLM Agent,尤其是在需要高可靠性的场景中,例如自动驾驶、医疗诊断、金融交易等。通过MIRAGE-Bench,可以系统性地评估和改进LLM Agent的幻觉抑制能力,从而降低Agent在实际应用中产生错误行为的风险。
📄 摘要(原文)
Hallucinations pose critical risks for large language model (LLM)-based agents, often manifesting as hallucinative actions resulting from fabricated or misinterpreted information within the cognitive context. While recent studies have exposed such failures, existing evaluations remain fragmented and lack a principled testbed. In this paper, we present MIRAGE-Bench--Measuring Illusions in Risky AGEnt settings--the first unified benchmark for eliciting and evaluating hallucinations in interactive LLM-agent scenarios. We begin by introducing a three-part taxonomy to address agentic hallucinations: actions that are unfaithful to (i) task instructions, (ii) execution history, or (iii) environment observations. To analyze, we first elicit such failures by performing a systematic audit of existing agent benchmarks, then synthesize test cases using a snapshot strategy that isolates decision points in deterministic and reproducible manners. To evaluate hallucination behaviors, we adopt a fine-grained-level LLM-as-a-Judge paradigm with tailored risk-aware prompts, enabling scalable, high-fidelity assessment of agent actions without enumerating full action spaces. MIRAGE-Bench provides actionable insights on failure modes of LLM agents and lays the groundwork for principled progress in mitigating hallucinations in interactive environments.