The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift

📄 arXiv: 2603.08455v1 📥 PDF

作者: Zhe Hong

分类: cs.AI, cs.LG

发布日期: 2026-03-09

备注: 10 pages, 5 figures, preprint


💡 一句话要点

研究基于世界模型的强化学习智能体在渐进漂移下的异常检测阈值与盲区问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 世界模型 异常检测 观测漂移 自监控

📋 核心要点

  1. 现有强化学习智能体在观测数据逐渐被破坏时,缺乏对自身状态变化的有效监控机制,难以确定何时以及如何进行干预。
  2. 该研究通过分析世界模型在连续观测漂移下的行为,揭示了智能体“觉醒”的临界阈值,并探究了影响该阈值的关键因素。
  3. 实验表明,存在一个普遍的检测阈值,其位置受检测器灵敏度、噪声基底和环境动力学三者交互影响,并发现某些环境会导致智能体在检测前崩溃。

📝 摘要(中文)

本文研究了强化学习智能体在观测数据逐渐被破坏的情况下,智能体“觉醒”的漂移速率以及决定该边界的因素。通过在四个MuJoCo环境中,使用三种检测器(z-score、方差、百分位数)和三种模型容量,对连续观测漂移下的基于世界模型的自监控进行研究,发现:(1)普遍存在一个清晰的检测阈值ε:低于该阈值,漂移被吸收为正常变化;高于该阈值,检测迅速发生。阈值的存在和S形形状在所有检测器和模型容量中是不变的,但其位置取决于检测器灵敏度、噪声基底结构和环境动力学之间的相互作用。(2)所有检测器(包括没有时间平滑的方差和百分位数检测器)完全无法检测到正弦漂移,这表明这是一种世界模型属性,而不是检测器伪影。(3)在每个环境中,ε遵循检测器参数的幂律(R^2 = 0.89-0.97),但跨环境预测失败(R^2 = 0.45),表明缺失的变量是特定于环境的动力学结构∂PE/∂ε。(4)在脆弱的环境中,智能体在任何检测器触发之前崩溃(“在感知之前崩溃”),从而产生一种根本无法监控的故障模式。研究结果将ε*从一种涌现的世界模型属性重新定义为噪声基底、检测器和环境动力学之间的三向交互,从而为强化学习智能体中的自监控边界提供了一种更具防御性和经验基础的解释。

🔬 方法详解

问题定义:论文旨在解决强化学习智能体在观测数据逐渐被噪声或恶意干扰破坏时,如何有效地进行自我监控和异常检测的问题。现有方法通常依赖于预定义的阈值或简单的统计指标,无法适应复杂环境和动态变化的干扰模式,导致检测不准确或滞后,甚至出现智能体在检测到异常前就已崩溃的情况。

核心思路:论文的核心思路是将异常检测问题置于世界模型的框架下,通过分析世界模型对观测数据漂移的响应,寻找一个临界阈值,在该阈值附近,智能体的行为会发生显著变化。该阈值代表了智能体对环境变化的容忍极限,超过该极限则表明系统可能面临风险。通过研究影响该阈值的因素,可以更好地理解智能体的脆弱性,并设计更有效的自监控机制。

技术框架:整体框架包括以下几个主要模块:1) 环境模拟:使用MuJoCo环境模拟不同复杂度的物理环境。2) 智能体训练:训练基于世界模型的强化学习智能体,使其能够适应环境并完成特定任务。3) 观测漂移注入:逐步向智能体的观测数据中注入噪声或干扰,模拟环境的逐渐变化。4) 异常检测器:使用不同的异常检测器(如z-score、方差、百分位数)监控世界模型的输出,检测异常行为。5) 阈值分析:分析不同检测器在不同环境下的检测阈值,并研究影响阈值的因素。

关键创新:论文最重要的技术创新在于发现了强化学习智能体在观测数据漂移下存在一个普遍的检测阈值ε*,并将其与噪声基底、检测器和环境动力学三者联系起来。这为理解智能体的脆弱性和设计更有效的自监控机制提供了一个新的视角。此外,论文还发现正弦漂移是所有检测器都无法检测到的,揭示了世界模型的一个内在属性。

关键设计:论文的关键设计包括:1) 使用多种MuJoCo环境,以评估算法在不同环境下的泛化能力。2) 使用三种不同的异常检测器,以研究检测器类型对检测阈值的影响。3) 通过控制观测数据的漂移速率,精确测量检测阈值。4) 通过分析检测阈值与环境动力学之间的关系,揭示了影响智能体脆弱性的关键因素。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,存在一个普遍的检测阈值ε*,低于该阈值,漂移被吸收;高于该阈值,检测迅速发生。该阈值遵循检测器参数的幂律(R^2 = 0.89-0.97),但跨环境预测失败(R^2 = 0.45),表明环境动力学是关键因素。此外,研究发现正弦漂移是所有检测器都无法检测到的,揭示了世界模型的一个内在属性。

🎯 应用场景

该研究成果可应用于各种需要自主运行的智能系统,例如自动驾驶、机器人导航、工业控制等。通过实时监控智能体的状态和环境变化,及时发现潜在的故障或安全风险,从而提高系统的可靠性和安全性。此外,该研究还可以帮助我们更好地理解智能体的脆弱性,并设计更鲁棒的智能系统。

📄 摘要(原文)

When an RL agent's observations are gradually corrupted, at what drift rate does it "wake up" -- and what determines this boundary? We study world model-based self-monitoring under continuous observation drift across four MuJoCo environments, three detector families (z-score, variance, percentile), and three model capacities. We find that (1) a sharp detection threshold $\varepsilon^$ exists universally: below it, drift is absorbed as normal variation; above it, detection occurs rapidly. The threshold's existence and sigmoid shape are invariant across all detector families and model capacities, though its position depends on the interaction between detector sensitivity, noise floor structure, and environment dynamics. (2) Sinusoidal drift is completely undetectable by all detector families -- including variance and percentile detectors with no temporal smoothing -- establishing this as a world model property rather than a detector artifact. (3) Within each environment, $\varepsilon^$ follows a power law in detector parameters ($R^2 = 0.89$-$0.97$), but cross-environment prediction fails ($R^2 = 0.45$), revealing that the missing variable is environment-specific dynamics structure $\partial \mathrm{PE}/\partial\varepsilon$. (4) In fragile environments, agents collapse before any detector can fire ("collapse before awareness"), creating a fundamentally unmonitorable failure mode. Our results reframe $\varepsilon^*$ from an emergent world model property to a three-way interaction between noise floor, detector, and environment dynamics, providing a more defensible and empirically grounded account of self-monitoring boundaries in RL agents.