Comparative reversal learning reveals rigid adaptation in LLMs under non-stationary uncertainty

作者: Haomiaomiao Wang, Tomás E Ward, Lili Zhang

分类: cs.AI

发布日期: 2026-04-07

💡 一句话要点

通过比较逆转学习揭示LLM在非稳态不确定性下的刚性适应

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 逆转学习 非稳态环境 适应性 强化学习

📋 核心要点

现有LLM在非稳态环境中适应性不足，无法有效应对环境突变带来的挑战。
将LLM视为序列决策策略，通过概率逆转学习任务评估其在动态环境中的适应能力。
实验表明，LLM在逆转学习中表现出刚性适应，对负面反馈不敏感，且存在价值极化现象。

📝 摘要（中文）

非稳态环境要求智能体在突发事件变化时修改先前学习的动作价值。本文将大型语言模型（LLM）视为序列决策策略，在一个具有三个潜在状态和由性能标准或超时触发的切换事件的双选项概率逆转学习任务中进行研究。作者将确定性的固定转换周期与增加波动性的随机调度进行比较，并评估了DeepSeek-V3.2、Gemini-3和GPT-5.2，并将人类数据作为行为参考。结果表明，所有模型中“赢-留”策略接近上限，而“输-换”策略明显减弱，揭示了对积极证据和消极证据的不对称使用。DeepSeek-V3.2在逆转后表现出极端的固守行为和较弱的习得能力，而Gemini-3和GPT-5.2适应得更快，但仍然不如人类对损失敏感。随机转换放大了LLM中特定于逆转的持久性，但并未统一减少总胜率，表明高总收益可以与刚性适应共存。分层强化学习（RL）拟合表明存在可分离的机制：刚性可能源于弱损失学习、膨胀的策略确定性或通过反事实抑制实现价值极化。这些结果激发了逆转敏感诊断和波动性感知模型，用于评估LLM在非稳态不确定性下的表现。

🔬 方法详解

问题定义：论文旨在研究大型语言模型（LLM）在非稳态不确定性环境下的适应能力。现有方法难以有效评估LLM在环境突变下的行为，缺乏对LLM刚性适应机制的深入理解。

核心思路：论文的核心思路是将LLM视为序列决策策略，并设计一个概率逆转学习任务来模拟非稳态环境。通过比较LLM与人类在不同环境条件下的行为，揭示LLM在适应性方面的不足，并分析其内在机制。

技术框架：整体框架包括以下几个主要步骤：1) 设计一个双选项概率逆转学习任务，包含三个潜在状态和由性能或超时触发的切换事件。2) 使用确定性的固定转换周期和随机调度来模拟不同程度的环境波动性。3) 评估DeepSeek-V3.2、Gemini-3和GPT-5.2在不同条件下的表现，并将结果与人类数据进行比较。4) 使用分层强化学习（RL）模型来拟合LLM的行为，从而分析其适应性机制。

关键创新：论文的关键创新在于：1) 将逆转学习任务应用于评估LLM的适应能力，提供了一种新的评估方法。2) 揭示了LLM在逆转学习中表现出的刚性适应现象，并分析了其内在机制，包括弱损失学习、策略确定性和价值极化。3) 提出了逆转敏感诊断和波动性感知模型，为未来评估和改进LLM在非稳态环境下的表现提供了方向。

关键设计：任务设计包括：双选项选择，概率奖励机制，性能或超时触发的逆转事件。环境波动性通过确定性固定周期和随机调度进行控制。分层RL模型用于拟合LLM的行为，分析其价值学习和策略选择过程。具体参数设置和损失函数细节在论文中有详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所有LLM都表现出“赢-留”策略，但“输-换”策略减弱，表明对负面反馈不敏感。DeepSeek-V3.2表现出极端的固守行为，而Gemini-3和GPT-5.2适应更快，但仍不如人类对损失敏感。随机转换放大了LLM的持久性，但未统一减少总胜率。分层RL拟合表明，刚性适应可能源于弱损失学习、策略确定性或价值极化。

🎯 应用场景

该研究成果可应用于评估和改进LLM在动态环境中的决策能力，例如在金融交易、自动驾驶、机器人控制等领域。通过提高LLM的适应性和鲁棒性，可以使其更好地应对现实世界中的不确定性和变化，从而提升其应用价值。

📄 摘要（原文）

Non-stationary environments require agents to revise previously learned action values when contingencies change. We treat large language models (LLMs) as sequential decision policies in a two-option probabilistic reversal-learning task with three latent states and switch events triggered by either a performance criterion or timeout. We compare a deterministic fixed transition cycle to a stochastic random schedule that increases volatility, and evaluate DeepSeek-V3.2, Gemini-3, and GPT-5.2, with human data as a behavioural reference. Across models, win-stay was near ceiling while lose-shift was markedly attenuated, revealing asymmetric use of positive versus negative evidence. DeepSeek-V3.2 showed extreme perseveration after reversals and weak acquisition, whereas Gemini-3 and GPT-5.2 adapted more rapidly but still remained less loss-sensitive than humans. Random transitions amplified reversal-specific persistence across LLMs yet did not uniformly reduce total wins, demonstrating that high aggregate payoff can coexist with rigid adaptation. Hierarchical reinforcement-learning (RL) fits indicate dissociable mechanisms: rigidity can arise from weak loss learning, inflated policy determinism, or value polarisation via counterfactual suppression. These results motivate reversal-sensitive diagnostics and volatility-aware models for evaluating LLMs under non-stationary uncertainty.

Comparative reversal learning reveals rigid adaptation in LLMs under non-stationary uncertainty

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理