Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

📄 arXiv: 2603.08398v1 📥 PDF

作者: Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-03-09

备注: Work done during an internship at the Qwen Team, Alibaba Group


💡 一句话要点

提出Token条件强化学习(ToCoRL),实现大语言模型行为模式的精准控制与迁移。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 行为可塑性 Token条件生成 强化学习 行为控制

📋 核心要点

  1. 现有大语言模型在特定任务上表现固定,难以根据需求切换行为模式,例如在需要直接回答时仍进行逐步推理。
  2. 论文提出Token条件强化学习(ToCoRL),通过token前缀引导模型生成,并利用强化学习将瞬时行为适应转化为稳定可学习的行为模式。
  3. 实验表明,ToCoRL能有效控制模型行为,例如使擅长推理的模型也能胜任事实问答,且不损失原有能力。

📝 摘要(中文)

本文揭示了大型语言模型(LLM)内在的行为可塑性,类似于变色龙根据环境线索调整颜色。这种可塑性可以通过token条件生成来展现,并通过强化学习来稳定。具体来说,通过以从表现出期望行为的响应中采样的精心选择的token前缀为条件进行生成,LLM可以在推理时无缝地适应其行为模式(例如,从逐步推理切换到直接回答),而无需重新训练。基于此,我们提出了Token条件强化学习(ToCoRL),这是一个原则性框架,利用强化学习将这种类似变色龙的可塑性内化,将瞬时推理时适应转化为稳定且可学习的行为模式。ToCoRL通过token条件生成来指导探索,并不断加强利用,从而实现适当行为的涌现。大量实验表明,ToCoRL能够在不降低能力的情况下实现精确的行为控制。值得注意的是,我们表明,大型推理模型在复杂数学方面表现出色,但可以有效地适应擅长事实问答,而这以前受到其逐步推理模式的阻碍。

🔬 方法详解

问题定义:现有的大语言模型在训练完成后,其行为模式相对固定,难以根据不同的任务需求进行灵活调整。例如,一些模型在进行事实问答时,仍然会进行不必要的逐步推理,导致效率降低。因此,如何使大语言模型能够根据上下文或任务需求,动态地调整其行为模式,是一个重要的研究问题。

核心思路:论文的核心思路是利用token条件生成来引导模型的行为,并通过强化学习来稳定这种行为。具体来说,通过在生成时,以特定的token前缀作为条件,可以促使模型产生特定的行为模式。例如,如果希望模型进行直接回答,可以使用一些指示直接回答的token作为前缀。然后,利用强化学习来优化模型的策略,使其能够根据不同的任务需求,自动选择合适的token前缀,从而实现行为的动态调整。

技术框架:ToCoRL框架主要包含两个阶段:token条件生成和强化学习。在token条件生成阶段,模型根据输入的上下文和任务需求,生成一个token前缀。然后,模型以该token前缀为条件,生成后续的文本。在强化学习阶段,模型通过与环境交互,学习如何选择合适的token前缀,以最大化奖励。奖励函数的设计需要能够反映任务的需求,例如,对于事实问答任务,可以直接回答的奖励高于逐步推理的奖励。

关键创新:ToCoRL的关键创新在于将token条件生成与强化学习相结合,从而实现了大语言模型行为的动态调整。与传统的微调方法相比,ToCoRL不需要重新训练整个模型,只需要学习如何选择合适的token前缀即可,因此效率更高。此外,ToCoRL还可以实现行为的迁移,例如,可以将一个模型在某个任务上学习到的行为,迁移到另一个任务上。

关键设计:在token条件生成阶段,可以使用不同的方法来生成token前缀,例如,可以使用一个单独的模型来预测token前缀,也可以直接从训练数据中采样token前缀。在强化学习阶段,可以使用不同的强化学习算法,例如,可以使用策略梯度算法或Q-learning算法。奖励函数的设计需要根据具体的任务需求进行调整。论文中使用了PPO算法进行强化学习,并设计了相应的奖励函数来鼓励模型产生期望的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ToCoRL能够有效地控制大语言模型的行为模式。例如,在事实问答任务中,使用ToCoRL可以将一个擅长推理的模型,转化为一个擅长直接回答的模型,并且在不损失原有推理能力的情况下,提高了事实问答的准确率。此外,实验还表明,ToCoRL可以实现行为的迁移,例如,可以将一个模型在某个任务上学习到的行为,迁移到另一个任务上。

🎯 应用场景

该研究成果可应用于各种需要灵活行为模式的大语言模型应用场景,例如智能客服、对话系统、内容生成等。通过ToCoRL,可以使模型根据用户的需求,自动调整其行为模式,从而提供更个性化、更高效的服务。例如,在智能客服中,可以使模型在用户提出简单问题时直接回答,而在用户提出复杂问题时进行逐步推理。

📄 摘要(原文)

In this work, we reveal that Large Language Models (LLMs) possess intrinsic behavioral plasticity-akin to chameleons adapting their coloration to environmental cues-that can be exposed through token-conditional generation and stabilized via reinforcement learning. Specifically, by conditioning generation on carefully selected token prefixes sampled from responses exhibiting desired behaviors, LLMs seamlessly adapt their behavioral modes at inference time (e.g., switching from step-by-step reasoning to direct answering) without retraining. Based on this insight, we propose Token-Conditioned Reinforcement Learning (ToCoRL), a principled framework that leverages RL to internalize this chameleon-like plasticity, transforming transient inference-time adaptations into stable and learnable behavioral patterns. ToCoRL guides exploration with token-conditional generation and keep enhancing exploitation, enabling emergence of appropriate behaviors. Extensive experiments show that ToCoRL enables precise behavioral control without capability degradation. Notably, we show that large reasoning models, while performing strongly on complex mathematics, can be effectively adapted to excel at factual question answering, which was a capability previously hindered by their step-by-step reasoning patterns.