Language-based Trial and Error Falls Behind in the Era of Experience

作者: Haoyu Wang, Guozheng Ma, Shugang Cui, Yilun Kong, Haotian Luo, Li Shen, Mengya Gao, Yichao Wu, Xiaogang Wang, Dacheng Tao

分类: cs.AI

发布日期: 2026-01-29

💡 一句话要点

提出SCOUT框架，解耦探索与利用，提升LLM在非语言环境中的试错能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 试错学习 环境探索 监督微调 非语言环境 智能体 解耦

📋 核心要点

现有LLM在非语言环境中试错学习能力不足，主要瓶颈在于探索成本过高，计算资源消耗巨大。
SCOUT框架通过轻量级“侦察兵”进行高效探索，收集轨迹数据，引导LLM进行学习和强化。
实验表明，SCOUT显著提升了LLM在非语言任务中的性能，并大幅降低了计算资源消耗。

📝 摘要（中文）

大型语言模型（LLM）在基于语言的智能体任务中表现出色，但其在未见过的、非语言环境（例如，符号或空间任务）中的适用性仍然有限。先前的工作将这种性能差距归因于预训练分布和测试分布之间的不匹配。本文表明，主要的瓶颈是探索的高昂成本：掌握这些任务需要大量的试错，这对于在高维语义空间中运行的参数繁重的LLM来说，在计算上是不可持续的。为了解决这个问题，我们提出了一种新颖的框架SCOUT（Sub-Scale Collaboration On Unseen Tasks），该框架将探索与利用解耦。我们采用轻量级的“侦察兵”（例如，小型MLP）以远超LLM的速度和规模来探测环境动态。收集到的轨迹用于通过监督微调（SFT）来引导LLM，然后进行多轮强化学习（RL）以激活其潜在的世界知识。经验表明，SCOUT使Qwen2.5-3B-Instruct模型能够达到0.86的平均分数，显著优于包括Gemini-2.5-Pro（0.60）在内的专有模型，同时节省约60%的GPU小时消耗。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在未见过的非语言环境（如符号或空间任务）中，由于探索成本过高而导致的试错学习能力不足的问题。现有方法直接使用LLM进行探索，计算资源消耗巨大，效率低下。

核心思路：论文的核心思路是将探索和利用解耦。利用轻量级的“侦察兵”（例如小型MLP）进行快速、低成本的环境探索，收集环境动态信息，然后利用这些信息来引导和训练LLM，使其能够更好地利用其已有的知识进行决策。这样可以显著降低LLM的探索成本，提高学习效率。

技术框架：SCOUT框架包含两个主要阶段：探索阶段和利用阶段。在探索阶段，使用轻量级的“侦察兵”与环境进行交互，收集轨迹数据。在利用阶段，首先使用收集到的轨迹数据对LLM进行监督微调（SFT），使其初步掌握环境动态。然后，使用多轮强化学习（RL）进一步训练LLM，激活其潜在的世界知识，使其能够更好地进行决策。

关键创新：SCOUT框架的关键创新在于将探索和利用解耦，并使用轻量级的“侦察兵”进行高效探索。这与现有方法直接使用LLM进行探索形成了鲜明对比，显著降低了计算成本，提高了学习效率。

关键设计：侦察兵采用小型MLP，结构简单，易于训练。在SFT阶段，使用收集到的轨迹数据作为训练数据，训练LLM。在RL阶段，使用多轮RL算法，例如PPO，对LLM进行进一步训练。具体的参数设置和损失函数选择取决于具体的任务和环境。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SCOUT框架能够显著提升LLM在非语言任务中的性能。例如，使用SCOUT框架训练的Qwen2.5-3B-Instruct模型达到了0.86的平均分数，显著优于Gemini-2.5-Pro（0.60），同时节省了约60%的GPU小时消耗。这些结果表明，SCOUT框架是一种高效、有效的LLM训练方法。

🎯 应用场景

SCOUT框架可应用于各种需要智能体在未知环境中进行试错学习的场景，例如机器人导航、游戏AI、自动化控制等。该框架能够显著降低计算成本，提高学习效率，使得LLM能够更好地应用于实际问题中，具有重要的实际价值和未来影响。

📄 摘要（原文）

While Large Language Models (LLMs) excel in language-based agentic tasks, their applicability to unseen, nonlinguistic environments (e.g., symbolic or spatial tasks) remains limited. Previous work attributes this performance gap to the mismatch between the pretraining distribution and the testing distribution. In this work, we demonstrate the primary bottleneck is the prohibitive cost of exploration: mastering these tasks requires extensive trial-and-error, which is computationally unsustainable for parameter-heavy LLMs operating in a high dimensional semantic space. To address this, we propose SCOUT (Sub-Scale Collaboration On Unseen Tasks), a novel framework that decouples exploration from exploitation. We employ lightweight "scouts" (e.g., small MLPs) to probe environmental dynamics at a speed and scale far exceeding LLMs. The collected trajectories are utilized to bootstrap the LLM via Supervised Fine-Tuning (SFT), followed by multi-turn Reinforcement Learning (RL) to activate its latent world knowledge. Empirically, SCOUT enables a Qwen2.5-3B-Instruct model to achieve an average score of 0.86, significantly outperforming proprietary models, including Gemini-2.5-Pro (0.60), while saving about 60% GPU hours consumption.

Language-based Trial and Error Falls Behind in the Era of Experience

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理