Cross-Environment Neural Reranking for Sample-Efficient Action Selection in Text-Based Agents
作者: Kan Shao
分类: cs.CL
发布日期: 2026-06-01
备注: 11 pages, 4 figures, 6 tables
💡 一句话要点
提出跨环境神经重排序方法,提升文本Agent在多任务场景下的样本效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本Agent 神经重排序 跨环境学习 样本效率 DeBERTa-v3 联合训练 LoRA适配器
📋 核心要点
- 现有文本Agent依赖大型语言模型,推理成本高昂,难以在资源受限场景部署。
- 提出跨环境神经重排序方法,通过联合训练轻量级模型,实现多环境下的高效动作选择。
- 实验表明,该方法在多个文本游戏环境中表现出色,并具有良好的样本效率和跨领域迁移能力。
📝 摘要(中文)
大型语言模型Agent在基于文本的基准测试中表现出色,但推理成本高昂,因此需要紧凑的神经重排序器来进行动作选择。本文研究了单个轻量级模型是否可以在多个不同的环境中执行动作选择,从而消除每个环境的模型维护需求。通过在ALFWorld、WebShop和ScienceWorld上联合训练DeBERTa-v3(184M-434M参数)并进行少数类上采样,发现重新平衡的双环境联合训练显著优于单环境ALFWorld的性能(净增益+0.412),同时保持了具有竞争力的WebShop性能(+0.214 vs. +0.249单环境)。三环境训练在4个种子下的平均综合净增益为+0.551 +/- 0.024,每个环境的结果接近专门的单环境模型,同时提供积极的跨领域迁移。跨环境适应具有很高的样本效率:仅在目标领域数据的9.2%上进行微调即可恢复完整数据性能的93%,并且扩展模型容量带来的好处有限,表明数据多样性是主要驱动因素。使用PCGrad的环境感知LoRA适配器路由实现了+0.611的最佳种子结果(种子42),种子456和789分别为+0.554和+0.559,但由于种子123崩溃至+0.263(4种子平均值+0.497 +/- 0.158),因此表现出较高的方差,这是一个有希望但目前不稳定的方向。使用干净分割和数据重新平衡的联合训练是关键要素。我们将在接受后发布包含51,580个训练实例(41,740个原始唯一状态,带有少数类上采样)的三环境基准测试和所有模型检查点。
🔬 方法详解
问题定义:论文旨在解决文本Agent在不同环境下的动作选择问题。现有方法通常需要为每个环境单独训练模型,导致维护成本高昂,且无法利用跨环境的知识。此外,大型语言模型推理成本高,不适用于资源受限的场景。
核心思路:论文的核心思路是利用联合训练的方式,训练一个可以在多个不同环境下进行动作选择的轻量级神经重排序模型。通过在多个环境的数据上进行训练,模型可以学习到通用的知识,从而提高在各个环境下的性能,并实现跨领域的知识迁移。
技术框架:整体框架包括数据收集、模型训练和动作选择三个阶段。首先,收集来自多个文本游戏环境的数据,并进行预处理。然后,使用DeBERTa-v3作为基础模型,在多个环境的数据上进行联合训练,并采用少数类上采样来平衡不同环境的数据分布。最后,在动作选择阶段,使用训练好的模型对候选动作进行重排序,选择得分最高的动作。
关键创新:论文的关键创新在于提出了跨环境神经重排序的方法,通过联合训练轻量级模型,实现了在多个环境下的高效动作选择。此外,论文还探索了环境感知LoRA适配器路由和PCGrad等技术,以进一步提高模型的性能。
关键设计:论文使用了DeBERTa-v3作为基础模型,并采用了少数类上采样来平衡不同环境的数据分布。在训练过程中,使用了交叉熵损失函数,并采用AdamW优化器进行优化。此外,论文还探索了不同的模型容量和训练策略,以找到最佳的模型配置。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在ALFWorld、WebShop和ScienceWorld三个文本游戏环境中取得了显著的性能提升。三环境联合训练的平均综合净增益为+0.551 +/- 0.024。仅使用目标领域数据的9.2%进行微调,即可恢复完整数据性能的93%,表明该方法具有很高的样本效率。环境感知LoRA适配器路由在最佳种子下实现了+0.611的性能。
🎯 应用场景
该研究成果可应用于各种需要文本Agent进行决策的场景,例如智能客服、游戏AI、任务型对话系统等。通过训练一个通用的Agent模型,可以减少模型维护成本,并提高Agent在不同环境下的适应能力。此外,该方法还可以用于构建更加智能和高效的自动化系统。
📄 摘要(原文)
Large language model agents achieve strong performance on text-based benchmarks but incur prohibitive inference costs, motivating the use of compact neural rerankers for action selection. We investigate whether a single lightweight model can perform action selection across multiple diverse environments, a capability that would eliminate per-environment model maintenance. Training DeBERTa-v3 (184M-434M parameters) jointly on ALFWorld, WebShop, and ScienceWorld with minority-class upsampling, we find that rebalanced two-environment joint training substantially improves over single-environment ALFWorld performance (net gain +0.412) while maintaining competitive WebShop performance (+0.214 vs. +0.249 single-environment). Three-environment training yields a mean combined net gain of +0.551 +/- 0.024 across 4 seeds, with per-environment results approaching specialized single-environment models while providing positive cross-domain transfer. Cross-environment adaptation is highly sample-efficient: fine-tuning on only 9.2% of target-domain data recovers 93% of full-data performance, and scaling model capacity yields limited benefits, indicating data diversity is the primary driver. Environment-aware LoRA adapter routing with PCGrad achieves a best-seed result of +0.611 (seed 42), with seeds 456 and 789 at +0.554 and +0.559, but exhibits high variance due to seed 123 collapsing to +0.263 (4-seed mean +0.497 +/- 0.158), representing a promising but currently unstable direction. Joint training with clean splits and data rebalancing is a key ingredient. We will release our three-environment benchmark of 51,580 training instances (41,740 raw unique states with minority-class upsampling) and all model checkpoints upon acceptance.