Text-to-Decision Agent: Offline Meta-Reinforcement Learning from Natural Language Supervision
作者: Shilin Zhang, Zican Hu, Wenhao Wu, Xinyi Xie, Jianxiang Tang, Chunlin Chen, Daoyi Dong, Yu Cheng, Zhenhong Sun, Zhi Wang
分类: cs.AI
发布日期: 2025-04-21 (更新: 2025-11-22)
备注: 32 pages, 8 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出T2DA,利用自然语言监督离线元强化学习,实现文本到决策的零样本泛化。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线元强化学习 自然语言监督 文本到决策 对比学习 零样本泛化
📋 核心要点
- 现有离线元强化学习方法依赖高质量样本或预热探索,限制了其在未见任务中的泛化能力和应用。
- T2DA利用自然语言作为监督信号,通过对比学习将文本信息与决策嵌入对齐,弥合语义鸿沟。
- 实验表明,T2DA在MuJoCo和Meta-World基准测试中实现了优秀的零样本泛化性能,超越了现有基线。
📝 摘要(中文)
离线元强化学习通常通过高质量样本或预热探索来推断任务信念,以此实现泛化。但这种形式限制了其通用性和可用性,因为这些监督信号对于未见任务而言,获取成本高昂甚至不可行。直接从决策任务的原始文本中学习,是一种利用更广泛监督来源的有前景的替代方案。本文提出了文本到决策智能体(T2DA),这是一个简单且可扩展的框架,使用自然语言监督离线元强化学习。我们首先引入一个广义世界模型,将多任务决策数据编码到动态感知的嵌入空间中。然后,受到CLIP的启发,我们预测哪个文本描述与哪个决策嵌入相匹配,通过对比语言-决策预训练有效地弥合它们的语义差距,并对齐文本嵌入以理解环境动态。在训练文本条件下的通用策略后,智能体可以直接实现响应语言指令的零样本文本到决策生成。在MuJoCo和Meta-World基准上的综合实验表明,T2DA促进了高容量的零样本泛化,并优于各种类型的基线。
🔬 方法详解
问题定义:离线元强化学习旨在学习一个能够快速适应新任务的策略。然而,现有方法通常依赖于高质量的样本或预热探索来推断任务信息,这在实际应用中可能难以获取,尤其是在面对未见过的任务时。因此,如何利用更广泛的监督信号,例如自然语言描述,来指导离线元强化学习,是一个重要的挑战。
核心思路:T2DA的核心思路是利用自然语言作为监督信号,通过对比学习的方式,将文本描述与决策过程中的状态、动作等信息联系起来。具体来说,模型学习一个联合嵌入空间,使得描述同一任务的文本和决策轨迹在该空间中距离更近,而描述不同任务的文本和决策轨迹距离更远。这样,模型就可以通过理解文本描述,来推断任务的目标和约束,从而指导策略的生成。
技术框架:T2DA框架主要包含以下几个模块:1) 广义世界模型:用于将多任务决策数据编码到动态感知的嵌入空间中。2) 文本编码器:用于将自然语言描述编码为文本嵌入。3) 对比学习模块:用于学习文本嵌入和决策嵌入之间的对应关系。4) 文本条件策略:根据文本嵌入生成策略。训练过程包括对比语言-决策预训练和策略优化两个阶段。
关键创新:T2DA的关键创新在于利用对比学习将自然语言描述与决策过程联系起来,从而实现文本到决策的零样本泛化。与传统的离线元强化学习方法相比,T2DA不需要预先收集高质量的样本或进行预热探索,而是直接从文本描述中学习任务信息,这大大提高了其通用性和可用性。
关键设计:1) 对比损失函数:采用InfoNCE损失函数,鼓励模型将描述同一任务的文本和决策轨迹拉近,将描述不同任务的文本和决策轨迹推远。2) 文本编码器:可以使用预训练的语言模型,如BERT或CLIP,来提取文本特征。3) 决策嵌入:通过广义世界模型学习决策数据的嵌入表示,该模型能够捕捉环境的动态特性。
🖼️ 关键图片
📊 实验亮点
T2DA在MuJoCo和Meta-World基准测试中取得了显著的成果。例如,在Meta-World的ML10和ML45任务上,T2DA的零样本泛化性能优于各种基线方法,包括基于度量的元学习方法和基于模型的强化学习方法。实验结果表明,T2DA能够有效地利用自然语言信息,实现高容量的零样本泛化。
🎯 应用场景
T2DA具有广泛的应用前景,例如可以应用于机器人控制、游戏AI、自动驾驶等领域。通过自然语言指令,用户可以轻松地控制智能体完成各种任务,而无需进行复杂的编程或手动示教。此外,T2DA还可以用于个性化推荐、智能客服等领域,根据用户的文本描述,提供定制化的服务。
📄 摘要(原文)
Offline meta-RL usually tackles generalization by inferring task beliefs from high-quality samples or warmup explorations. The restricted form limits their generality and usability since these supervision signals are expensive and even infeasible to acquire in advance for unseen tasks. Learning directly from the raw text about decision tasks is a promising alternative to leverage a much broader source of supervision. In the paper, we propose \textbf{T}ext-to-\textbf{D}ecision \textbf{A}gent (\textbf{T2DA}), a simple and scalable framework that supervises offline meta-RL with natural language. We first introduce a generalized world model to encode multi-task decision data into a dynamics-aware embedding space. Then, inspired by CLIP, we predict which textual description goes with which decision embedding, effectively bridging their semantic gap via contrastive language-decision pre-training and aligning the text embeddings to comprehend the environment dynamics. After training the text-conditioned generalist policy, the agent can directly realize zero-shot text-to-decision generation in response to language instructions. Comprehensive experiments on MuJoCo and Meta-World benchmarks show that T2DA facilitates high-capacity zero-shot generalization and outperforms various types of baselines. Our code is available at \textcolor{magenta}{\href{https://github.com/NJU-RL/T2DA}{https://github.com/NJU-RL/T2DA}}.