ARIA: Training Language Agents with Intention-Driven Reward Aggregation

📄 arXiv: 2506.00539v2 📥 PDF

作者: Ruihan Yang, Yikai Zhang, Aili Chen, Xintao Wang, Siyu Yuan, Jiangjie Chen, Deqing Yang, Yanghua Xiao

分类: cs.CL

发布日期: 2025-05-31 (更新: 2025-06-04)


💡 一句话要点

ARIA:通过意图驱动的奖励聚合训练语言Agent

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言Agent 强化学习 奖励聚合 意图空间 策略优化

📋 核心要点

  1. 开放式语言动作环境中的动作空间巨大,直接采样导致奖励稀疏和方差大,阻碍强化学习。
  2. ARIA将高维动作空间投影到低维意图空间,通过意图感知的奖励聚合来减少奖励方差。
  3. 实验表明ARIA显著降低策略梯度方差,并在多个下游任务中取得了显著的性能提升。

📝 摘要(中文)

大型语言模型(LLMs)使Agent能够通过自由形式的语言交互执行复杂的推理和决策。然而,在开放式的语言动作环境(例如,谈判或提问游戏)中,动作空间可以被公式化为token上的联合分布,从而导致指数级大的动作空间。在这种空间中采样动作可能导致极端的奖励稀疏性,这会带来较大的奖励方差,阻碍有效的强化学习(RL)。为了解决这个问题,我们提出了ARIA,一种在意图空间中聚合奖励的方法,以实现高效和有效的语言Agent训练。ARIA旨在将来自高维联合token分布空间的自然语言动作投影到低维意图空间,其中语义相似的动作被聚类并分配共享奖励。这种意图感知的奖励聚合通过密集化奖励信号来减少奖励方差,从而促进更好的策略优化。大量的实验表明,ARIA不仅显著降低了策略梯度方差,而且在四个下游任务中平均提供了9.95%的显著性能提升,始终优于离线和在线RL基线。

🔬 方法详解

问题定义:论文旨在解决开放式语言动作环境中,由于动作空间巨大(token联合分布),导致奖励极度稀疏,进而使得强化学习训练Agent困难的问题。现有方法难以有效探索如此巨大的动作空间,奖励信号的稀疏性和高方差阻碍了策略的有效优化。

核心思路:核心思路是将高维的自然语言动作空间映射到一个低维的“意图空间”。在这个意图空间中,语义相似的动作被聚类在一起,并共享奖励。通过这种方式,即使Agent采取了略有不同的表达方式,只要其意图相同,就能获得相似的奖励,从而缓解奖励稀疏性问题,降低奖励方差。

技术框架:ARIA方法包含以下几个主要步骤:1) 动作编码:使用语言模型(如LLM)将自然语言动作编码成向量表示。2) 意图聚类:利用聚类算法(如k-means)将动作向量聚类到不同的意图簇中。每个簇代表一个意图。3) 奖励聚合:对于属于同一个意图簇的动作,将其奖励进行聚合(例如,取平均值或最大值)。4) 策略优化:使用强化学习算法(如PPO)基于聚合后的奖励来优化Agent的策略。

关键创新:最关键的创新在于引入了“意图空间”的概念,并将奖励聚合在这个空间中进行。与直接在原始动作空间中进行强化学习相比,ARIA通过降低动作空间的维度,并对语义相似的动作赋予相似的奖励,从而有效地缓解了奖励稀疏性和高方差问题。这使得Agent能够更快地学习到有效的策略。

关键设计:关键设计包括:1) 如何选择合适的语言模型进行动作编码;2) 如何选择合适的聚类算法和簇的数量;3) 如何设计奖励聚合函数(例如,平均奖励、最大奖励等);4) 如何选择合适的强化学习算法进行策略优化。论文中可能还涉及一些超参数的调整,例如学习率、折扣因子等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ARIA方法在四个下游任务中平均取得了9.95%的性能提升,并且始终优于离线和在线强化学习基线。更重要的是,ARIA显著降低了策略梯度方差,这表明该方法能够更稳定地训练Agent,并避免陷入局部最优解。这些结果充分证明了ARIA方法的有效性和优越性。

🎯 应用场景

ARIA方法可以应用于各种需要语言Agent进行交互的场景,例如谈判、问答、对话生成、游戏等。该方法通过解决奖励稀疏性问题,可以显著提高Agent的学习效率和性能,使其能够更好地完成复杂任务。未来,该方法可以进一步扩展到多Agent环境,并与其他技术(如模仿学习、课程学习)相结合,以构建更强大的语言Agent。

📄 摘要(原文)

Large language models (LLMs) have enabled agents to perform complex reasoning and decision-making through free-form language interactions. However, in open-ended language action environments (e.g., negotiation or question-asking games), the action space can be formulated as a joint distribution over tokens, resulting in an exponentially large action space. Sampling actions in such a space can lead to extreme reward sparsity, which brings large reward variance, hindering effective reinforcement learning (RL). To address this, we propose ARIA, a method that Aggregates Rewards in Intention space to enable efficient and effective language Agents training. ARIA aims to project natural language actions from the high-dimensional joint token distribution space into a low-dimensional intention space, where semantically similar actions are clustered and assigned shared rewards. This intention-aware reward aggregation reduces reward variance by densifying reward signals, fostering better policy optimization. Extensive experiments demonstrate that ARIA not only significantly reduces policy gradient variance, but also delivers substantial performance gains of an average of 9.95% across four downstream tasks, consistently outperforming offline and online RL baselines.