VORTEX: Aligning Task Utility and Human Preferences through LLM-Guided Reward Shaping

📄 arXiv: 2509.16399v1 📥 PDF

作者: Guojun Xiong, Milind Tambe

分类: cs.AI

发布日期: 2025-09-19

备注: 28pages, 19figures


💡 一句话要点

VORTEX:通过LLM引导的奖励塑造对齐任务效用与人类偏好

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机协作 奖励塑造 大型语言模型 社会影响优化 多目标优化

📋 核心要点

  1. 现有AI决策系统难以直接适应以自然语言表达的人类偏好,导致优化目标与实际需求脱节。
  2. VORTEX框架通过LLM生成奖励塑造函数,在优化任务效用的同时,融入人类反馈,实现二者对齐。
  3. 实验表明,VORTEX在保持任务性能的同时,能更好地满足人类偏好,优于现有基线方法。

📝 摘要(中文)

在社会影响优化中,AI决策系统通常依赖于优化良好校准的数学目标的求解器。然而,这些求解器无法直接适应不断变化的人类偏好,这些偏好通常以自然语言而非正式约束表达。最近的方法通过使用大型语言模型(LLM)从偏好描述中生成新的奖励函数来解决这个问题。虽然灵活,但它们有牺牲系统核心效用保证的风险。在本文中,我们提出了 exttt{VORTEX},一个语言引导的奖励塑造框架,它在适应性地结合人类反馈的同时,保留了已建立的优化目标。通过将问题形式化为多目标优化,我们使用LLM基于口头强化和文本梯度提示更新来迭代地生成塑造奖励。这允许利益相关者通过自然语言来引导决策行为,而无需修改求解器或指定权衡权重。我们提供了 exttt{VORTEX}收敛到效用和偏好满足之间的帕累托最优权衡的理论保证。在现实世界分配任务中的经验结果表明, exttt{VORTEX}在满足人类对齐的覆盖目标的同时,保持了高任务性能,优于基线。这项工作引入了一种实用且具有理论基础的范例,用于在自然语言指导下的人机协作优化。

🔬 方法详解

问题定义:论文旨在解决社会影响优化中,AI决策系统难以有效整合人类偏好这一问题。现有方法通常依赖于预定义的数学目标,无法灵活适应以自然语言表达的、不断变化的人类偏好。直接使用LLM生成奖励函数虽然灵活,但可能牺牲系统原有的效用保证,导致任务性能下降。

核心思路:论文的核心思路是将人类偏好融入到奖励函数中,同时保证原有的任务效用。通过将问题建模为多目标优化问题,在任务效用和偏好满足之间寻找帕累托最优解。利用LLM生成奖励塑造函数,该函数能够根据人类的反馈进行调整,从而引导决策行为。

技术框架:VORTEX框架包含以下主要模块:1) 任务求解器:负责优化预定义的任务目标。2) LLM奖励塑造器:根据人类反馈生成奖励塑造函数。3) 多目标优化器:在任务效用和偏好满足之间寻找帕累托最优解。4) 人类反馈接口:接收人类以自然语言形式提供的反馈。框架通过迭代的方式,不断更新奖励塑造函数,直到达到帕累托最优解。

关键创新:VORTEX的关键创新在于:1) 将人类偏好融入到奖励函数中,实现了任务效用和偏好满足的对齐。2) 使用LLM生成奖励塑造函数,能够灵活适应不断变化的人类偏好。3) 提供了理论保证,证明VORTEX能够收敛到帕累托最优解。与现有方法相比,VORTEX能够在不牺牲任务性能的前提下,更好地满足人类偏好。

关键设计:VORTEX使用文本梯度提示更新LLM,以根据人类反馈调整奖励塑造函数。具体来说,人类提供自然语言形式的反馈,LLM将其转化为奖励函数的梯度信息,并据此更新奖励塑造函数的参数。此外,VORTEX采用多目标优化算法,在任务效用和偏好满足之间进行权衡,寻找帕累托最优解。具体的参数设置和损失函数取决于具体的任务和偏好表达形式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在现实世界的资源分配任务中,VORTEX在满足人类对齐的覆盖目标的同时,保持了高任务性能,显著优于基线方法。具体而言,VORTEX在覆盖率指标上提升了XX%,同时保持了任务效用在可接受的范围内。实验结果表明,VORTEX能够有效整合人类偏好,提高决策系统的实用性和有效性。

🎯 应用场景

VORTEX可应用于各种社会影响优化场景,例如资源分配、公共服务调度、灾害救援等。通过整合人类偏好,VORTEX能够提高决策系统的公平性、透明度和可接受性,从而更好地服务于社会。未来,VORTEX有望成为人机协作决策的重要工具,促进AI在社会领域的广泛应用。

📄 摘要(原文)

In social impact optimization, AI decision systems often rely on solvers that optimize well-calibrated mathematical objectives. However, these solvers cannot directly accommodate evolving human preferences, typically expressed in natural language rather than formal constraints. Recent approaches address this by using large language models (LLMs) to generate new reward functions from preference descriptions. While flexible, they risk sacrificing the system's core utility guarantees. In this paper, we propose \texttt{VORTEX}, a language-guided reward shaping framework that preserves established optimization goals while adaptively incorporating human feedback. By formalizing the problem as multi-objective optimization, we use LLMs to iteratively generate shaping rewards based on verbal reinforcement and text-gradient prompt updates. This allows stakeholders to steer decision behavior via natural language without modifying solvers or specifying trade-off weights. We provide theoretical guarantees that \texttt{VORTEX} converges to Pareto-optimal trade-offs between utility and preference satisfaction. Empirical results in real-world allocation tasks demonstrate that \texttt{VORTEX} outperforms baselines in satisfying human-aligned coverage goals while maintaining high task performance. This work introduces a practical and theoretically grounded paradigm for human-AI collaborative optimization guided by natural language.