The Era of Real-World Human Interaction: RL from User Conversations

📄 arXiv: 2509.25137v1 📥 PDF

作者: Chuanyang Jin, Jing Xu, Bo Liu, Leitian Tao, Olga Golovneva, Tianmin Shu, Wenting Zhao, Xian Li, Jason Weston

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-09-29


💡 一句话要点

提出基于用户对话的强化学习(RLHI),实现个性化对齐和持续模型改进。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机交互 强化学习 对话系统 个性化 用户建模

📋 核心要点

  1. 现有对话模型依赖专家标注反馈,成本高且难以持续改进和个性化对齐。
  2. 提出RLHI框架,直接从真实用户对话中学习,通过用户引导重写和用户奖励建模实现。
  3. 实验表明,RLHI在个性化、指令遵循和推理基准上优于基线,证明了其有效性。

📝 摘要(中文)

为了实现持续的模型改进和多方面的对齐,本文提出未来的模型必须从自然的人机交互中学习。现有的对话模型通常使用预先标注的、专家生成的人工反馈进行对齐。本文介绍了一种名为“基于人机交互的强化学习”(RLHI)的范式,该范式直接从真实的、用户参与的对话中学习。我们开发了两种互补的方法:(1)带有用户引导重写的RLHI,它基于用户的自然语言后续回复来修改不令人满意的模型输出;(2)带有基于用户的奖励的RLHI,它通过一个奖励模型学习,该模型以用户的长期交互历史(称为角色 persona)为条件。这些方法共同通过角色条件偏好优化将长期用户角色与turn级别的偏好联系起来。在源自WildChat的对话上训练后,两种RLHI变体在个性化和指令遵循方面均优于强大的基线,并且类似的反馈增强了推理基准的性能。这些结果表明,有机的人机交互为个性化对齐提供了可扩展的、有效的监督。

🔬 方法详解

问题定义:现有对话模型依赖于预先标注的、专家生成的人工反馈进行对齐,这种方式成本高昂,难以扩展到大规模真实用户交互场景,并且难以捕捉用户的个性化偏好,从而限制了模型的持续改进和多方面对齐能力。

核心思路:RLHI的核心思路是直接从真实的用户对话中学习,将用户与模型的交互视为强化学习的环境,用户的反馈(包括后续回复和长期交互历史)作为奖励信号,从而优化模型策略,使其更好地满足用户的个性化需求。这样可以避免对大量人工标注数据的依赖,并实现模型的持续改进。

技术框架:RLHI包含两个主要方法:(1)RLHI with User-Guided Rewrites:当模型输出不令人满意时,利用用户的自然语言后续回复来修改模型输出,从而直接学习用户的偏好。(2)RLHI with User-Based Rewards:构建一个奖励模型,该模型以用户的长期交互历史(persona)为条件,从而将长期用户角色与turn级别的偏好联系起来,实现个性化的偏好优化。整体流程是,模型生成回复,用户进行交互,RLHI利用用户的交互信息更新模型。

关键创新:RLHI的关键创新在于它将强化学习应用于真实的用户对话场景,并利用用户的自然语言反馈作为奖励信号。与传统的基于专家标注的强化学习方法不同,RLHI能够直接从用户的真实交互中学习,从而更好地捕捉用户的个性化偏好,并实现模型的持续改进。此外,通过引入用户persona,RLHI能够更好地理解用户的长期需求,从而生成更符合用户期望的回复。

关键设计:在RLHI with User-Guided Rewrites中,关键在于如何有效地利用用户的自然语言回复来修改模型输出。一种可能的设计是使用序列到序列模型,将原始模型输出和用户回复作为输入,生成修改后的模型输出。在RLHI with User-Based Rewards中,关键在于如何构建一个能够准确预测用户偏好的奖励模型。一种可能的设计是使用Transformer模型,将用户persona和模型输出作为输入,预测用户对该输出的偏好得分。损失函数可以使用pairwise ranking loss,鼓励模型生成更符合用户偏好的回复。

📊 实验亮点

实验结果表明,在WildChat数据集上训练的RLHI变体在个性化和指令遵循方面均优于强大的基线。此外,类似的反馈增强了模型在推理基准上的性能。这些结果表明,有机的人机交互为个性化对齐提供了可扩展的、有效的监督。

🎯 应用场景

RLHI可应用于各种对话系统,如聊天机器人、智能客服、虚拟助手等,以提升用户体验。通过学习用户的个性化偏好,RLHI能够使对话系统生成更符合用户期望的回复,从而提高用户的满意度和参与度。此外,RLHI还可以用于教育、医疗等领域,为用户提供个性化的学习和健康建议。

📄 摘要(原文)

We posit that to achieve continual model improvement and multifaceted alignment, future models must learn from natural human interaction. Current conversational models are aligned using pre-annotated, expert-generated human feedback. In this work, we introduce Reinforcement Learning from Human Interaction (RLHI), a paradigm that learns directly from in-the-wild user conversations. We develop two complementary methods: (1) RLHI with User-Guided Rewrites, which revises unsatisfactory model outputs based on users' natural-language follow-up responses, (2) RLHI with User-Based Rewards, which learns via a reward model conditioned on knowledge of the user's long-term interaction history (termed persona). Together, these methods link long-term user personas to turn-level preferences via persona-conditioned preference optimization. Trained on conversations derived from WildChat, both RLHI variants outperform strong baselines in personalization and instruction-following, and similar feedback enhances performance on reasoning benchmarks. These results suggest organic human interaction offers scalable, effective supervision for personalized alignment.