The Era of Real-World Human Interaction: RL from User Conversations

作者: Chuanyang Jin, Jing Xu, Bo Liu, Leitian Tao, Olga Golovneva, Tianmin Shu, Wenting Zhao, Xian Li, Jason Weston

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-09-29

💡 一句话要点

提出基于用户对话的强化学习(RLHI)，实现个性化对齐和持续模型改进。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机交互 强化学习 对话系统 个性化 用户建模

📋 核心要点

现有对话模型依赖专家标注反馈，成本高且难以持续改进和个性化对齐。
提出RLHI框架，直接从真实用户对话中学习，通过用户引导重写和用户奖励建模实现。
实验表明，RLHI在个性化、指令遵循和推理基准上优于基线，证明了其有效性。

📝 摘要（中文）

为了实现持续的模型改进和多方面的对齐，本文提出未来的模型必须从自然的人机交互中学习。现有的对话模型通常使用预先标注的、专家生成的人工反馈进行对齐。本文介绍了一种名为“基于人机交互的强化学习”（RLHI）的范式，该范式直接从真实的、用户参与的对话中学习。我们开发了两种互补的方法：（1）带有用户引导重写的RLHI，它基于用户的自然语言后续回复来修改不令人满意的模型输出；（2）带有基于用户的奖励的RLHI，它通过一个奖励模型学习，该模型以用户的长期交互历史（称为角色 persona）为条件。这些方法共同通过角色条件偏好优化将长期用户角色与turn级别的偏好联系起来。在源自WildChat的对话上训练后，两种RLHI变体在个性化和指令遵循方面均优于强大的基线，并且类似的反馈增强了推理基准的性能。这些结果表明，有机的人机交互为个性化对齐提供了可扩展的、有效的监督。

🔬 方法详解

问题定义：现有对话模型依赖于预先标注的、专家生成的人工反馈进行对齐，这种方式成本高昂，难以扩展到大规模真实用户交互场景，并且难以捕捉用户的个性化偏好，从而限制了模型的持续改进和多方面对齐能力。

核心思路：RLHI的核心思路是直接从真实的用户对话中学习，将用户与模型的交互视为强化学习的环境，用户的反馈（包括后续回复和长期交互历史）作为奖励信号，从而优化模型策略，使其更好地满足用户的个性化需求。这样可以避免对大量人工标注数据的依赖，并实现模型的持续改进。

技术框架：RLHI包含两个主要方法：（1）RLHI with User-Guided Rewrites：当模型输出不令人满意时，利用用户的自然语言后续回复来修改模型输出，从而直接学习用户的偏好。（2）RLHI with User-Based Rewards：构建一个奖励模型，该模型以用户的长期交互历史（persona）为条件，从而将长期用户角色与turn级别的偏好联系起来，实现个性化的偏好优化。整体流程是，模型生成回复，用户进行交互，RLHI利用用户的交互信息更新模型。

关键创新：RLHI的关键创新在于它将强化学习应用于真实的用户对话场景，并利用用户的自然语言反馈作为奖励信号。与传统的基于专家标注的强化学习方法不同，RLHI能够直接从用户的真实交互中学习，从而更好地捕捉用户的个性化偏好，并实现模型的持续改进。此外，通过引入用户persona，RLHI能够更好地理解用户的长期需求，从而生成更符合用户期望的回复。

关键设计：在RLHI with User-Guided Rewrites中，关键在于如何有效地利用用户的自然语言回复来修改模型输出。一种可能的设计是使用序列到序列模型，将原始模型输出和用户回复作为输入，生成修改后的模型输出。在RLHI with User-Based Rewards中，关键在于如何构建一个能够准确预测用户偏好的奖励模型。一种可能的设计是使用Transformer模型，将用户persona和模型输出作为输入，预测用户对该输出的偏好得分。损失函数可以使用pairwise ranking loss，鼓励模型生成更符合用户偏好的回复。

📊 实验亮点

实验结果表明，在WildChat数据集上训练的RLHI变体在个性化和指令遵循方面均优于强大的基线。此外，类似的反馈增强了模型在推理基准上的性能。这些结果表明，有机的人机交互为个性化对齐提供了可扩展的、有效的监督。

🎯 应用场景

RLHI可应用于各种对话系统，如聊天机器人、智能客服、虚拟助手等，以提升用户体验。通过学习用户的个性化偏好，RLHI能够使对话系统生成更符合用户期望的回复，从而提高用户的满意度和参与度。此外，RLHI还可以用于教育、医疗等领域，为用户提供个性化的学习和健康建议。

📄 摘要（原文）

We posit that to achieve continual model improvement and multifaceted alignment, future models must learn from natural human interaction. Current conversational models are aligned using pre-annotated, expert-generated human feedback. In this work, we introduce Reinforcement Learning from Human Interaction (RLHI), a paradigm that learns directly from in-the-wild user conversations. We develop two complementary methods: (1) RLHI with User-Guided Rewrites, which revises unsatisfactory model outputs based on users' natural-language follow-up responses, (2) RLHI with User-Based Rewards, which learns via a reward model conditioned on knowledge of the user's long-term interaction history (termed persona). Together, these methods link long-term user personas to turn-level preferences via persona-conditioned preference optimization. Trained on conversations derived from WildChat, both RLHI variants outperform strong baselines in personalization and instruction-following, and similar feedback enhances performance on reasoning benchmarks. These results suggest organic human interaction offers scalable, effective supervision for personalized alignment.

The Era of Real-World Human Interaction: RL from User Conversations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册