Dr Genre: Reinforcement Learning from Decoupled LLM Feedback for Generic Text Rewriting

作者: Yufei Li, John Nham, Ganesh Jawahar, Lei Shu, David Uthus, Yun-Hsuan Sung, Chengrun Yang, Itai Rolnick, Yi Qiao, Cong Liu

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-03-09

备注: 29 pages, 4 figures, 25 tables

💡 一句话要点

提出Dr Genre：一种解耦LLM反馈的强化学习框架，用于通用文本重写任务

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本重写 强化学习 大型语言模型 解耦奖励 会话重写

📋 核心要点

现有文本重写模型难以兼顾事实性、风格和会话等多种目标，泛化能力受限。
提出Dr Genre框架，利用解耦的奖励模型和任务特定权重，实现对不同重写目标的优化。
构建了ChatRewrite数据集，并结合其他数据集，证明Dr Genre在多个重写任务上均有提升。

📝 摘要（中文）

通用文本重写是大型语言模型(LLM)的一个普遍应用，涵盖了各种现实世界的任务，如风格迁移、事实纠正和电子邮件编辑。这些任务在重写目标上有所不同(例如，事实一致性与语义保留)，这使得开发一个在所有维度上都表现出色的统一模型具有挑战性。现有方法通常专注于单个任务或特定目标，限制了它们的泛化能力。本文介绍了一种擅长事实性、文体和会话重写任务的通用模型。为了模拟真实世界的用户重写请求，我们构建了一个会话重写数据集ChatRewrite，它使用LLM从原始电子邮件中呈现“自然”的指令。结合其他流行的重写数据集，包括用于事实性重写任务的LongFact和用于文体重写任务的RewriteLM，这形成了一个广泛的基准，用于训练和评估通用重写模型。为了与特定于任务的目标保持一致，我们提出了Dr Genre，一个用于通用重写的解耦奖励学习框架，它利用面向目标的奖励模型和特定于任务的权重。评估表明，该方法在所有目标任务中都提供了更高质量的重写，提高了包括指令遵循（一致性）、内部一致性（连贯性）和最小不必要编辑（简洁性）在内的目标。

🔬 方法详解

问题定义：现有通用文本重写模型难以同时优化多个目标，例如事实一致性、风格迁移和会话流畅性。现有方法通常针对特定任务或目标进行优化，缺乏通用性和泛化能力。此外，缺乏模拟真实用户请求的会话式重写数据集，限制了模型的训练和评估。

核心思路：Dr Genre的核心思路是将奖励函数解耦为多个面向特定目标的奖励模型，例如事实性、风格和流畅性。通过为每个任务分配不同的奖励权重，可以灵活地调整模型以适应不同的重写目标。这种解耦的方式允许模型在不同目标之间进行权衡，从而实现更好的通用性。

技术框架：Dr Genre框架主要包含以下几个模块：1) 基于LLM的文本重写模型；2) 解耦的奖励模型，包括事实性奖励模型、风格奖励模型和流畅性奖励模型；3) 强化学习算法，用于优化重写模型，使其能够最大化加权奖励。框架首先使用LLM生成候选重写文本，然后使用解耦的奖励模型评估候选文本在不同目标上的表现，最后使用强化学习算法根据加权奖励更新重写模型。

关键创新：Dr Genre的关键创新在于解耦奖励函数，并使用任务特定的权重来调整模型以适应不同的重写目标。这种方法允许模型在不同目标之间进行权衡，从而实现更好的通用性。此外，构建了ChatRewrite数据集，填补了会话式重写数据集的空白。

关键设计：奖励模型可以使用预训练的语言模型进行微调，例如使用LongFact数据集训练事实性奖励模型，使用RewriteLM数据集训练风格奖励模型。强化学习算法可以使用策略梯度方法，例如PPO。任务特定的权重可以通过手动调整或使用自动优化算法进行学习。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Dr Genre在多个重写任务上均优于现有方法。例如，在指令遵循、内部一致性和简洁性方面均有显著提升。具体性能数据未知，但论文强调了在所有目标任务上的质量提升。

🎯 应用场景

Dr Genre可应用于多种文本重写场景，如自动邮件编辑、内容风格迁移、事实错误纠正等。该研究有助于提升LLM在通用文本处理任务中的能力，提高文本生成质量和用户满意度，具有广泛的应用前景。

📄 摘要（原文）

Generic text rewriting is a prevalent large language model (LLM) application that covers diverse real-world tasks, such as style transfer, fact correction, and email editing. These tasks vary in rewriting objectives (e.g., factual consistency vs. semantic preservation), making it challenging to develop a unified model that excels across all dimensions. Existing methods often specialize in either a single task or a specific objective, limiting their generalizability. In this work, we introduce a generic model proficient in factuality, stylistic, and conversational rewriting tasks. To simulate real-world user rewrite requests, we construct a conversational rewrite dataset, ChatRewrite, that presents ``natural''-sounding instructions, from raw emails using LLMs. Combined with other popular rewrite datasets, including LongFact for the factuality rewrite task and RewriteLM for the stylistic rewrite task, this forms a broad benchmark for training and evaluating generic rewrite models. To align with task-specific objectives, we propose Dr Genre, a Decoupled-reward learning framework for Generic rewriting, that utilizes objective-oriented reward models with a task-specific weighting. Evaluation shows that \approach delivers higher-quality rewrites across all targeted tasks, improving objectives including instruction following (agreement), internal consistency (coherence), and minimal unnecessary edits (conciseness).

Dr Genre: Reinforcement Learning from Decoupled LLM Feedback for Generic Text Rewriting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理