Dr Genre: Reinforcement Learning from Decoupled LLM Feedback for Generic Text Rewriting
作者: Yufei Li, John Nham, Ganesh Jawahar, Lei Shu, David Uthus, Yun-Hsuan Sung, Chengrun Yang, Itai Rolnick, Yi Qiao, Cong Liu
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-03-09
备注: 29 pages, 4 figures, 25 tables
💡 一句话要点
提出Dr Genre:一种解耦LLM反馈的强化学习框架,用于通用文本重写任务
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本重写 强化学习 大型语言模型 解耦奖励 会话重写
📋 核心要点
- 现有文本重写模型难以兼顾事实性、风格和会话等多种目标,泛化能力受限。
- 提出Dr Genre框架,利用解耦的奖励模型和任务特定权重,实现对不同重写目标的优化。
- 构建了ChatRewrite数据集,并结合其他数据集,证明Dr Genre在多个重写任务上均有提升。
📝 摘要(中文)
通用文本重写是大型语言模型(LLM)的一个普遍应用,涵盖了各种现实世界的任务,如风格迁移、事实纠正和电子邮件编辑。这些任务在重写目标上有所不同(例如,事实一致性与语义保留),这使得开发一个在所有维度上都表现出色的统一模型具有挑战性。现有方法通常专注于单个任务或特定目标,限制了它们的泛化能力。本文介绍了一种擅长事实性、文体和会话重写任务的通用模型。为了模拟真实世界的用户重写请求,我们构建了一个会话重写数据集ChatRewrite,它使用LLM从原始电子邮件中呈现“自然”的指令。结合其他流行的重写数据集,包括用于事实性重写任务的LongFact和用于文体重写任务的RewriteLM,这形成了一个广泛的基准,用于训练和评估通用重写模型。为了与特定于任务的目标保持一致,我们提出了Dr Genre,一个用于通用重写的解耦奖励学习框架,它利用面向目标的奖励模型和特定于任务的权重。评估表明,该方法在所有目标任务中都提供了更高质量的重写,提高了包括指令遵循(一致性)、内部一致性(连贯性)和最小不必要编辑(简洁性)在内的目标。
🔬 方法详解
问题定义:现有通用文本重写模型难以同时优化多个目标,例如事实一致性、风格迁移和会话流畅性。现有方法通常针对特定任务或目标进行优化,缺乏通用性和泛化能力。此外,缺乏模拟真实用户请求的会话式重写数据集,限制了模型的训练和评估。
核心思路:Dr Genre的核心思路是将奖励函数解耦为多个面向特定目标的奖励模型,例如事实性、风格和流畅性。通过为每个任务分配不同的奖励权重,可以灵活地调整模型以适应不同的重写目标。这种解耦的方式允许模型在不同目标之间进行权衡,从而实现更好的通用性。
技术框架:Dr Genre框架主要包含以下几个模块:1) 基于LLM的文本重写模型;2) 解耦的奖励模型,包括事实性奖励模型、风格奖励模型和流畅性奖励模型;3) 强化学习算法,用于优化重写模型,使其能够最大化加权奖励。框架首先使用LLM生成候选重写文本,然后使用解耦的奖励模型评估候选文本在不同目标上的表现,最后使用强化学习算法根据加权奖励更新重写模型。
关键创新:Dr Genre的关键创新在于解耦奖励函数,并使用任务特定的权重来调整模型以适应不同的重写目标。这种方法允许模型在不同目标之间进行权衡,从而实现更好的通用性。此外,构建了ChatRewrite数据集,填补了会话式重写数据集的空白。
关键设计:奖励模型可以使用预训练的语言模型进行微调,例如使用LongFact数据集训练事实性奖励模型,使用RewriteLM数据集训练风格奖励模型。强化学习算法可以使用策略梯度方法,例如PPO。任务特定的权重可以通过手动调整或使用自动优化算法进行学习。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Dr Genre在多个重写任务上均优于现有方法。例如,在指令遵循、内部一致性和简洁性方面均有显著提升。具体性能数据未知,但论文强调了在所有目标任务上的质量提升。
🎯 应用场景
Dr Genre可应用于多种文本重写场景,如自动邮件编辑、内容风格迁移、事实错误纠正等。该研究有助于提升LLM在通用文本处理任务中的能力,提高文本生成质量和用户满意度,具有广泛的应用前景。
📄 摘要(原文)
Generic text rewriting is a prevalent large language model (LLM) application that covers diverse real-world tasks, such as style transfer, fact correction, and email editing. These tasks vary in rewriting objectives (e.g., factual consistency vs. semantic preservation), making it challenging to develop a unified model that excels across all dimensions. Existing methods often specialize in either a single task or a specific objective, limiting their generalizability. In this work, we introduce a generic model proficient in factuality, stylistic, and conversational rewriting tasks. To simulate real-world user rewrite requests, we construct a conversational rewrite dataset, ChatRewrite, that presents ``natural''-sounding instructions, from raw emails using LLMs. Combined with other popular rewrite datasets, including LongFact for the factuality rewrite task and RewriteLM for the stylistic rewrite task, this forms a broad benchmark for training and evaluating generic rewrite models. To align with task-specific objectives, we propose Dr Genre, a Decoupled-reward learning framework for Generic rewriting, that utilizes objective-oriented reward models with a task-specific weighting. Evaluation shows that \approach delivers higher-quality rewrites across all targeted tasks, improving objectives including instruction following (agreement), internal consistency (coherence), and minimal unnecessary edits (conciseness).