Enhancing Paraphrase Type Generation: The Impact of DPO and RLHF Evaluated with Human-Ranked Data
作者: Christopher Lee Lübbers
分类: cs.CL
发布日期: 2025-05-28
备注: 21 pages, 11 figures. Master's thesis, University of Goettingen, December 2025. Code: https://github.com/cluebbers/dpo-rlhf-paraphrase-types. Models: https://huggingface.co/collections/cluebbers/enhancing-paraphrase-type-generation-673ca8d75dfe2ce962a48ac0
💡 一句话要点
利用DPO和RLHF提升释义类型生成,并用人工排序数据评估
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 释义生成 直接偏好优化 DPO 强化学习 人工排序数据 自然语言处理 文本简化
📋 核心要点
- 现有释义类型生成方法依赖自动指标,缺乏人工标注数据,导致与人类偏好不符,语义保真度不足。
- 论文利用人工排序的释义类型数据集,通过直接偏好优化(DPO)训练,使模型输出与人类判断对齐。
- 实验表明,DPO训练使释义类型生成准确率提升3%,人类偏好评分提升7%,并构建了新的评估数据集。
📝 摘要(中文)
释义通过重新表达含义来增强文本简化、机器翻译和问答等应用。特定的释义类型有助于准确的语义分析和鲁棒的语言模型。然而,现有的释义类型生成方法由于依赖自动指标和有限的人工标注训练数据,常常与人类偏好不一致,掩盖了语义保真度和语言转换的关键方面。本研究通过利用人工排序的释义类型数据集,并整合直接偏好优化(DPO)来使模型输出直接与人类判断对齐,从而解决这一差距。基于DPO的训练使释义类型生成准确率比监督基线提高了3个百分点,并使人类偏好评分提高了7个百分点。一个新创建的人工标注数据集支持更严格的未来评估。此外,一个释义类型检测模型在添加/删除方面实现了0.91的F1分数,在相同极性替换方面实现了0.78的F1分数,在标点符号更改方面实现了0.70的F1分数。这些发现表明,偏好数据和DPO训练产生更可靠、语义上更准确的释义,从而支持下游应用,例如改进的摘要和更鲁棒的问答。PTD模型超越了自动指标,并为评估释义质量提供了一个更可靠的框架,从而推动释义类型研究朝着更丰富、用户对齐的语言生成发展,并为未来基于人类中心标准的评估奠定更坚实的基础。
🔬 方法详解
问题定义:论文旨在解决现有释义类型生成方法与人类偏好不一致的问题。现有方法依赖于自动评估指标,缺乏足够的人工标注数据进行训练,导致生成的释义在语义保真度和语言转换方面存在不足,无法很好地服务于下游任务。
核心思路:论文的核心思路是利用人工排序的释义类型数据集,并采用直接偏好优化(DPO)算法,直接将模型输出与人类的偏好对齐。DPO算法能够避免强化学习中复杂的奖励函数设计,直接优化模型的策略,使其生成更符合人类偏好的释义。
技术框架:论文主要包含两个部分:释义类型生成和释义类型检测。对于释义类型生成,首先构建人工排序的释义类型数据集,然后使用DPO算法训练生成模型。对于释义类型检测,训练一个分类模型来识别不同类型的释义。整体流程是先通过DPO训练生成模型,然后使用生成模型生成释义,最后使用检测模型对释义类型进行分类。
关键创新:论文的关键创新在于:1) 利用人工排序数据进行训练,更直接地反映人类偏好;2) 采用DPO算法,避免了传统强化学习中奖励函数设计的困难,直接优化模型策略;3) 构建了一个新的释义类型检测模型,能够更准确地识别不同类型的释义。
关键设计:在DPO训练中,使用了人工排序的释义作为偏好数据,DPO损失函数直接基于这些偏好数据进行优化。具体参数设置未知。释义类型检测模型使用了标准的分类模型结构,损失函数为交叉熵损失函数。数据集构建过程未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于DPO的训练使释义类型生成准确率比监督基线提高了3个百分点,人类偏好评分提高了7个百分点。释义类型检测模型在添加/删除方面实现了0.91的F1分数,在相同极性替换方面实现了0.78的F1分数,在标点符号更改方面实现了0.70的F1分数。这些结果表明,该方法能够有效提升释义生成质量和与人类偏好的一致性。
🎯 应用场景
该研究成果可应用于文本简化、机器翻译、问答系统等领域。通过生成更符合人类偏好的释义,可以提高这些应用的性能和用户体验。例如,在问答系统中,可以利用释义生成技术来扩展问题,从而提高问题覆盖率和答案准确率。未来,该研究可以进一步扩展到其他自然语言处理任务,如文本摘要、对话生成等。
📄 摘要(原文)
Paraphrasing re-expresses meaning to enhance applications like text simplification, machine translation, and question-answering. Specific paraphrase types facilitate accurate semantic analysis and robust language models. However, existing paraphrase-type generation methods often misalign with human preferences due to reliance on automated metrics and limited human-annotated training data, obscuring crucial aspects of semantic fidelity and linguistic transformations. This study addresses this gap by leveraging a human-ranked paraphrase-type dataset and integrating Direct Preference Optimization (DPO) to align model outputs directly with human judgments. DPO-based training increases paraphrase-type generation accuracy by 3 percentage points over a supervised baseline and raises human preference ratings by 7 percentage points. A newly created human-annotated dataset supports more rigorous future evaluations. Additionally, a paraphrase-type detection model achieves F1 scores of 0.91 for addition/deletion, 0.78 for same polarity substitution, and 0.70 for punctuation changes. These findings demonstrate that preference data and DPO training produce more reliable, semantically accurate paraphrases, enabling downstream applications such as improved summarization and more robust question-answering. The PTD model surpasses automated metrics and provides a more reliable framework for evaluating paraphrase quality, advancing paraphrase-type research toward richer, user-aligned language generation and establishing a stronger foundation for future evaluations grounded in human-centric criteria.