Teaching LLMs Human-Like Editing of Inappropriate Argumentation via Reinforcement Learning

📄 arXiv: 2604.12770v1 📥 PDF

作者: Timon Ziegenbein, Maja Stahl, Henning Wachsmuth

分类: cs.CL

发布日期: 2026-04-14


💡 一句话要点

提出基于强化学习的LLM训练方法,实现更符合人类习惯的不当论证编辑

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本编辑 强化学习 论证恰当性 人类化编辑

📋 核心要点

  1. 现有LLM编辑论证文本时,编辑策略与人类存在差异,倾向于分散修改且改变原意。
  2. 提出基于强化学习的方法,训练LLM生成自包含、保留原意的句子级别编辑建议。
  3. 实验结果表明,该方法在人类化编辑方面优于现有方法,多轮编辑效果接近完全重写。

📝 摘要(中文)

本文提出了一种基于强化学习的方法,旨在训练大型语言模型(LLM)进行更符合人类习惯的文本编辑,以提高论证的恰当性。观察发现,LLM生成的编辑通常分散且显著改变原意,而人类编辑则倾向于将相关修改封装在自包含且保留原意的编辑中。该方法生成自包含的句子级别编辑建议,可以独立接受或拒绝。通过群体相对策略优化进行训练,使用多组件奖励函数,联合优化编辑级别的语义相似性、流畅性和模式一致性,以及论证级别的恰当性。自动和人工评估表明,该方法优于竞争基线和当前最先进的人类化编辑方法,并且通过多轮编辑可以实现接近完全重写的恰当性。

🔬 方法详解

问题定义:论文旨在解决LLM在编辑论证文本以提高其恰当性时,与人类编辑策略不一致的问题。现有LLM倾向于进行分散的、显著改变原意的编辑,而人类更喜欢自包含的、保留原意的编辑。这种差异导致LLM的编辑结果不符合人类的期望,降低了编辑的可用性和接受度。

核心思路:论文的核心思路是利用强化学习来引导LLM学习人类的编辑策略。通过设计合适的奖励函数,鼓励LLM生成自包含的、语义相似的、流畅的编辑建议,同时提高论证的恰当性。这种方法旨在弥合LLM和人类在编辑策略上的差距,使LLM的编辑结果更符合人类的习惯和偏好。

技术框架:整体框架包括以下几个主要步骤:1) 使用LLM生成候选编辑建议;2) 使用奖励函数评估每个编辑建议的质量,奖励函数包含多个组件,分别衡量编辑的语义相似性、流畅性、模式一致性和论证恰当性;3) 使用群体相对策略优化(Group Relative Policy Optimization)算法训练LLM,使其能够生成更高质量的编辑建议;4) 提供自包含的句子级别编辑建议,用户可以独立接受或拒绝。

关键创新:该方法最重要的创新点在于使用强化学习来训练LLM学习人类的编辑策略,并设计了一个多组件的奖励函数,能够综合考虑编辑的多个方面,包括语义相似性、流畅性、模式一致性和论证恰当性。与现有方法相比,该方法能够生成更符合人类习惯的编辑建议,并且能够通过多轮编辑逐步提高论证的恰当性。

关键设计:奖励函数是该方法设计的关键。奖励函数包含以下几个组件:1) 编辑级别的语义相似性奖励,衡量编辑后的句子与原始句子的语义相似度;2) 流畅性奖励,衡量编辑后的句子的流畅程度;3) 模式一致性奖励,衡量编辑后的句子是否符合人类的编辑模式;4) 论证级别的恰当性奖励,衡量编辑后的论证是否更恰当。这些奖励组件共同作用,引导LLM生成高质量的编辑建议。此外,使用群体相对策略优化算法来训练LLM,该算法能够有效地利用群体信息来提高训练效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在自动和人工评估中均优于竞争基线和当前最先进的人类化编辑方法。通过多轮编辑,该方法能够实现接近完全重写的恰当性,表明其具有很强的文本编辑能力。具体的性能数据和提升幅度在论文中有详细描述。

🎯 应用场景

该研究成果可应用于各种需要文本编辑的场景,例如自动润色文章、修改不当言论、生成更具说服力的论证等。其潜在价值在于提高文本编辑的效率和质量,减少人工干预,并促进更有效的沟通和交流。未来,该技术可以进一步扩展到其他语言和领域,例如机器翻译、文本摘要等。

📄 摘要(原文)

Editing human-written text has become a standard use case of large language models (LLMs), for example, to make one's arguments more appropriate for a discussion. Comparing human to LLM-generated edits, however, we observe a mismatch in editing strategies: While LLMs often perform multiple scattered edits and tend to change meaning notably, humans rather encapsulate dependent changes in self-contained, meaning-preserving edits. In this paper, we present a reinforcement learning approach that teaches LLMs human-like editing to improve the appropriateness of arguments. Our approach produces self-contained sentence-level edit suggestions that can be accepted or rejected independently. We train the approach using group relative policy optimization with a multi-component reward function that jointly optimizes edit-level semantic similarity, fluency, and pattern conformity as well as argument-level appropriateness. In automatic and human evaluation, it outperforms competitive baselines and the state of the art in human-like editing, with multi-round editing achieving appropriateness close to full rewriting.