LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback
作者: Timon Ziegenbein, Gabriella Skitalinskaya, Alireza Bayat Makou, Henning Wachsmuth
分类: cs.CL
发布日期: 2024-06-05
💡 一句话要点
提出基于强化学习的LLM重写方法,以减轻在线讨论中不当言论。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自然语言处理 强化学习 大型语言模型 论证挖掘 不当言论检测
📋 核心要点
- 社交媒体平台面临不当言论泛滥的挑战,传统人工审核成本高昂且效率低下。
- 论文提出基于强化学习的LLM重写方法,旨在内容创作阶段预防不当行为,平衡内容保留和适当性。
- 实验结果表明,该方法能有效减轻论证的不当性,同时保持内容,显著优于现有基线方法。
📝 摘要(中文)
本文研究如何通过计算方法减轻论证中的不当语言。针对社交媒体平台面临的在线讨论文明挑战,提出了一种基于强化学习的重写方法,该方法基于现有分类器平衡内容保留和适当性,并使用指令微调的大型语言模型(LLM)作为初始策略。与相关的风格迁移任务不同,重写不当论证允许永久删除和添加内容,因此在文档级别而不是句子级别进行处理。通过绝对和相对的人工评估研究,评估了奖励函数的不同加权方案。在非平行数据上的系统实验表明,该方法可以在很大程度上保留论证内容的同时,减轻其不当性,并且显著优于包括少样本学习、提示和人工在内的竞争基线。
🔬 方法详解
问题定义:论文旨在解决在线讨论中不当言论的自动修正问题。现有方法依赖人工审核,效率低且成本高。现有风格迁移方法通常在句子级别操作,无法处理论证重写中需要的删除和添加内容的需求。
核心思路:核心思路是利用强化学习,训练一个能够重写不当论证的LLM。通过奖励函数引导LLM在减轻不当言论的同时,尽可能保留原始论证的内容。使用现有的不当言论分类器作为环境反馈,指导LLM的重写过程。
技术框架:整体框架包含以下几个主要模块:1) 初始策略:使用指令微调的LLM作为初始策略,用于生成候选重写文本。2) 奖励函数:基于不当言论分类器和内容相似度度量,设计奖励函数,用于评估重写文本的质量。3) 强化学习算法:使用强化学习算法(具体算法未知)优化LLM的重写策略,使其能够生成更适当且内容保留的文本。4) 人工评估:通过人工评估验证重写效果。
关键创新:关键创新在于将强化学习应用于论证重写任务,并设计了合适的奖励函数,以平衡内容保留和适当性。与传统的风格迁移任务不同,该方法允许在文档级别进行内容删除和添加,更适合论证重写的需求。
关键设计:奖励函数的设计是关键。奖励函数需要综合考虑重写文本的适当性(通过不当言论分类器评估)和与原始文本的内容相似度。论文探索了不同的加权方案,以平衡这两个目标。具体的强化学习算法和LLM的微调细节未知。
📊 实验亮点
实验结果表明,该方法在减轻论证不当性方面显著优于现有基线方法,包括少样本学习、提示和人工重写。具体的性能数据(如不当言论减少比例、内容保留率等)未知,但论文强调了该方法在非平行数据上的有效性。
🎯 应用场景
该研究成果可应用于社交媒体平台、在线论坛等场景,用于自动修正用户发布的不当言论,从而改善在线讨论环境,减少人工审核负担。未来可扩展到其他类型的文本内容,如新闻评论、产品评价等,提升网络内容的质量和文明程度。
📄 摘要(原文)
Ensuring that online discussions are civil and productive is a major challenge for social media platforms. Such platforms usually rely both on users and on automated detection tools to flag inappropriate arguments of other users, which moderators then review. However, this kind of post-hoc moderation is expensive and time-consuming, and moderators are often overwhelmed by the amount and severity of flagged content. Instead, a promising alternative is to prevent negative behavior during content creation. This paper studies how inappropriate language in arguments can be computationally mitigated. We propose a reinforcement learning-based rewriting approach that balances content preservation and appropriateness based on existing classifiers, prompting an instruction-finetuned large language model (LLM) as our initial policy. Unlike related style transfer tasks, rewriting inappropriate arguments allows deleting and adding content permanently. It is therefore tackled on document level rather than sentence level. We evaluate different weighting schemes for the reward function in both absolute and relative human assessment studies. Systematic experiments on non-parallel data provide evidence that our approach can mitigate the inappropriateness of arguments while largely preserving their content. It significantly outperforms competitive baselines, including few-shot learning, prompting, and humans.