Increasing the Difficulty of Automatically Generated Questions via Reinforcement Learning with Synthetic Preference

作者: William Thorne, Ambrose Robinson, Bohua Peng, Chenghua Lin, Diana Maynard

分类: cs.CL, cs.AI

发布日期: 2024-10-10

备注: is to be published in NLP4DH 2024

💡 一句话要点

提出基于强化学习与合成偏好的问题生成方法，提升文化遗产领域机器阅读理解数据集难度。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器阅读理解 强化学习 问题生成 合成偏好 文化遗产

📋 核心要点

文化遗产领域缺乏高质量的机器阅读理解数据集，手动构建成本高昂，限制了相关技术的发展。
利用强化学习和合成偏好数据，自动生成难度更高的领域特定问题，降低数据集构建成本。
实验结果表明，该方法能够有效提升问题难度，并通过人工评估验证了其有效性，并开源了代码。

📝 摘要（中文）

随着文化遗产领域越来越多地采用检索增强生成（RAG）等技术来提供更个性化的搜索体验和实现与馆藏数据的对话，对专门的评估数据集的需求也在增长。虽然端到端系统测试至关重要，但评估各个组件也同样重要。本文针对最后的问答任务，该任务非常适合机器阅读理解（MRC）。虽然现有的MRC数据集涵盖一般领域，但它们缺乏文化遗产信息所需的特异性。不幸的是，对于大多数遗产机构来说，手动创建此类数据集的成本过高。本文提出了一种经济高效的方法，利用来自合成偏好数据的强化学习（RLHF）来生成难度增加的领域特定MRC数据集。我们的方法利用现有问答模型在SQuAD子集上的性能来创建难度指标，假设更具挑战性的问题被正确回答的频率较低。这项研究贡献包括：（1）一种使用PPO和合成数据增加问题难度的方法；（2）该方法有效性的经验证据，包括人工评估；（3）深入的错误分析和对涌现现象的研究；（4）用于重现和改编的开源代码库和一组三个llama-2-chat适配器。

🔬 方法详解

问题定义：论文旨在解决文化遗产领域机器阅读理解（MRC）数据集匮乏且人工构建成本高昂的问题。现有MRC数据集通用性强，缺乏领域特异性，无法有效评估和提升文化遗产领域问答系统的性能。因此，需要一种自动化的方法来生成高质量、高难度的领域特定MRC数据集。

核心思路：论文的核心思路是利用强化学习（RL）自动生成问题，并通过合成偏好数据来引导问题生成过程，使其生成的问题难度逐渐增加。通过假设模型在SQuAD数据集上的表现与问题难度相关，即回答正确率越低的问题难度越高，从而构建难度指标，并将其作为强化学习的奖励信号。

技术框架：整体框架包括以下几个主要模块：1) 基于现有问答模型在SQuAD数据集上的表现构建难度指标；2) 使用Proximal Policy Optimization (PPO) 算法训练一个问题生成器，目标是生成难度更高的MRC问题；3) 使用合成偏好数据作为强化学习的奖励信号，引导问题生成器生成更具挑战性的问题；4) 通过人工评估验证生成问题的质量和难度。

关键创新：该方法的主要创新点在于：1) 利用合成偏好数据，避免了人工标注偏好数据的成本；2) 将问题难度建模为强化学习的奖励信号，引导问题生成器生成难度逐渐增加的问题；3) 提出了一种基于现有问答模型性能的难度指标，无需人工标注问题难度。

关键设计：在强化学习过程中，使用PPO算法优化问题生成器的策略。奖励函数的设计至关重要，它基于问题生成器生成的问题被现有问答模型正确回答的概率。具体来说，如果生成的问题被回答正确的概率较低，则给予更高的奖励，反之则给予较低的奖励。此外，还使用了llama-2-chat模型作为问题生成器的基础模型，并进行了微调。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法能够有效提升生成问题的难度，并通过人工评估验证了生成问题的质量。具体来说，与基线方法相比，使用强化学习生成的问题在难度上有了显著提升，并且人工评估结果表明，生成的问题具有较高的可读性和相关性。此外，该研究还开源了代码和模型，方便其他研究者进行复现和改进。

🎯 应用场景

该研究成果可应用于文化遗产领域的智能问答系统、个性化搜索和教育资源建设。通过自动生成高质量的领域特定数据集，可以有效提升相关系统的性能和用户体验，并降低数据集构建成本。未来，该方法可以推广到其他领域，例如医疗、金融等，为领域知识图谱的构建和应用提供支持。

📄 摘要（原文）

As the cultural heritage sector increasingly adopts technologies like Retrieval-Augmented Generation (RAG) to provide more personalised search experiences and enable conversations with collections data, the demand for specialised evaluation datasets has grown. While end-to-end system testing is essential, it's equally important to assess individual components. We target the final, answering task, which is well-suited to Machine Reading Comprehension (MRC). Although existing MRC datasets address general domains, they lack the specificity needed for cultural heritage information. Unfortunately, the manual creation of such datasets is prohibitively expensive for most heritage institutions. This paper presents a cost-effective approach for generating domain-specific MRC datasets with increased difficulty using Reinforcement Learning from Human Feedback (RLHF) from synthetic preference data. Our method leverages the performance of existing question-answering models on a subset of SQuAD to create a difficulty metric, assuming that more challenging questions are answered correctly less frequently. This research contributes: (1) A methodology for increasing question difficulty using PPO and synthetic data; (2) Empirical evidence of the method's effectiveness, including human evaluation; (3) An in-depth error analysis and study of emergent phenomena; and (4) An open-source codebase and set of three llama-2-chat adapters for reproducibility and adaptation.

Increasing the Difficulty of Automatically Generated Questions via Reinforcement Learning with Synthetic Preference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理