Learning to Ask Informative Questions: Enhancing LLMs with Preference Optimization and Expected Information Gain
作者: Davide Mazzaccara, Alberto Testoni, Raffaella Bernardi
分类: cs.CL
发布日期: 2024-06-25 (更新: 2024-10-17)
备注: Accepted to EMNLP 2024 (Findings)
💡 一句话要点
提出基于偏好优化和期望信息增益的提问学习方法,提升LLM在信息搜寻任务中的表现。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 提问生成 信息增益 偏好优化 大型语言模型 人机对话
📋 核心要点
- 大型语言模型在生成信息性问题方面存在不足,尤其是在信息搜寻任务中,难以获得高期望信息增益。
- 通过对LLM生成的问题进行采样,构建高低EIG问题对,并利用直接偏好优化算法进行训练,提升问题的信息量。
- 实验表明,该方法能够有效提升LLM生成问题的质量,即使在不同的领域也能保持良好的泛化能力。
📝 摘要(中文)
本文提出了一种增强大型语言模型(LLM)生成信息性问题的方法,尤其针对开放源代码模型,这些模型在生成具有高期望信息增益(EIG)的问题方面表现不佳。该方法应用于20个问题的对话游戏中,通过对同一模型(LLAMA 2-CHAT 7B)采样多个问题,并创建低EIG和高EIG问题对,然后应用直接偏好优化(DPO)算法。实验结果表明,该方法能够生成更有效的问题(以EIG衡量),即使在与DPO模型训练领域不同的领域中也是如此。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在信息搜寻任务中生成信息性问题能力不足的问题。现有方法生成的提问往往缺乏针对性,导致期望信息增益(EIG)较低,影响了信息获取的效率。特别是对于开源LLM,这个问题更为突出。
核心思路:论文的核心思路是通过偏好优化来引导LLM生成更具信息性的问题。具体而言,通过比较同一情境下不同问题的EIG,将高EIG的问题视为更优选择,并利用这些偏好信息来调整LLM的参数,使其倾向于生成类似的高质量问题。
技术框架:整体流程包括以下几个步骤:1) 使用LLAMA 2-CHAT 7B等LLM在20个问题的对话游戏中生成多个候选问题。2) 计算每个候选问题的EIG,作为衡量其信息性的指标。3) 基于EIG对问题进行配对,形成高EIG和低EIG的问题对。4) 使用直接偏好优化(DPO)算法,利用这些问题对来训练LLM,使其学习生成更符合偏好的问题。
关键创新:该方法最重要的创新在于将偏好学习与信息增益相结合,通过直接优化LLM的参数来提升其生成信息性问题的能力。与传统的生成式方法相比,该方法无需显式地定义奖励函数,而是直接从数据中学习偏好,更加灵活和高效。
关键设计:关键设计包括:1) 使用EIG作为衡量问题信息性的指标,EIG的计算方式未知。2) 采用直接偏好优化(DPO)算法,DPO的具体参数设置未知。3) 使用LLAMA 2-CHAT 7B作为基础LLM,并针对其进行微调。4) 通过采样生成多个候选问题,增加了选择高质量问题的机会。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用该方法训练后的LLM能够生成更有效的问题,以EIG衡量,即使在与DPO模型训练领域不同的领域中也是如此。这表明该方法具有良好的泛化能力,能够提升LLM在不同场景下的提问质量。具体的性能提升数据未知。
🎯 应用场景
该研究成果可应用于智能客服、问答系统、信息检索等领域,提升人机交互的效率和质量。通过生成更具信息性的问题,可以帮助用户更快地找到所需信息,提高用户满意度。未来,该方法有望扩展到更复杂的对话场景和任务中。
📄 摘要(原文)
Questions are essential tools for acquiring the necessary information to complete information-seeking tasks. However, large language models (LLMs), especially open-source models, often perform poorly in generating informative questions, as measured by expected information gain (EIG). In this paper, we propose a method to enhance the informativeness of LLM-generated questions in 20-question game dialogues. We sample multiple questions from the same model (LLAMA 2-CHAT 7B) for each game and create pairs of low-EIG and high-EIG questions to apply a Direct Preference Optimization (DPO) algorithm. Our results show that this method produces more effective questions (in terms of EIG), even in domains different from those used to train the DPO model.