Improving Conversational Abilities of Quantized Large Language Models via Direct Preference Alignment
作者: Janghwan Lee, Seongmin Park, Sukjin Hong, Minsoo Kim, Du-Seong Chang, Jungwook Choi
分类: cs.CL
发布日期: 2024-07-03 (更新: 2024-07-18)
备注: ACL 2024 Main
💡 一句话要点
提出量化感知直接偏好优化(QDPO),提升量化大语言模型对话能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 量化 大语言模型 对话系统 偏好优化 后训练量化
📋 核心要点
- 现有大语言模型量化方法,如PTQ,会引入token-flipping问题,降低对话能力。
- 提出量化感知直接偏好优化(QDPO),通过偏好对齐,使量化模型逼近全精度模型。
- 实验表明,QDPO在多种语言的指令调优LLM上,显著优于传统PTQ和知识蒸馏方法。
📝 摘要(中文)
大型语言模型(LLM)的快速发展使其转变为能够理解上下文细微差别并生成相关句子的对话式聊天机器人,这主要归功于指令调优和基于人类反馈的强化学习(RLHF)等先进技术,从而更贴近人类价值观。然而,通过后训练量化(PTQ)等技术实现的LLM计算效率提升,也带来了诸如token-flipping等挑战,这会损害聊天机器人的性能。为了解决这个问题,我们提出了一种新的偏好对齐方法,即量化感知直接偏好优化(QDPO),使量化的LLM与其全精度模型对齐,从而提高对话能力。在各种语言的两个指令调优LLM上进行的评估表明,与已建立的PTQ和知识蒸馏微调技术相比,QDPO在提高对话能力方面表现出卓越的性能,标志着高效且有效的对话式LLM的开发向前迈出了重要一步。
🔬 方法详解
问题定义:论文旨在解决量化大语言模型在对话场景下性能下降的问题。现有的后训练量化(PTQ)方法虽然能够有效降低计算成本,但会引入量化误差,导致token-flipping现象,从而严重影响对话质量,使得量化模型无法有效捕捉上下文信息,生成流畅自然的回复。
核心思路:论文的核心思路是利用直接偏好优化(DPO)的思想,在量化过程中,直接将量化模型的输出与全精度模型的输出进行偏好对齐。通过优化量化模型的参数,使其输出尽可能接近全精度模型的输出,从而缓解量化误差带来的负面影响,提升量化模型的对话能力。
技术框架:QDPO的技术框架主要包含以下几个步骤:1) 首先,准备一个包含对话数据的训练集。2) 然后,使用PTQ方法对全精度模型进行量化,得到量化模型。3) 接着,利用DPO损失函数,以全精度模型的输出作为正样本,量化模型的输出作为负样本,对量化模型进行微调。4) 最后,评估微调后的量化模型在对话任务上的性能。
关键创新:QDPO的关键创新在于将DPO方法应用于量化模型的训练中,实现了量化感知的偏好对齐。与传统的知识蒸馏方法相比,QDPO不需要显式地定义损失函数来模仿全精度模型的输出,而是直接通过偏好学习的方式,让量化模型学习全精度模型的行为,从而更加有效地提升量化模型的性能。
关键设计:QDPO的关键设计在于DPO损失函数的选择和训练数据的准备。DPO损失函数通常采用pairwise ranking loss的形式,鼓励模型生成更接近正样本(全精度模型输出)的回复,同时远离负样本(量化模型初始输出)。训练数据需要包含丰富的对话场景,以保证模型能够学习到各种上下文信息和对话策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,QDPO在多种语言的指令调优LLM上,显著优于传统的PTQ和知识蒸馏微调技术。具体而言,QDPO在对话质量和流畅度方面取得了显著提升,有效缓解了量化误差带来的token-flipping问题。实验结果验证了QDPO在提升量化大语言模型对话能力方面的有效性。
🎯 应用场景
该研究成果可应用于各种需要高效对话能力的场景,如智能客服、聊天机器人、虚拟助手等。通过使用QDPO方法,可以在保证对话质量的前提下,显著降低模型计算成本和存储空间,从而实现更高效、更经济的对话系统部署。未来,该技术有望推动大语言模型在资源受限设备上的应用,例如移动设备和嵌入式系统。
📄 摘要(原文)
The rapid advancement of large language models (LLMs) has facilitated their transformation into conversational chatbots that can grasp contextual nuances and generate pertinent sentences, closely mirroring human values through advanced techniques such as instruction tuning and reinforcement learning from human feedback (RLHF). However, the computational efficiency required for LLMs, achieved through techniques like post-training quantization (PTQ), presents challenges such as token-flipping that can impair chatbot performance. In response, we propose a novel preference alignment approach, quantization-aware direct preference optimization (QDPO), that aligns quantized LLMs with their full-precision counterparts, improving conversational abilities. Evaluated on two instruction-tuned LLMs in various languages, QDPO demonstrated superior performance in improving conversational abilities compared to established PTQ and knowledge-distillation fine-tuning techniques, marking a significant step forward in the development of efficient and effective conversational LLMs.