Prompting and Fine-Tuning of Small LLMs for Length-Controllable Telephone Call Summarization

📄 arXiv: 2410.18624v1 📥 PDF

作者: David Thulke, Yingbo Gao, Rricha Jalota, Christian Dugast, Hermann Ney

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-10-24

备注: Accepted at the The International Conference on Foundation and Large Language Models (FLLM2024)


💡 一句话要点

利用Prompt和微调小LLM实现长度可控的电话呼叫总结

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电话呼叫总结 大型语言模型 Prompt工程 微调 合成数据 长度控制 Llama-2

📋 核心要点

  1. 现有电话呼叫总结系统在快速部署和长度控制方面存在挑战,难以满足不同场景需求。
  2. 本文提出一种基于Prompt和微调小型LLM的方法,利用合成数据训练长度可控的摘要模型。
  3. 实验结果表明,微调后的Llama-2-7B模型在摘要质量上可与GPT-4媲美,验证了该方法的有效性。

📝 摘要(中文)

本文探讨了利用大型语言模型(LLM)快速开发电话呼叫总结系统的方法。我们的方法包括:首先,通过Prompt现有LLM来生成电话对话的摘要;然后,利用更强大的前沿模型创建定制的合成训练数据集。我们特别关注生成数据的多样性以及控制生成摘要长度的能力,以满足各种特定用例的需求。我们使用两种基于LLM-as-a-judge的先进评估技术来评估该方法的有效性,以确保摘要的质量和相关性。结果表明,基于微调的Llama-2-7B的摘要模型在事实准确性、完整性和简洁性方面与GPT-4相当。我们的研究结果证明了快速启动实用且高效的呼叫总结系统的潜力。

🔬 方法详解

问题定义:本文旨在解决电话呼叫总结问题,特别是针对不同应用场景,需要生成长度可控的摘要。现有方法可能依赖于大型、计算成本高的模型,或者缺乏对摘要长度的精确控制,限制了其在实际应用中的部署效率和灵活性。

核心思路:本文的核心思路是利用大型语言模型(LLM)的强大生成能力,先通过Prompting的方式获得初步的摘要结果,然后利用这些结果生成高质量的合成训练数据,最后使用这些数据微调一个较小的LLM(如Llama-2-7B),使其能够在保证摘要质量的同时,实现对摘要长度的精确控制。这样既降低了计算成本,又提高了模型的实用性。

技术框架:整体框架包括以下几个阶段:1) Prompting阶段:使用现有的LLM(如GPT-4)对电话呼叫记录进行Prompting,生成初步的摘要。2) 数据合成阶段:利用Prompting阶段生成的摘要,结合原始的电话呼叫记录,构建合成训练数据集,特别关注数据的多样性和长度控制。3) 微调阶段:使用合成训练数据集微调一个较小的LLM(如Llama-2-7B),使其能够生成高质量且长度可控的摘要。4) 评估阶段:使用基于LLM-as-a-judge的评估方法,评估微调后的模型的性能。

关键创新:本文的关键创新在于利用合成数据的方法,有效地训练了一个小型LLM,使其在摘要质量上可以与大型LLM媲美。此外,对合成数据的多样性和长度控制的关注,使得模型能够更好地适应不同的应用场景。

关键设计:在数据合成阶段,设计了多种Prompting策略,以确保生成数据的多样性。同时,通过控制Prompt中的长度约束,可以生成不同长度的摘要。在微调阶段,使用了标准的监督学习方法,并对模型的超参数进行了优化。在评估阶段,使用了基于LLM-as-a-judge的评估方法,以确保评估结果的客观性和准确性。

📊 实验亮点

实验结果表明,经过微调的Llama-2-7B模型在电话呼叫总结任务中表现出色,在事实准确性、完整性和简洁性方面与GPT-4相当。这表明,通过Prompting和微调,可以使用较小的LLM达到与大型LLM相媲美的性能,从而降低计算成本,提高部署效率。

🎯 应用场景

该研究成果可应用于客户服务、销售、市场调研等领域,帮助企业快速了解电话沟通内容,提高工作效率。例如,客服人员可以快速浏览通话摘要,了解客户问题;销售人员可以回顾客户需求,制定更有效的销售策略。该技术还可用于自动生成会议纪要、法律咨询记录等,具有广泛的应用前景。

📄 摘要(原文)

This paper explores the rapid development of a telephone call summarization system utilizing large language models (LLMs). Our approach involves initial experiments with prompting existing LLMs to generate summaries of telephone conversations, followed by the creation of a tailored synthetic training dataset utilizing stronger frontier models. We place special focus on the diversity of the generated data and on the ability to control the length of the generated summaries to meet various use-case specific requirements. The effectiveness of our method is evaluated using two state-of-the-art LLM-as-a-judge-based evaluation techniques to ensure the quality and relevance of the summaries. Our results show that fine-tuned Llama-2-7B-based summarization model performs on-par with GPT-4 in terms of factual accuracy, completeness and conciseness. Our findings demonstrate the potential for quickly bootstrapping a practical and efficient call summarization system.