Towards Multi-Level Transcript Segmentation: LoRA Fine-Tuning for Table-of-Contents Generation
作者: Steffen Freisinger, Philipp Seeberger, Thomas Ranzenberger, Tobias Bocklet, Korbinian Riedhammer
分类: cs.CL, eess.AS
发布日期: 2026-01-05
备注: Published in Proceedings of Interspeech 2025. Please cite the proceedings version (DOI: 10.21437/Interspeech.2025-2792)
期刊: Proceedings of Interspeech 2025, pp. 276-280
DOI: 10.21437/Interspeech.2025-2792
💡 一句话要点
提出基于LoRA微调的多层次转录分割方法,用于生成目录。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 转录分割 主题分割 LoRA微调 多层次目录 大型语言模型
📋 核心要点
- 现有转录文本主题分割方法难以有效捕获多层次的主题结构,限制了下游应用。
- 利用LoRA微调大型语言模型,并结合语音停顿特征,实现转录文本的多层次主题分割。
- 实验结果表明,该方法在多种语言的转录文本上优于现有基线,并提出了新的评估指标。
📝 摘要(中文)
本文提出了一种新的转录文本分层主题分割方法,旨在生成多层次目录,从而捕获主题和子主题的边界。该方法将语音转录分割成多个主题部分,这有利于下游处理,并为依赖书面文本的可访问性用户提供便利。论文比较了大型语言模型的零样本提示和LoRA微调,并探索了高级语音停顿特征的整合。在英语会议记录和多语种讲座记录(葡萄牙语、德语)上的评估表明,该方法比已建立的主题分割基线有显著改进。此外,本文还调整了一种常用的多层次分割评估指标,将所有层次结构级别纳入到一个指标中。
🔬 方法详解
问题定义:论文旨在解决语音转录文本的多层次主题分割问题,即如何自动将转录文本划分成具有层级关系的主题和子主题。现有方法通常只能进行单层分割,无法捕捉到文本中更细粒度的语义结构,导致生成的目录信息不够全面和准确。
核心思路:论文的核心思路是利用大型语言模型(LLM)强大的语义理解能力,通过LoRA(Low-Rank Adaptation)微调,使其能够识别转录文本中的主题边界,并构建多层次的主题结构。同时,结合语音停顿等声学特征,辅助LLM进行主题分割。
技术框架:整体框架包括以下几个主要阶段:1) 数据预处理:对语音转录文本进行清洗和格式化;2) 特征提取:提取文本特征(例如词嵌入)和语音停顿特征;3) 模型微调:使用LoRA方法在预训练的LLM上进行微调,使其适应主题分割任务;4) 主题分割:利用微调后的LLM预测文本中的主题边界;5) 层次结构构建:根据主题边界构建多层次的主题结构。
关键创新:论文的关键创新在于:1) 提出了一种基于LoRA微调的LLM用于多层次转录文本分割的方法;2) 结合了语音停顿特征,提升了分割的准确性;3) 提出了一种新的多层次分割评估指标,能够综合评估不同层次的分割效果。
关键设计:在模型微调阶段,使用交叉熵损失函数来优化LoRA参数,目标是最小化预测的主题边界与真实边界之间的差异。语音停顿特征通过拼接的方式与文本特征融合,输入到LLM中。LoRA的具体参数设置(例如秩的大小)需要根据实验进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于LoRA微调的LLM方法在英语会议记录和多语种讲座记录(葡萄牙语、德语)上的主题分割性能显著优于现有基线方法。具体而言,该方法在多层次分割评估指标上取得了明显的提升,证明了其在捕获多层次主题结构方面的优势。此外,结合语音停顿特征进一步提升了分割的准确性。
🎯 应用场景
该研究成果可应用于自动生成会议记录、讲座视频等多媒体内容的多层次目录,方便用户快速浏览和检索信息。此外,该技术还可用于辅助残障人士理解语音内容,提高信息可访问性。未来,该方法有望扩展到其他类型的文本分割任务,例如新闻文章摘要、文档结构分析等。
📄 摘要(原文)
Segmenting speech transcripts into thematic sections benefits both downstream processing and users who depend on written text for accessibility. We introduce a novel approach to hierarchical topic segmentation in transcripts, generating multi-level tables of contents that capture both topic and subtopic boundaries. We compare zero-shot prompting and LoRA fine-tuning on large language models, while also exploring the integration of high-level speech pause features. Evaluations on English meeting recordings and multilingual lecture transcripts (Portuguese, German) show significant improvements over established topic segmentation baselines. Additionally, we adapt a common evaluation measure for multi-level segmentation, taking into account all hierarchical levels within one metric.