Towards Multi-Level Transcript Segmentation: LoRA Fine-Tuning for Table-of-Contents Generation

作者: Steffen Freisinger, Philipp Seeberger, Thomas Ranzenberger, Tobias Bocklet, Korbinian Riedhammer

分类: cs.CL, eess.AS

发布日期: 2026-01-05

备注: Published in Proceedings of Interspeech 2025. Please cite the proceedings version (DOI: 10.21437/Interspeech.2025-2792)

期刊: Proceedings of Interspeech 2025, pp. 276-280

DOI: 10.21437/Interspeech.2025-2792

💡 一句话要点

提出基于LoRA微调的多层次转录分割方法，用于生成目录。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 转录分割 主题分割 LoRA微调 多层次目录 大型语言模型

📋 核心要点

现有转录文本主题分割方法难以有效捕获多层次的主题结构，限制了下游应用。
利用LoRA微调大型语言模型，并结合语音停顿特征，实现转录文本的多层次主题分割。
实验结果表明，该方法在多种语言的转录文本上优于现有基线，并提出了新的评估指标。

📝 摘要（中文）

本文提出了一种新的转录文本分层主题分割方法，旨在生成多层次目录，从而捕获主题和子主题的边界。该方法将语音转录分割成多个主题部分，这有利于下游处理，并为依赖书面文本的可访问性用户提供便利。论文比较了大型语言模型的零样本提示和LoRA微调，并探索了高级语音停顿特征的整合。在英语会议记录和多语种讲座记录（葡萄牙语、德语）上的评估表明，该方法比已建立的主题分割基线有显著改进。此外，本文还调整了一种常用的多层次分割评估指标，将所有层次结构级别纳入到一个指标中。

🔬 方法详解

问题定义：论文旨在解决语音转录文本的多层次主题分割问题，即如何自动将转录文本划分成具有层级关系的主题和子主题。现有方法通常只能进行单层分割，无法捕捉到文本中更细粒度的语义结构，导致生成的目录信息不够全面和准确。

核心思路：论文的核心思路是利用大型语言模型（LLM）强大的语义理解能力，通过LoRA（Low-Rank Adaptation）微调，使其能够识别转录文本中的主题边界，并构建多层次的主题结构。同时，结合语音停顿等声学特征，辅助LLM进行主题分割。

技术框架：整体框架包括以下几个主要阶段：1) 数据预处理：对语音转录文本进行清洗和格式化；2) 特征提取：提取文本特征（例如词嵌入）和语音停顿特征；3) 模型微调：使用LoRA方法在预训练的LLM上进行微调，使其适应主题分割任务；4) 主题分割：利用微调后的LLM预测文本中的主题边界；5) 层次结构构建：根据主题边界构建多层次的主题结构。

关键创新：论文的关键创新在于：1) 提出了一种基于LoRA微调的LLM用于多层次转录文本分割的方法；2) 结合了语音停顿特征，提升了分割的准确性；3) 提出了一种新的多层次分割评估指标，能够综合评估不同层次的分割效果。

关键设计：在模型微调阶段，使用交叉熵损失函数来优化LoRA参数，目标是最小化预测的主题边界与真实边界之间的差异。语音停顿特征通过拼接的方式与文本特征融合，输入到LLM中。LoRA的具体参数设置（例如秩的大小）需要根据实验进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于LoRA微调的LLM方法在英语会议记录和多语种讲座记录（葡萄牙语、德语）上的主题分割性能显著优于现有基线方法。具体而言，该方法在多层次分割评估指标上取得了明显的提升，证明了其在捕获多层次主题结构方面的优势。此外，结合语音停顿特征进一步提升了分割的准确性。

🎯 应用场景

该研究成果可应用于自动生成会议记录、讲座视频等多媒体内容的多层次目录，方便用户快速浏览和检索信息。此外，该技术还可用于辅助残障人士理解语音内容，提高信息可访问性。未来，该方法有望扩展到其他类型的文本分割任务，例如新闻文章摘要、文档结构分析等。

📄 摘要（原文）

Segmenting speech transcripts into thematic sections benefits both downstream processing and users who depend on written text for accessibility. We introduce a novel approach to hierarchical topic segmentation in transcripts, generating multi-level tables of contents that capture both topic and subtopic boundaries. We compare zero-shot prompting and LoRA fine-tuning on large language models, while also exploring the integration of high-level speech pause features. Evaluations on English meeting recordings and multilingual lecture transcripts (Portuguese, German) show significant improvements over established topic segmentation baselines. Additionally, we adapt a common evaluation measure for multi-level segmentation, taking into account all hierarchical levels within one metric.

Towards Multi-Level Transcript Segmentation: LoRA Fine-Tuning for Table-of-Contents Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册