Annif at the GermEval-2025 LLMs4Subjects Task: Traditional XMTC Augmented by Efficient LLMs

📄 arXiv: 2508.15877v1 📥 PDF

作者: Osma Suominen, Juho Inkinen, Mona Lehtinen

分类: cs.CL, cs.AI, cs.IR, cs.LG

发布日期: 2025-08-21

备注: 5 pages, 4 figures, accepted at KONVENS 2025. arXiv admin note: substantial text overlap with arXiv:2504.19675


💡 一句话要点

Annif系统在GermEval-2025 LLMs4Subjects任务中,通过高效LLM增强传统XMTC方法,获得第一名。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动主题标引 大型语言模型 小型语言模型 数据增强 书目记录 文本分类 计算效率

📋 核心要点

  1. 现有方法在书目记录主题预测任务中,面临计算效率和模型规模的挑战,难以在实际应用中部署。
  2. 该论文提出利用小型高效语言模型进行翻译和数据增强,并使用LLM进行候选主题排序,提升效率。
  3. 实验结果表明,该系统在GermEval-2025 LLMs4Subjects任务中,定量和定性评估均排名第一,验证了有效性。

📝 摘要(中文)

本文介绍了Annif系统在GermEval-2025 LLMs4Subjects共享任务(子任务2)中的应用。该任务要求使用大型语言模型为书目记录创建主题预测,特别关注计算效率。我们的系统基于Annif自动主题索引工具包,改进了我们在第一个LLMs4Subjects共享任务中的系统,该系统产生了出色的结果。我们通过使用许多小型高效的语言模型进行翻译和合成数据生成,以及使用LLM对候选主题进行排序,进一步改进了系统。我们的系统在子任务2的总体定量评估中排名第一,在定性评估中也排名第一。

🔬 方法详解

问题定义:论文旨在解决书目记录的主题预测问题,即根据书目信息自动确定其所属的主题类别。现有方法,特别是依赖大型语言模型的方法,在计算效率方面存在瓶颈,难以满足实际应用的需求,尤其是在处理大量书目数据时。此外,如何有效地利用LLM进行主题预测,同时控制计算成本,也是一个挑战。

核心思路:论文的核心思路是利用小型且高效的语言模型进行数据增强和翻译,从而降低对大型模型的依赖,提高计算效率。同时,利用LLM的强大排序能力,对候选主题进行排序,以提高预测的准确性。这种混合方法旨在在准确性和效率之间取得平衡。

技术框架:整体框架包括以下几个主要阶段:1) 数据预处理:对书目记录进行清洗和格式化。2) 数据增强:使用小型语言模型生成合成数据,扩充训练集。3) 翻译:利用小型语言模型将书目记录翻译成多种语言,增加数据的多样性。4) 候选主题生成:使用Annif工具包生成候选主题列表。5) 主题排序:使用LLM对候选主题进行排序,选择排名最高的作为预测结果。

关键创新:该论文的关键创新在于将小型高效语言模型与大型语言模型相结合,充分利用各自的优势。小型模型用于数据增强和翻译,降低了计算成本;大型模型用于主题排序,保证了预测的准确性。这种混合方法在主题预测任务中具有很强的实用性。

关键设计:论文中使用了多个小型语言模型,具体选择和参数设置未知。LLM的选择和训练策略也未知。Annif工具包的具体配置和使用方式也未知。损失函数和网络结构等技术细节未在摘要中提及,需要查阅论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该系统在GermEval-2025 LLMs4Subjects任务的子任务2中,在定量和定性评估中均排名第一,证明了其在书目记录主题预测方面的优越性能。具体性能数据和对比基线未知,需要查阅论文全文。

🎯 应用场景

该研究成果可应用于图书馆自动化、数字图书馆建设、知识管理系统等领域,实现书目信息的自动分类和主题标引,提高信息检索效率,辅助用户快速找到所需资源。未来,该方法可扩展到其他文本分类任务,例如新闻分类、专利分类等。

📄 摘要(原文)

This paper presents the Annif system in the LLMs4Subjects shared task (Subtask 2) at GermEval-2025. The task required creating subject predictions for bibliographic records using large language models, with a special focus on computational efficiency. Our system, based on the Annif automated subject indexing toolkit, refines our previous system from the first LLMs4Subjects shared task, which produced excellent results. We further improved the system by using many small and efficient language models for translation and synthetic data generation and by using LLMs for ranking candidate subjects. Our system ranked 1st in the overall quantitative evaluation of and 1st in the qualitative evaluation of Subtask 2.