FuDoBa: Fusing Document and Knowledge Graph-based Representations with Bayesian Optimisation
作者: Boshko Koloski, Senja Pollak, Roberto Navigli, Blaž Škrlj
分类: cs.CL
发布日期: 2025-07-09
💡 一句话要点
FuDoBa:融合文档与知识图谱表征,通过贝叶斯优化提升领域文档分类。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文档分类 知识图谱 贝叶斯优化 表征学习 大型语言模型
📋 核心要点
- 现有基于LLM的文档表征方法,虽然性能优异,但高维、高计算成本,且通用性强,难以适应特定领域。
- FuDoBa通过贝叶斯优化融合LLM嵌入和领域知识图谱,生成低维、任务相关的文档表征,降低训练复杂度。
- 实验表明,FuDoBa与AutoML分类器结合,在多个数据集上达到或超过了专有LLM嵌入基线的性能。
📝 摘要(中文)
大型语言模型(LLM)的成功推动了基于LLM的表征在文档表征领域的应用,并在文档嵌入基准测试中取得了优异的性能。然而,来自LLM的高维、计算成本高的嵌入通常过于通用或对于特定领域的应用效率低下。为了解决这些限制,我们引入了FuDoBa,一种基于贝叶斯优化的方法,它将基于LLM的嵌入与领域特定的结构化知识(来源于本地和外部知识库,如WikiData)相结合。这种融合产生低维、任务相关的表征,同时降低了训练复杂度,并为增强的分类性能产生可解释的早期融合权重。我们在两个领域的六个数据集上证明了我们方法的有效性,表明当与强大的基于AutoML的分类器配对时,我们提出的表征学习方法与仅由专有LLM嵌入基线产生的表征性能相当或超过它们。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)生成的文档嵌入在高维、计算密集以及领域适应性差的问题。现有方法要么过于通用,无法捕捉特定领域的细微差别,要么计算成本过高,难以在资源受限的环境中使用。
核心思路:论文的核心思路是将LLM生成的文档嵌入与领域相关的结构化知识(来自本地知识库或外部知识图谱如WikiData)进行融合,利用贝叶斯优化方法寻找最佳的融合权重,从而生成低维、任务相关的文档表征。这样既能利用LLM的强大语义理解能力,又能融入领域知识,提高表征的针对性和效率。
技术框架:FuDoBa的技术框架主要包括以下几个阶段:1) 使用LLM生成文档的初始嵌入;2) 从领域知识库或知识图谱中提取相关实体和关系,构建领域知识表示;3) 使用贝叶斯优化算法,自动搜索LLM嵌入和领域知识表示的最佳融合权重;4) 将融合后的低维表征输入到AutoML分类器中进行训练和预测。
关键创新:FuDoBa的关键创新在于使用贝叶斯优化来自动学习LLM嵌入和领域知识表示的融合权重。这种方法避免了手动调整权重的繁琐过程,并且能够根据具体任务自适应地调整融合策略,从而获得更好的性能。此外,FuDoBa还能够生成可解释的早期融合权重,有助于理解LLM和领域知识在文档分类中的作用。
关键设计:FuDoBa使用高斯过程作为贝叶斯优化的代理模型,并采用Expected Improvement作为采集函数。领域知识表示的具体形式取决于可用的知识源,可以是实体嵌入、关系嵌入或两者的组合。AutoML分类器可以使用各种算法,如支持向量机、随机森林或梯度提升树,并通过交叉验证来选择最佳模型和超参数。
🖼️ 关键图片
📊 实验亮点
FuDoBa在两个领域的六个数据集上进行了评估,结果表明,与仅使用专有LLM嵌入的基线相比,FuDoBa在与AutoML分类器结合使用时,性能相当甚至超过了这些基线。这表明FuDoBa能够有效地融合LLM嵌入和领域知识,生成更具判别力的文档表征。此外,FuDoBa还降低了计算成本,并提供了可解释的融合权重。
🎯 应用场景
FuDoBa可应用于各种需要领域知识的文档分类任务,例如:医学文献分类、法律文档分析、金融报告解读等。该方法能够提升领域文档分类的准确性和效率,降低计算成本,并提供可解释的融合权重,有助于领域专家理解文档内容和做出决策。未来,FuDoBa可以扩展到其他类型的结构化知识源,并与其他表征学习方法相结合,进一步提升性能。
📄 摘要(原文)
Building on the success of Large Language Models (LLMs), LLM-based representations have dominated the document representation landscape, achieving great performance on the document embedding benchmarks. However, the high-dimensional, computationally expensive embeddings from LLMs tend to be either too generic or inefficient for domain-specific applications. To address these limitations, we introduce FuDoBa a Bayesian optimisation-based method that integrates LLM-based embeddings with domain-specific structured knowledge, sourced both locally and from external repositories like WikiData. This fusion produces low-dimensional, task-relevant representations while reducing training complexity and yielding interpretable early-fusion weights for enhanced classification performance. We demonstrate the effectiveness of our approach on six datasets in two domains, showing that when paired with robust AutoML-based classifiers, our proposed representation learning approach performs on par with, or surpasses, those produced solely by the proprietary LLM-based embedding baselines.