FuDoBa: Fusing Document and Knowledge Graph-based Representations with Bayesian Optimisation

作者: Boshko Koloski, Senja Pollak, Roberto Navigli, Blaž Škrlj

分类: cs.CL

发布日期: 2025-07-09

💡 一句话要点

FuDoBa：融合文档与知识图谱表征，通过贝叶斯优化提升领域文档分类。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文档分类 知识图谱 贝叶斯优化 表征学习 大型语言模型

📋 核心要点

现有基于LLM的文档表征方法，虽然性能优异，但高维、高计算成本，且通用性强，难以适应特定领域。
FuDoBa通过贝叶斯优化融合LLM嵌入和领域知识图谱，生成低维、任务相关的文档表征，降低训练复杂度。
实验表明，FuDoBa与AutoML分类器结合，在多个数据集上达到或超过了专有LLM嵌入基线的性能。

📝 摘要（中文）

大型语言模型（LLM）的成功推动了基于LLM的表征在文档表征领域的应用，并在文档嵌入基准测试中取得了优异的性能。然而，来自LLM的高维、计算成本高的嵌入通常过于通用或对于特定领域的应用效率低下。为了解决这些限制，我们引入了FuDoBa，一种基于贝叶斯优化的方法，它将基于LLM的嵌入与领域特定的结构化知识（来源于本地和外部知识库，如WikiData）相结合。这种融合产生低维、任务相关的表征，同时降低了训练复杂度，并为增强的分类性能产生可解释的早期融合权重。我们在两个领域的六个数据集上证明了我们方法的有效性，表明当与强大的基于AutoML的分类器配对时，我们提出的表征学习方法与仅由专有LLM嵌入基线产生的表征性能相当或超过它们。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）生成的文档嵌入在高维、计算密集以及领域适应性差的问题。现有方法要么过于通用，无法捕捉特定领域的细微差别，要么计算成本过高，难以在资源受限的环境中使用。

核心思路：论文的核心思路是将LLM生成的文档嵌入与领域相关的结构化知识（来自本地知识库或外部知识图谱如WikiData）进行融合，利用贝叶斯优化方法寻找最佳的融合权重，从而生成低维、任务相关的文档表征。这样既能利用LLM的强大语义理解能力，又能融入领域知识，提高表征的针对性和效率。

技术框架：FuDoBa的技术框架主要包括以下几个阶段：1) 使用LLM生成文档的初始嵌入；2) 从领域知识库或知识图谱中提取相关实体和关系，构建领域知识表示；3) 使用贝叶斯优化算法，自动搜索LLM嵌入和领域知识表示的最佳融合权重；4) 将融合后的低维表征输入到AutoML分类器中进行训练和预测。

关键创新：FuDoBa的关键创新在于使用贝叶斯优化来自动学习LLM嵌入和领域知识表示的融合权重。这种方法避免了手动调整权重的繁琐过程，并且能够根据具体任务自适应地调整融合策略，从而获得更好的性能。此外，FuDoBa还能够生成可解释的早期融合权重，有助于理解LLM和领域知识在文档分类中的作用。

关键设计：FuDoBa使用高斯过程作为贝叶斯优化的代理模型，并采用Expected Improvement作为采集函数。领域知识表示的具体形式取决于可用的知识源，可以是实体嵌入、关系嵌入或两者的组合。AutoML分类器可以使用各种算法，如支持向量机、随机森林或梯度提升树，并通过交叉验证来选择最佳模型和超参数。

🖼️ 关键图片

📊 实验亮点

FuDoBa在两个领域的六个数据集上进行了评估，结果表明，与仅使用专有LLM嵌入的基线相比，FuDoBa在与AutoML分类器结合使用时，性能相当甚至超过了这些基线。这表明FuDoBa能够有效地融合LLM嵌入和领域知识，生成更具判别力的文档表征。此外，FuDoBa还降低了计算成本，并提供了可解释的融合权重。

🎯 应用场景

FuDoBa可应用于各种需要领域知识的文档分类任务，例如：医学文献分类、法律文档分析、金融报告解读等。该方法能够提升领域文档分类的准确性和效率，降低计算成本，并提供可解释的融合权重，有助于领域专家理解文档内容和做出决策。未来，FuDoBa可以扩展到其他类型的结构化知识源，并与其他表征学习方法相结合，进一步提升性能。

📄 摘要（原文）

Building on the success of Large Language Models (LLMs), LLM-based representations have dominated the document representation landscape, achieving great performance on the document embedding benchmarks. However, the high-dimensional, computationally expensive embeddings from LLMs tend to be either too generic or inefficient for domain-specific applications. To address these limitations, we introduce FuDoBa a Bayesian optimisation-based method that integrates LLM-based embeddings with domain-specific structured knowledge, sourced both locally and from external repositories like WikiData. This fusion produces low-dimensional, task-relevant representations while reducing training complexity and yielding interpretable early-fusion weights for enhanced classification performance. We demonstrate the effectiveness of our approach on six datasets in two domains, showing that when paired with robust AutoML-based classifiers, our proposed representation learning approach performs on par with, or surpasses, those produced solely by the proprietary LLM-based embedding baselines.

FuDoBa: Fusing Document and Knowledge Graph-based Representations with Bayesian Optimisation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理