Towards Effective In-context Cross-domain Knowledge Transfer via Domain-invariant-neurons-based Retrieval

📄 arXiv: 2604.05383v1 📥 PDF

作者: Jianzhi Yan, Zhiming Li, Le Liu, Zike Yuan, Shiwei Chen, Youcheng Pan, Buzhou Tang, Yang Xiang, Danny Dongning Sun

分类: cs.AI

发布日期: 2026-04-07

备注: ACL 2026 Findings

🔗 代码/项目: GITHUB


💡 一句话要点

提出DIN-Retrieval,通过领域不变神经元检索实现跨领域知识迁移,提升LLM推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨领域知识迁移 领域不变神经元 上下文学习 逻辑推理 大型语言模型

📋 核心要点

  1. 现有LLM推理提升方法依赖领域内专家知识,在专业领域应用受限。
  2. DIN-Retrieval通过提取领域不变神经元表示,实现跨领域知识的有效迁移。
  3. 实验表明,DIN-Retrieval在数学和逻辑推理任务上显著优于现有方法。

📝 摘要(中文)

大型语言模型(LLMs)在逻辑推理方面取得了显著进展,但仍未达到人类水平。目前的提升策略依赖于专家设计的领域内演示,限制了它们在专业知识匮乏领域(如专业数学推理、形式逻辑或法律分析)的应用。本文论证了利用跨领域演示示例来提升LLMs推理性能的可行性。尽管领域差异显著,但许多可重用的隐式逻辑结构在不同领域之间是共享的。为了有效地为未见领域检索跨领域示例,本文提出了一种有效的检索方法,称为基于领域不变神经元的检索(DIN-Retrieval)。简而言之,DIN-Retrieval首先总结出一个在不同领域通用的隐藏表示。然后在推理阶段,我们使用DIN向量来检索结构兼容的跨领域演示,用于上下文学习。在数学和逻辑推理迁移的多种设置下的实验结果表明,我们的方法比最先进的方法平均提高了1.8。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在专业领域(如数学、逻辑、法律)推理能力不足的问题。现有方法依赖于领域内专家构建的演示示例,但在这些专业领域,获取高质量的领域内数据成本高昂,限制了LLM的应用。因此,如何利用其他领域的知识来提升LLM在目标领域的推理能力是一个关键挑战。

核心思路:论文的核心思路是,尽管不同领域在表面上存在差异,但它们在逻辑结构上可能存在共通之处。通过识别和提取这些领域不变的逻辑结构,可以实现跨领域的知识迁移。DIN-Retrieval旨在学习一种领域不变的表示,用于检索与目标问题在逻辑结构上相似的跨领域示例,从而提升LLM的推理能力。

技术框架:DIN-Retrieval包含两个主要阶段:1) 领域不变神经元表示学习:该阶段旨在学习一个能够捕捉不同领域之间共享逻辑结构的隐藏表示,即DIN向量。具体来说,通过训练一个模型,使其能够区分不同领域的输入,并同时学习一个领域不变的表示。2) 跨领域示例检索:在推理阶段,对于给定的目标问题,首先计算其DIN向量,然后使用该向量在其他领域的数据集中检索与目标问题具有相似逻辑结构的示例。检索到的示例将作为上下文信息提供给LLM,以提升其推理能力。

关键创新:DIN-Retrieval的关键创新在于其领域不变神经元表示学习方法。与传统的领域自适应方法不同,DIN-Retrieval不是直接将源领域的知识迁移到目标领域,而是学习一种通用的、领域无关的表示,从而能够更好地捕捉不同领域之间的共享逻辑结构。这种方法使得DIN-Retrieval能够更有效地利用跨领域的数据来提升LLM的推理能力。

关键设计:DIN-Retrieval的具体实现细节包括:1) 使用Transformer模型作为基础架构,用于学习领域不变神经元表示。2) 采用对抗训练的方法,鼓励模型学习领域不变的表示,同时区分不同领域的输入。3) 使用余弦相似度作为检索指标,衡量目标问题和候选示例之间的逻辑结构相似度。4) 通过实验验证了不同参数设置(如Transformer层数、对抗训练强度等)对性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DIN-Retrieval在数学和逻辑推理任务上取得了显著的性能提升,平均超过现有最先进方法1.8个百分点。具体而言,DIN-Retrieval在多个跨领域迁移场景下均表现出优越的性能,证明了其有效性。代码已开源。

🎯 应用场景

DIN-Retrieval具有广泛的应用前景,可以应用于各种需要逻辑推理的专业领域,如数学问题求解、法律条文分析、金融风险评估等。通过利用跨领域的知识,DIN-Retrieval可以降低对领域内专家知识的依赖,提高LLM在专业领域的应用效率和准确性,并可能促进跨学科研究。

📄 摘要(原文)

Large language models (LLMs) have made notable progress in logical reasoning, yet still fall short of human-level performance. Current boosting strategies rely on expert-crafted in-domain demonstrations, limiting their applicability in expertise-scarce domains, such as specialized mathematical reasoning, formal logic, or legal analysis. In this work, we demonstrate the feasibility of leveraging cross-domain demonstrating examples to boost the LLMs' reasoning performance. Despite substantial domain differences, many reusable implicit logical structures are shared across domains. In order to effectively retrieve cross-domain examples for unseen domains under investigation, in this work, we further propose an effective retrieval method, called domain-invariant neurons-based retrieval (\textbf{DIN-Retrieval}). Concisely, DIN-Retrieval first summarizes a hidden representation that is universal across different domains. Then, during the inference stage, we use the DIN vector to retrieve structurally compatible cross-domain demonstrations for the in-context learning. Experimental results in multiple settings for the transfer of mathematical and logical reasoning demonstrate that our method achieves an average improvement of 1.8 over the state-of-the-art methods \footnote{Our implementation is available at https://github.com/Leon221220/DIN-Retrieval}.