Localist LLMs with Recruitment Learning
作者: Joachim Diederich
分类: cs.LG, cs.AI
发布日期: 2025-10-20
💡 一句话要点
提出基于招募学习的局部化LLM框架,实现可解释性与高性能的动态平衡。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 局部化LLM 招募学习 可解释性 注意力机制 信息论 分层架构 动态调整
📋 核心要点
- 现有LLM在可解释性和泛化能力之间存在权衡,难以兼顾透明性和高性能需求。
- 提出一种基于招募学习的局部化LLM框架,通过动态调整局部性实现可解释性和性能的平衡。
- 通过数学证明和实验验证了该框架在语义块聚焦、模型收敛和性能提升方面的有效性。
📝 摘要(中文)
本文提出了一种训练大型语言模型的新框架,该框架具有连续可调的内部表示,涵盖从局部化(可解释、基于规则)到分布式(可泛化、高效)编码的完整范围。关键创新包括:(1)一个局部性调节器,一个可调参数,可在训练和推理期间动态控制局部化程度,无需模型重新训练;(2)一种信息论招募机制,可根据需要自适应地分配语义块,无需在初始化时具备完整的领域知识;(3)一个分层招募框架,将容量分配扩展到整个专用LLM,从而实现多粒度架构自适应。这通过注意力机制上的组稀疏惩罚、信息论锚点设计、动态规则注入以及基于显式单元的惩罚似然的原则性招募标准来实现。我们提供了严格的数学结果,建立了明确的阈值条件,在该条件下,注意力可以证明集中在平稳点上语义相关的块上,并具有注意力熵和指针保真度的精确界限。分层招募机制在块级别(细粒度,LLM内部)和LLM级别(粗粒度,跨域)提供收敛保证,确保系统发现平衡模型复杂性和数据编码效率的语义分区。该框架使从业者能够在可解释和高性能模式之间连续插值,同时以多种粒度调整架构容量,从而支持需要在透明性和能力方面的受监管领域中的应用。
🔬 方法详解
问题定义:现有的大型语言模型通常采用分布式表示,虽然具有良好的泛化能力,但在可解释性方面存在不足。在一些对透明度要求较高的领域,如金融、医疗等,需要模型具备一定的可解释性。因此,如何在保证模型性能的同时,提高模型的可解释性是一个重要的研究问题。
核心思路:本文的核心思路是通过引入一个局部性调节器,动态地控制模型内部表示的局部化程度。当局部性较强时,模型更倾向于使用局部化的、可解释的规则进行推理;当局部性较弱时,模型则更倾向于使用分布式的表示进行推理,从而提高模型的泛化能力。通过这种方式,模型可以在可解释性和性能之间进行灵活的权衡。
技术框架:该框架主要包含三个核心模块:局部性调节器、信息论招募机制和分层招募框架。局部性调节器用于控制模型内部表示的局部化程度;信息论招募机制用于自适应地分配语义块,无需预先定义完整的领域知识;分层招募框架则将容量分配扩展到整个专用LLM,实现多粒度架构自适应。
关键创新:该论文的关键创新在于提出了一个基于招募学习的局部化LLM框架,该框架能够动态地调整模型内部表示的局部化程度,从而在可解释性和性能之间进行灵活的权衡。此外,该框架还引入了信息论招募机制和分层招募框架,进一步提高了模型的自适应性和可扩展性。
关键设计:在技术细节上,该框架使用了注意力机制上的组稀疏惩罚来促进语义块的形成,并使用信息论锚点设计来提高语义块的质量。此外,该框架还引入了动态规则注入机制,允许在训练过程中动态地向模型注入规则。在招募标准方面,该框架采用了基于显式单元的惩罚似然方法。
📊 实验亮点
论文通过数学分析证明了注意力机制能够集中在语义相关的块上,并给出了注意力熵和指针保真度的精确界限。实验结果表明,该框架能够在可解释性和性能之间取得良好的平衡,并在多个任务上取得了具有竞争力的结果。具体的性能数据和对比基线未知。
🎯 应用场景
该研究成果可应用于对透明度和可解释性有较高要求的领域,如金融风控、医疗诊断、法律咨询等。通过动态调整模型的局部性,可以在保证模型性能的同时,提高模型的可解释性,从而更好地满足这些领域的需求。此外,该框架还可以用于构建多领域、多粒度的知识图谱,为知识发现和推理提供支持。
📄 摘要(原文)
We present a novel framework for training large language models with continuously adjustable internal representations that span the full spectrum from localist (interpretable, rule-based) to distributed (generalizable, efficient) encodings. The key innovations are (1) a locality dial, a tunable parameter that dynamically controls the degree of localization during both training and inference without requiring model retraining, (2) an information-theoretic recruitment mechanism that adaptively allocates semantic blocks as needed, eliminating the requirement for complete domain knowledge at initialization, and (3) a hierarchical recruitment framework that extends capacity allocation to entire specialized LLMs, enabling multi-granularity architectural adaptation. This is achieved through group sparsity penalties on attention mechanisms, information-theoretic anchor design, dynamic rule injection, and principled recruitment criteria based on penalized likelihood with explicit units. We provide rigorous mathematical results establishing explicit threshold conditions under which attention provably concentrates on semantically relevant blocks at stationary points, with exact bounds on attention entropy and pointer fidelity. The hierarchical recruitment mechanism provides convergence guarantees at both the block level (fine-grained, within-LLM) and the LLM level (coarse-grained, cross-domain), ensuring the system discovers semantic partitions that balance model complexity against data encoding efficiency. This framework enables practitioners to continuously interpolate between interpretable and high-performance modes while adapting architectural capacity at multiple granularities, supporting applications in regulated domains requiring both transparency and capability.