GeoLAN: Geometric Learning of Latent Explanatory Directions in Large Language Models
作者: Tianyu Bell Pan, Damon L. Woodard
分类: cs.LG, cs.CG
发布日期: 2026-03-19
💡 一句话要点
GeoLAN:通过几何学习提升大语言模型潜在解释方向
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 可解释性 几何学习 正则化 注意力机制
📋 核心要点
- 大语言模型缺乏透明度,难以理解其内部运作机制,阻碍了安全可靠的应用。
- GeoLAN框架将token表示视为几何轨迹,通过正则化器促进各向同性和多样化注意力,从而改善模型几何特性。
- 实验表明,GeoLAN在保持或提升任务准确率的同时,改进了几何指标,并减少了某些公平性偏差,尤其是在中等规模模型上。
📝 摘要(中文)
大型语言模型(LLMs)表现出色,但缺乏透明度。我们提出了GeoLAN,一个训练框架,它将token表示视为几何轨迹,并应用受Kakeya猜想相关最新进展启发的粘性条件。我们开发了两个可微正则化器,Katz-Tao Convex Wolff(KT-CW)和Katz-Tao Attention(KT-Attn),以促进各向同性并鼓励多样化的注意力。我们对Gemma-3(1B、4B、12B)和Llama-3-8B的实验表明,GeoLAN在保持任务准确性的同时,经常改善几何指标并减少某些公平性偏差。这些优势在中等规模模型中最为显著。我们的发现揭示了几何精度和性能之间依赖于规模的权衡,表明几何感知训练是增强机制可解释性的有前途的方法。
🔬 方法详解
问题定义:现有的大语言模型虽然性能强大,但其内部决策过程不透明,缺乏可解释性。这使得我们难以理解模型如何做出预测,也难以诊断和修复模型中的偏差或错误。现有的方法难以有效地提升模型的可解释性,同时保持其性能。
核心思路:GeoLAN的核心思路是将大语言模型中token的表示视为高维空间中的几何轨迹。通过对这些轨迹施加约束,使其更具有各向同性(isotropy)和多样性,从而提升模型的可解释性。这种几何视角借鉴了Kakeya猜想的相关理论,旨在揭示模型内部的潜在解释方向。
技术框架:GeoLAN是一个训练框架,它在标准的语言模型训练过程中引入了两个可微的正则化器:Katz-Tao Convex Wolff (KT-CW) 和 Katz-Tao Attention (KT-Attn)。KT-CW正则化器旨在促进token表示的各向同性,而KT-Attn正则化器则鼓励模型学习多样化的注意力模式。这两个正则化器共同作用,使得模型在训练过程中学习到更具有几何意义的表示。
关键创新:GeoLAN的关键创新在于其将几何概念引入到大语言模型的训练中,并设计了相应的正则化器来实现这一目标。与传统的正则化方法不同,GeoLAN关注的是token表示的几何特性,而不是仅仅关注其数值大小或稀疏性。这种几何视角的引入为提升大语言模型的可解释性提供了一种新的思路。
关键设计:KT-CW正则化器基于Katz-Tao Convex Wolff定理,通过最小化token表示的凸包体积来促进各向同性。KT-Attn正则化器则通过鼓励注意力权重的多样性来避免模型过度依赖某些特定的token。这两个正则化器都是可微的,可以方便地集成到现有的深度学习框架中。论文中还详细描述了正则化系数的选择以及训练过程中的其他超参数设置。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GeoLAN在Gemma-3 (1B, 4B, 12B) 和 Llama-3-8B模型上,能够在保持甚至提升任务准确率的同时,显著改善几何指标,并减少某些公平性偏差。尤其是在中等规模模型(如Gemma-3 4B)上,GeoLAN的优势最为明显。这些结果表明,几何感知训练是提升大语言模型可解释性的有效途径。
🎯 应用场景
GeoLAN的研究成果可以应用于提升大语言模型的可解释性,从而提高模型在安全敏感领域的应用,例如医疗诊断、金融风险评估等。通过理解模型的决策过程,可以更好地诊断和修复模型中的偏差,提高模型的公平性和可靠性。此外,GeoLAN还可以用于开发更高效的知识表示方法,从而提升模型的推理能力。
📄 摘要(原文)
Large language models (LLMs) demonstrate strong performance, but they often lack transparency. We introduce GeoLAN, a training framework that treats token representations as geometric trajectories and applies stickiness conditions inspired by recent developments related to the Kakeya Conjecture. We have developed two differentiable regularizers, Katz-Tao Convex Wolff (KT-CW) and Katz-Tao Attention (KT-Attn), that promote isotropy and encourage diverse attention. Our experiments with Gemma-3 (1B, 4B, 12B) and Llama-3-8B show that GeoLAN frequently maintains task accuracy while improving geometric metrics and reducing certain fairness biases. These benefits are most significant in mid-sized models. Our findings reveal scale-dependent trade-offs between geometric precision and performance, suggesting that geometry-aware training is a promising approach to enhance mechanistic interpretability.