LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

📄 arXiv: 2604.15589v1 📥 PDF

作者: Jack Wei Lun Shi, Minghao Dang, Wawan Solihin, Justin K. W. Yeoh

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-16

备注: 8 pages, 9 figures. Accepted at ICCCBE 2026 (International Conference on Computing in Civil and Building Engineering)


💡 一句话要点

通过归因分析揭示不同微调策略和模型规模对LLM代码合规性的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 代码合规性 归因分析 微调策略 模型可解释性

📋 核心要点

  1. 现有LLM代码合规性研究主要关注性能,忽略了训练决策对模型解释行为的影响。
  2. 论文采用基于扰动的归因分析,比较不同微调策略和模型规模对LLM解释行为的影响。
  3. 研究发现FFT产生更集中的归因模式,且模型规模增加会影响LLM的解释策略。

📝 摘要(中文)

本文旨在研究大型语言模型(LLM)在自动化代码合规性方面的解释行为,弥补现有研究主要关注性能而忽略训练决策影响的不足。通过基于扰动的归因分析,比较了不同微调策略(如全微调FFT、低秩适应LoRA和量化LoRA微调)以及不同模型规模(LLM参数大小)对模型解释行为的影响。结果表明,FFT产生的归因模式在统计上与参数高效微调方法不同,且更集中。此外,随着模型规模的增加,LLM发展出特定的解释策略,例如在构建文本中优先考虑数值约束和规则标识符,但生成规则的语义相似性在模型大于7B时趋于平稳。本研究为这些模型的可解释性提供了关键见解,朝着为建筑、工程和建造行业中基于法规的关键任务构建更透明的LLM迈出了一步。

🔬 方法详解

问题定义:论文旨在解决LLM在自动化代码合规性任务中,其内部决策过程不透明的问题。现有方法主要关注模型性能,缺乏对模型如何理解和应用规则的深入分析,导致难以信任和优化模型在关键任务中的表现。现有方法无法解释不同训练策略和模型规模如何影响LLM的解释行为。

核心思路:论文的核心思路是通过归因分析技术,量化LLM在生成代码合规性规则时,对输入文本中不同部分的依赖程度。通过比较不同微调策略和模型规模下LLM的归因模式,揭示训练决策如何影响模型的解释行为。这种方法能够帮助理解LLM的内部决策过程,并为优化模型提供指导。

技术框架:论文采用基于扰动的归因分析方法。首先,对输入文本进行扰动(例如,masking),然后观察LLM生成规则的变化。通过分析不同扰动对生成结果的影响,计算每个输入token的归因得分。然后,比较不同微调策略(FFT, LoRA, Quantized LoRA)和不同模型规模下LLM的归因模式。最后,使用统计方法分析归因模式的差异。

关键创新:论文的关键创新在于将归因分析技术应用于LLM的代码合规性任务,并系统地研究了不同微调策略和模型规模对模型解释行为的影响。与现有研究相比,该论文不仅关注模型性能,更深入地探讨了模型的内部决策过程,为构建更透明和可信赖的LLM提供了新的视角。

关键设计:论文的关键设计包括:1) 使用基于扰动的归因分析方法,量化输入token对生成结果的影响;2) 比较不同微调策略(FFT, LoRA, Quantized LoRA)的归因模式;3) 研究不同模型规模(不同参数量的LLM)对归因模式的影响;4) 使用统计方法(例如,t-test)分析归因模式的差异。

📊 实验亮点

实验结果表明,全微调(FFT)产生的归因模式在统计上与参数高效微调方法(LoRA, Quantized LoRA)不同,且更集中。随着模型规模的增加,LLM倾向于优先考虑数值约束和规则标识符。然而,生成规则的语义相似性在模型大于7B时趋于平稳,表明模型规模的增加并不总是带来性能的线性提升。

🎯 应用场景

该研究成果可应用于建筑、工程和建造(AEC)行业,帮助开发更可靠和透明的自动化代码合规性工具。通过理解LLM的解释行为,可以优化模型训练策略,提高模型在关键任务中的性能和可信度。此外,该研究方法也可推广到其他基于LLM的规则推理任务中,例如法律文本分析和金融风险评估。

📄 摘要(原文)

Existing research on large language models (LLMs) for automated code compliance has primarily focused on performance, treating the models as black boxes and overlooking how training decisions affect their interpretive behavior. This paper addresses this gap by employing a perturbation-based attribution analysis to compare the interpretive behaviors of LLMs across different fine-tuning strategies such as full fine-tuning (FFT), low-rank adaptation (LoRA) and quantized LoRA fine-tuning, as well as the impact of model scales which include varying LLM parameter sizes. Our results show that FFT produces attribution patterns that are statistically different and more focused than those from parameter-efficient fine-tuning methods. Furthermore, we found that as model scale increases, LLMs develop specific interpretive strategies such as prioritizing numerical constraints and rule identifiers in the building text, albeit with performance gains in semantic similarity of the generated and reference computer-processable rules plateauing for models larger than 7B. This paper provides crucial insights into the explainability of these models, taking a step toward building more transparent LLMs for critical, regulation-based tasks in the Architecture, Engineering, and Construction industry.