EyeLayer: Integrating Human Attention Patterns into LLM-Based Code Summarization

📄 arXiv: 2602.22368 📥 PDF

作者: Jiahao Zhang, Yifan Zhang, Kevin Leach, Yu Huang

分类: cs.SE, cs.AI

发布日期: 2026-02-28


💡 一句话要点

EyeLayer:将人类注意力模式融入LLM代码摘要生成,提升代码理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码摘要生成 大型语言模型 人类注意力 眼动追踪 注意力机制

📋 核心要点

  1. 现有代码摘要生成方法未能充分利用人类在代码理解方面的专业知识,限制了模型性能。
  2. EyeLayer通过建模人类眼动模式,学习注意力先验知识,并将其融入LLM,增强模型对代码语义的关注。
  3. 实验表明,EyeLayer在多种LLM上均能显著提升代码摘要生成效果,BLEU-4指标最高提升13.17%。

📝 摘要(中文)

代码摘要生成是生成源代码自然语言描述的任务,对于软件理解和维护至关重要。尽管大型语言模型(LLMs)在该任务上取得了显著进展,但一个悬而未决的问题仍然存在:代码理解方面的人类专业知识能否进一步指导和增强这些模型?我们提出了EyeLayer,这是一个轻量级的注意力增强模块,它将人类眼动模式(作为人类专业知识的代理)融入到基于LLM的代码摘要生成中。EyeLayer通过多模态高斯混合模型对代码阅读期间的人类注意力进行建模,基于学习到的参数(μ_i,σ_i^2)重新分配token嵌入,这些参数捕捉了开发者关注的位置和强度。这种设计能够从眼动追踪数据中学习可泛化的注意力先验,并将其无缝地融入到LLM中,而不会干扰现有的表示。我们在不同的模型系列(即LLaMA-3.2、Qwen3和CodeBERT)上评估了EyeLayer,涵盖了不同的规模和架构。EyeLayer在标准指标上始终优于强大的微调基线,在BLEU-4上实现了高达13.17%的增益。这些结果表明,人类眼动模式编码了互补的注意力信号,增强了LLM的语义焦点,并有效地转移到不同的代码摘要生成模型中。

🔬 方法详解

问题定义:代码摘要生成旨在为给定的源代码生成自然语言描述,帮助开发者理解代码功能。现有基于LLM的方法虽然取得了进展,但忽略了人类专家在代码阅读和理解过程中的注意力模式,导致生成的摘要可能不够准确或全面。因此,如何将人类的专业知识融入到LLM中,提升代码摘要生成的质量,是一个重要的研究问题。

核心思路:论文的核心思路是利用人类的眼动数据作为人类注意力模式的代理,通过学习眼动数据中的注意力先验知识,指导LLM更加关注代码中的关键语义信息。具体来说,论文提出了EyeLayer模块,该模块能够将眼动数据编码的注意力信息融入到LLM的token嵌入中,从而增强LLM对代码的理解能力。

技术框架:EyeLayer模块被设计为一个轻量级的注意力增强模块,可以无缝地集成到现有的LLM架构中。整体流程如下:1) 使用眼动追踪设备收集开发者阅读代码时的眼动数据;2) 使用多模态高斯混合模型对眼动数据进行建模,学习注意力先验知识(μ_i,σ_i^2);3) 将学习到的注意力先验知识融入到LLM的token嵌入中,增强LLM对代码的语义理解;4) 使用增强后的LLM进行代码摘要生成。

关键创新:论文的关键创新在于提出了EyeLayer模块,该模块能够有效地将人类的眼动模式融入到LLM中,从而提升代码摘要生成的质量。与现有方法相比,EyeLayer模块具有以下优势:1) 轻量级设计,易于集成到现有的LLM架构中;2) 能够从眼动数据中学习可泛化的注意力先验知识;3) 不会干扰LLM现有的表示。

关键设计:EyeLayer模块的关键设计包括:1) 使用多模态高斯混合模型对眼动数据进行建模,捕捉开发者关注的位置和强度;2) 基于学习到的参数(μ_i,σ_i^2)重新分配token嵌入,增强LLM对关键语义信息的关注;3) 设计了合适的损失函数,用于训练EyeLayer模块,使其能够有效地学习注意力先验知识。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EyeLayer在不同的LLM(LLaMA-3.2、Qwen3和CodeBERT)上均能显著提升代码摘要生成效果。在BLEU-4指标上,EyeLayer相比于强大的微调基线,最高取得了13.17%的增益。这些结果证明了人类眼动模式编码了互补的注意力信号,能够增强LLM的语义焦点,并有效地转移到不同的代码摘要生成模型中。

🎯 应用场景

该研究成果可应用于代码理解、软件维护、代码教育等领域。通过将人类的专业知识融入到LLM中,可以帮助开发者更高效地理解代码,降低软件维护成本,并为代码教育提供更有效的工具。未来,该方法还可以扩展到其他领域,例如文本摘要、机器翻译等,提升LLM在各种任务中的性能。

📄 摘要(原文)

Code summarization is the task of generating natural language descriptions of source code, which is critical for software comprehension and maintenance. While large language models (LLMs) have achieved remarkable progress on this task, an open question remains: can human expertise in code understanding further guide and enhance these models? We propose EyeLayer, a lightweight attention-augmentation module that incorporates human eye-gaze patterns, as a proxy of human expertise, into LLM-based code summarization. EyeLayer models human attention during code reading via a Multimodal Gaussian Mixture, redistributing token embeddings based on learned parameters (\mu_i, \sigma_i^2) that capture where and how intensively developers focus. This design enables learning generalizable attention priors from eye-tracking data and incorporating them into LLMs seamlessly, without disturbing existing representations. We evaluate EyeLayer across diverse model families (i.e., LLaMA-3.2, Qwen3, and CodeBERT) covering different scales and architectures. EyeLayer consistently outperforms strong fine-tuning baselines across standard metrics, achieving gains of up to 13.17% on BLEU-4. These results demonstrate that human gaze patterns encode complementary attention signals that enhance the semantic focus of LLMs and transfer effectively across diverse models for code summarization.