Mechanistic Behavior Editing of Language Models

作者: Joykirat Singh, Subhabrata Dutta, Tanmoy Chakraborty

分类: cs.CL, cs.AI

发布日期: 2024-10-05

🔗 代码/项目: GITHUB

💡 一句话要点

提出TaRot方法，通过可学习旋转矩阵干预LLM神经回路，提升小样本学习性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型编辑 神经回路干预 任务适应 少样本学习 贝叶斯优化

📋 核心要点

大型语言模型易受噪声数据影响，泛化能力受限，而微调又存在数据效率问题。
TaRot方法通过可学习的旋转矩阵干预LLM的神经回路，实现任务适应。
实验表明，TaRot在分类和生成任务上，显著提升了零样本和少样本学习性能。

📝 摘要（中文）

大型语言模型（LLM）在网络规模文本上训练后，获得了强大的语言生成能力，能够解决各种任务，尤其是在任务知识通过上下文示例融入生成先验时。然而，从噪声数据中学习到的虚假特征会阻碍其泛化能力。监督微调虽然可以引入任务特定性，但数据效率较低。先前的研究表明，（i）LLM中噪声神经回路与可泛化的神经回路共存，并且（ii）微调通常增强（或抑制）现有能力，而不会引入新的能力。基于这些，我们提出TaRot，一种新颖的任务适应方法。TaRot使用可学习的旋转矩阵干预神经回路，这些旋转矩阵使用贝叶斯优化在标记样本上进行优化，样本数量与标准少样本提示示例相当。在不同大小的LLM上进行的多个分类和生成任务的实验表明了TaRot的有效性，改进了零样本和少样本性能，平均改进（跨模型和任务）分别为23.81%和11.15%。源代码可在https://github.com/joykirat18/TaRot获得。

🔬 方法详解

问题定义：大型语言模型虽然强大，但容易受到训练数据中噪声的影响，导致学到虚假的特征，从而影响其泛化能力。传统的微调方法虽然可以针对特定任务进行优化，但需要大量的标注数据，数据效率较低。因此，如何在少量样本的情况下，有效地调整LLM，使其更好地适应特定任务，是一个重要的挑战。

核心思路：TaRot的核心思路是，通过干预LLM的内部神经回路，选择性地增强或抑制某些神经元的活动，从而实现任务适应。作者认为，LLM中存在着噪声神经回路和可泛化的神经回路，而微调本质上是在增强或抑制已有的能力。因此，可以通过一种更精细的方式，直接作用于神经回路，来达到更好的效果。

技术框架：TaRot方法主要包含以下几个步骤：1）选择LLM中的特定层或模块进行干预；2）在选定的层或模块中，引入可学习的旋转矩阵；3）使用贝叶斯优化算法，在少量标注数据上优化这些旋转矩阵；4）将优化后的旋转矩阵应用到LLM中，从而实现任务适应。整个过程无需修改LLM的原始参数，只需要学习少量的旋转矩阵参数。

关键创新：TaRot的关键创新在于，它提出了一种基于神经回路干预的任务适应方法。与传统的微调方法相比，TaRot不需要修改LLM的原始参数，只需要学习少量的旋转矩阵参数，因此数据效率更高。此外，TaRot通过贝叶斯优化算法，能够更有效地搜索最优的旋转矩阵，从而达到更好的性能。

关键设计：TaRot的关键设计包括：1）旋转矩阵的维度和位置的选择；2）贝叶斯优化算法的参数设置；3）损失函数的设计。作者通过实验发现，在LLM的中间层引入旋转矩阵，能够获得最好的效果。贝叶斯优化算法的参数设置，需要根据具体的任务和数据集进行调整。损失函数通常采用交叉熵损失函数，用于衡量LLM的预测结果与真实标签之间的差异。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TaRot方法在多个分类和生成任务上，显著提升了LLM的性能。与零样本学习相比，TaRot的平均提升幅度为23.81%；与少样本学习相比，TaRot的平均提升幅度为11.15%。这些结果表明，TaRot是一种有效的LLM任务适应方法，能够充分利用少量标注数据，提升LLM的泛化能力。

🎯 应用场景

TaRot方法具有广泛的应用前景，可以应用于各种自然语言处理任务，如文本分类、文本生成、机器翻译等。尤其是在数据稀缺的场景下，TaRot能够以较低的成本，快速地将LLM适应到特定任务上。未来，该方法有望成为一种通用的LLM任务适应工具，推动LLM在更多领域的应用。

📄 摘要（原文）

Large Language Models trained on web-scale text acquire language generation abilities that can solve a wide range of tasks, particularly when task knowledge is refined into the generative prior using in-context examples. However, spurious features learned from noisy data hinder their generalizability. Supervised finetuning can introduce task specificity, but introduce data inefficiency. Prior studies indicate that (i) noisy neural circuitries coexist with generalizable ones within LLMs, and (ii) finetuning typically enhances (or suppresses) existing abilities without introducing newer ones. Building upon these, we propose TaRot, a novel method for task adaptation. TaRot intervenes in the neural circuitries using learnable rotation matrices that are optimized using Bayesian Optimization, on labelled samples in the order of standard few-shot prompting examples. Experiments on multiple classification and generation tasks using LLMs of varying sizes reveal the efficacy of TaRot, improving upon both zero- as well as few-shot performance, with average improvements (across models and tasks) of 23.81% and 11.15%, respectively. The source code is available at https://github.com/joykirat18/TaRot

Mechanistic Behavior Editing of Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理