Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language
作者: Angie Boggust, Donghao Ren, Yannick Assogba, Dominik Moritz, Arvind Satyanarayan, Fred Hohman
分类: cs.CL
发布日期: 2025-10-07
💡 一句话要点
提出语义正则表达式以解决LLM特征自动解释问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 自动化可解释性 语义正则表达式 特征描述 机器学习
📋 核心要点
- 现有方法在将大型语言模型特征转化为人类可理解的描述时,常常存在模糊和不一致的问题,且需要人工干预。
- 本文提出的语义正则表达式通过结构化语言描述LLM特征,结合语言和语义模式的原语及修饰符,实现了更精确的特征描述。
- 实验结果表明,语义正则表达式在准确性上与自然语言相当,但提供了更简洁和一致的描述,且支持新的分析方式。
📝 摘要(中文)
自动化可解释性旨在将大型语言模型(LLM)特征转化为人类可理解的描述。然而,这些自然语言特征描述往往模糊、不一致,并且需要手动重新标记。为此,本文提出了语义正则表达式,这是一种结构化的LLM特征描述语言。通过结合捕捉语言和语义特征模式的原语与用于上下文化、组合和量化的修饰符,语义正则表达式能够生成精确且富有表现力的特征描述。通过定量基准和定性分析,我们发现语义正则表达式在准确性上与自然语言相匹配,同时提供了更简洁和一致的特征描述。此外,其固有结构支持新的分析类型,包括量化特征复杂性,扩展自动化可解释性从单个特征的洞察到模型级别的模式。最后,在用户研究中,我们发现语义正则表达式描述帮助人们建立准确的LLM特征激活的心理模型。
🔬 方法详解
问题定义:本文旨在解决现有大型语言模型特征描述模糊、不一致且需人工标记的问题。现有方法缺乏结构性,导致特征解释的准确性和一致性不足。
核心思路:论文提出语义正则表达式,通过结构化的语言描述LLM特征,结合原语和修饰符,能够生成更精确且富有表现力的特征描述。这种设计旨在提高特征描述的可读性和一致性。
技术框架:整体架构包括特征提取、语义正则表达式生成和特征描述分析三个主要模块。特征提取模块从LLM中提取特征,生成模块将特征转化为语义正则表达式,分析模块则对生成的描述进行定量和定性评估。
关键创新:最重要的技术创新在于引入了语义正则表达式这一结构化语言,能够在保持准确性的同时,提供更简洁和一致的特征描述。这与现有的自然语言描述方法本质上不同,后者往往缺乏结构性。
关键设计:在参数设置上,语义正则表达式的生成依赖于特征模式的识别和上下文的修饰,损失函数设计为优化描述的准确性和一致性,网络结构则采用了多层次的特征提取机制,以捕捉不同层次的语义信息。
🖼️ 关键图片
📊 实验亮点
实验结果显示,语义正则表达式在特征描述的准确性上与自然语言相当,同时在简洁性和一致性方面显著提升。具体而言,语义正则表达式的描述比传统自然语言描述更为简洁,且在用户研究中帮助参与者更准确地理解LLM特征激活。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、机器学习模型的可解释性以及人机交互等。通过提供更清晰的特征描述,研究可以帮助开发者更好地理解和优化模型,提升用户对模型行为的信任度。未来,语义正则表达式有望在自动化特征分析和模型调试中发挥重要作用。
📄 摘要(原文)
Automated interpretability aims to translate large language model (LLM) features into human understandable descriptions. However, these natural language feature descriptions are often vague, inconsistent, and require manual relabeling. In response, we introduce semantic regexes, structured language descriptions of LLM features. By combining primitives that capture linguistic and semantic feature patterns with modifiers for contextualization, composition, and quantification, semantic regexes produce precise and expressive feature descriptions. Across quantitative benchmarks and qualitative analyses, we find that semantic regexes match the accuracy of natural language while yielding more concise and consistent feature descriptions. Moreover, their inherent structure affords new types of analyses, including quantifying feature complexity across layers, scaling automated interpretability from insights into individual features to model-wide patterns. Finally, in user studies, we find that semantic regex descriptions help people build accurate mental models of LLM feature activations.