Dynamical similarity analysis can identify compositional dynamics developing in RNNs

📄 arXiv: 2410.24070v4 📥 PDF

作者: Quentin Guilhot, Michał Wójcik, Jascha Achterberg, Rui Ponte Costa

分类: cs.LG, cs.AI, cs.NE, q-bio.NC

发布日期: 2024-10-31 (更新: 2024-12-21)

备注: 19 pages, 11 figures


💡 一句话要点

提出动态相似性分析(DSA),用于识别RNN中组合动态的学习过程,优于现有方法。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 循环神经网络 表征对齐 动态相似性分析 组合学习 可解释性 噪声鲁棒性 Mamba模型

📋 核心要点

  1. 现有表征对齐指标易受噪声影响,可能产生误导性结果,缺乏可靠的基准测试用例。
  2. 提出动态相似性分析(DSA),利用RNN的组合学习特性构建测试用例,评估和改进表征对齐指标。
  3. 实验表明,DSA比Procrustes和CKA等方法更具噪声鲁棒性,能更可靠地识别行为相关的表征,并可用于研究新型架构。

📝 摘要(中文)

分析神经系统中表征的方法已成为神经科学和机制可解释性领域的热门工具。衡量神经元激活在不同条件、架构和物种之间的相似性,为我们提供了一种可扩展的方式来了解信息如何在不同的神经网络中转换。然而,最近的研究表明,某些指标可能会对虚假信号做出反应,从而产生误导性结果。为了确定最可靠的指标并了解如何改进这些指标,识别可作为基准的特定测试用例至关重要。本文提出,循环神经网络(RNN)中的组合学习现象可以构建动态表征对齐指标的测试用例。通过实现这个案例,我们展示了它可以测试指标是否可以识别在整个学习过程中逐渐发展的表征,并探究指标识别的表征是否与网络执行的计算相关。通过构建基于吸引子和基于RNN的测试用例,我们表明新的动态相似性分析(DSA)比先前的指标(Procrustes、CKA)更具噪声鲁棒性,并且可以更可靠地识别与行为相关的表征。我们还展示了如何将测试用例用于评估指标之外,以研究新的架构。具体而言,将DSA应用于现代(Mamba)状态空间模型的结果表明,与RNN相比,这些模型可能不会因其表达能力而改变其循环动态。总而言之,通过开发测试用例,我们展示了DSA检测组合动态模式的卓越能力,从而增强了我们对计算如何在RNN中展开的理解。

🔬 方法详解

问题定义:现有表征对齐方法在分析神经网络表征时,容易受到噪声和虚假信号的影响,导致结果不可靠。缺乏一个能够有效评估这些方法,并能区分真实表征和噪声的基准测试用例。尤其是在循环神经网络(RNN)中,如何准确捕捉和理解其动态变化的表征是一个挑战。

核心思路:利用RNN的组合学习特性,构建一个可控的测试用例。组合学习是指RNN能够将简单的组件组合成更复杂的行为。通过观察RNN在学习过程中如何逐步构建这些组合行为,可以创建一个基准,用于评估表征对齐方法是否能够准确捕捉到这些动态变化的表征。DSA的核心在于比较不同时间点RNN内部状态的相似性,从而识别出与特定行为相关的动态模式。

技术框架:DSA方法主要包含以下几个步骤:1) 构建基于RNN或吸引子的测试用例,模拟组合学习过程。2) 使用不同的表征对齐指标(如Procrustes、CKA和DSA)分析RNN在学习过程中产生的内部状态。3) 比较不同指标的噪声鲁棒性和识别行为相关表征的能力。4) 将DSA应用于新型架构(如Mamba),研究其动态特性。

关键创新:DSA的关键创新在于其利用RNN的组合学习特性构建测试用例,从而能够更有效地评估表征对齐方法。与传统的静态表征对齐方法不同,DSA关注的是表征的动态变化,能够捕捉到RNN在学习过程中逐步构建复杂行为的过程。此外,DSA还具有更强的噪声鲁棒性,能够更可靠地识别与行为相关的表征。

关键设计:DSA的关键设计包括:1) 使用动态时间规整(DTW)来对齐不同时间序列的RNN状态。2) 定义一个相似性度量,用于衡量不同时间点RNN状态之间的相似程度。3) 设计一个噪声注入机制,用于评估不同表征对齐方法的噪声鲁棒性。4) 使用行为相关性分析,评估不同表征对齐方法识别行为相关表征的能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DSA在噪声环境下比Procrustes和CKA等现有方法表现更好,能够更准确地识别与行为相关的表征。在基于RNN和基于吸引子的测试用例中,DSA都展现出了更强的噪声鲁棒性。此外,将DSA应用于Mamba模型的结果表明,与RNN相比,Mamba可能不表现出明显的循环动态变化,这为理解新型架构的特性提供了新的视角。

🎯 应用场景

该研究成果可应用于神经科学、机器学习可解释性等领域。通过DSA,研究人员可以更深入地理解神经网络内部的计算过程,识别关键的动态模式,并设计更高效、更鲁棒的神经网络架构。此外,该方法还可以用于比较不同神经网络架构的动态特性,例如RNN和Mamba等。

📄 摘要(原文)

Methods for analyzing representations in neural systems have become a popular tool in both neuroscience and mechanistic interpretability. Having measures to compare how similar activations of neurons are across conditions, architectures, and species, gives us a scalable way of learning how information is transformed within different neural networks. In contrast to this trend, recent investigations have revealed how some metrics can respond to spurious signals and hence give misleading results. To identify the most reliable metric and understand how measures could be improved, it is going to be important to identify specific test cases which can serve as benchmarks. Here we propose that the phenomena of compositional learning in recurrent neural networks (RNNs) allows us to build a test case for dynamical representation alignment metrics. By implementing this case, we show it enables us to test whether metrics can identify representations which gradually develop throughout learning and probe whether representations identified by metrics are relevant to computations executed by networks. By building both an attractor- and RNN-based test case, we show that the new Dynamical Similarity Analysis (DSA) is more noise robust and identifies behaviorally relevant representations more reliably than prior metrics (Procrustes, CKA). We also show how test cases can be used beyond evaluating metrics to study new architectures. Specifically, results from applying DSA to modern (Mamba) state space models, suggest that, in contrast to RNNs, these models may not exhibit changes to their recurrent dynamics due to their expressiveness. Overall, by developing test cases, we show DSA's exceptional ability to detect compositional dynamical motifs, thereby enhancing our understanding of how computations unfold in RNNs.