Manifold Steering Reveals the Shared Geometry of Neural Network Representation and Behavior

📄 arXiv: 2605.05115v1 📥 PDF

作者: Daniel Wurgaft, Can Rager, Matthew Kowal, Vasudev Shyam, Sheridan Feucht, Usha Bhalla, Tal Haklay, Eric Bigelow, Raphael Sarfati, Thomas McGrath, Owen Lewis, Jack Merullo, Noah Goodman, Thomas Fel, Atticus Geiger, Ekdeep Singh Lubana

分类: cs.LG

发布日期: 2026-05-06


💡 一句话要点

提出流形引导以揭示神经网络表示与行为的共享几何结构

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 神经网络 几何结构 流形引导 行为预测 激活空间 干预策略 自然语言处理 计算机视觉

📋 核心要点

  1. 核心问题:现有方法未能有效揭示神经网络表示的几何结构与行为之间的因果关系。
  2. 方法要点:论文提出通过流形引导干预激活空间,以探索其对行为的影响,强调几何结构的重要性。
  3. 实验或效果:研究表明流形引导能产生自然行为轨迹,优化干预路径可恢复激活轨迹的几何特征。

📝 摘要(中文)

神经表示携带丰富的几何结构,但这种结构是否会因果性地影响行为?为了解决这一问题,研究者通过不同几何定义的激活空间路径进行干预,并测量其诱导的行为轨迹。具体而言,首先拟合激活流形$M_h$与行为流形$M_y$,然后通过干预测试$M_h ightarrow M_y$的联系。研究发现,沿$M_h$进行的流形引导能够产生接近自然行为的轨迹,而线性引导则会导致不自然的输出。此外,优化激活空间中的干预以产生沿$M_y$的路径,能够恢复跟踪$M_h$曲率的激活轨迹。整体而言,研究表明神经表示中的几何结构不仅是偶然的,而是实现内部干预控制的关键对象。

🔬 方法详解

问题定义:本论文旨在解决神经网络表示的几何结构与其行为之间的因果关系问题。现有方法往往忽视了这一几何结构的影响,导致行为预测不准确。

核心思路:论文提出通过流形引导(manifold steering)来干预激活空间,探索其对行为的影响。通过这种方式,研究者能够更好地理解和控制神经网络的行为,强调几何结构在这一过程中的重要性。

技术框架:整体流程包括两个主要阶段:首先,拟合激活流形$M_h$和行为流形$M_y$;其次,通过干预测试这两个流形之间的关系。研究者通过优化干预路径,确保干预遵循激活流形的几何特征。

关键创新:最重要的技术创新在于提出了流形引导这一概念,强调了几何结构在神经网络行为控制中的核心作用。这一方法与传统的线性引导方法形成鲜明对比,后者往往导致不自然的输出。

关键设计:在实验中,研究者设计了多种干预策略,确保干预路径能够沿着激活流形的几何特征进行。此外,采用了特定的损失函数来优化干预效果,确保生成的行为轨迹与自然行为相符。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,流形引导的干预能够有效产生接近自然行为的轨迹,相较于传统线性引导方法,行为的自然性显著提升。具体而言,优化后的干预路径能够恢复激活轨迹的几何特征,展示了流形引导在多种任务和模态下的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、计算机视觉和机器人控制等。通过更好地理解神经网络的几何结构,研究者能够在这些领域实现更精确的行为控制和预测,从而提升模型的实用性和可靠性。未来,该方法可能会推动更复杂的智能系统的发展,提升其在动态环境中的适应能力。

📄 摘要(原文)

Neural representations carry rich geometric structure; but does that structure causally shape behavior? To address this question, we intervene along paths through activation space defined by different geometries, and measure the behavioral trajectories they induce. In particular, we test whether interventions that respect the geometry of activation space will yield behaviors close to those the model exhibits naturally. Concretely, we first fit an activation manifold $M_h$ to representations and a behavior manifold $M_y$ to output probability distributions. We then test the link $M_h \leftrightarrow M_y$ via interventions: we find that steering along $M_h$, which we term manifold steering, yields behavioral trajectories that follow $M_y$, while linear steering -- which assumes a Euclidean geometry -- cuts through off-manifold regions and hence produces unnatural outputs. Moreover, optimizing interventions in activation space to produce paths along $M_y$ recovers activation trajectories that trace the curvature of $M_h$. We demonstrate this bidirectional relationship between the geometry of representation and behavior across tasks and modalities. In language models, we use reasoning tasks with cyclic and sequential geometries as well as in-context learning tasks with more complex graph geometries. In a video world model, we use a task with geometry corresponding to physical dynamics. Overall, our work shows that geometry in neural representation is not merely incidental, but is in fact the proper object for enabling principled control via intervention on internals. This recasts the core problem of steering from finding the right direction to finding the right geometry.