MoRe: Modular Representations for Principled Continual Representation Learning on Squantial Data

作者: Jiaqi Sun, Boyang Sun, Mohamad Rasmy, Xiangchen Song, Kun Zhang

分类: cs.LG

发布日期: 2026-05-14

💡 一句话要点

MoRe：通过模块化表示实现序列数据上的持续表示学习

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 持续学习 表示学习 模块化网络 序列数据 知识表示

📋 核心要点

现有持续学习方法主要通过修改模型参数或架构来适应新任务，忽略了表示学习本身的问题。
MoRe框架通过识别表示中的模块性，将知识分解为基本模块和特定模块的层次结构，实现模块的重用、对齐和扩展。
实验表明，MoRe框架在合成数据和真实LLM激活上表现出可解释的层次结构，并改善了可塑性-稳定性之间的权衡。

📝 摘要（中文）

持续学习要求模型在适应新数据的同时，保留先前获得的知识。这一挑战的核心可以被视为有原则的单步适应：整合新信息，同时最大限度地减少对现有表示的干扰。现有方法大多通过以监督的、任务特定的方式修改模型参数或架构来解决这一挑战。然而，根本问题在于表示：任务需要独特且结构化的表示，这些表示可以被选择性地更新而不破坏其他表示，并且结构应该反映数据中的内在组织，而不是任务边界。在序列数据中，时间延迟依赖性为揭示这种组织提供了一个自然的信号，揭示了基本表示如何产生更具体的表示。受到人脑模块化组织的启发，我们提出了MoRe，一个框架，它识别表示本身的模块性，而不是在架构层面分配它。MoRe将知识分解为具有可识别性保证的基本模块和特定模块的层次结构，从而在适应过程中实现有原则的模块重用、对齐和扩展，同时通过构造保留旧模块。在合成基准和真实LLM激活上的实验证明了可解释的层次结构，改进了可塑性-稳定性权衡，表明MoRe是持续适应的有原则的基础。

🔬 方法详解

问题定义：持续学习的关键挑战在于如何在适应新数据的同时，避免遗忘先前学习的知识。现有方法通常针对特定任务修改模型参数或架构，缺乏对表示本身结构的考虑，导致知识表示的脆弱性和泛化能力不足。这些方法未能充分利用数据中的内在组织结构，特别是序列数据中的时间依赖关系。

核心思路：MoRe的核心思想是借鉴人脑的模块化组织方式，将知识表示分解为多个模块，形成层次结构。这种模块化表示允许模型在学习新知识时，只更新或扩展相关的模块，而保持其他模块不变，从而实现知识的有效积累和迁移。通过在表示层面引入模块化，MoRe能够更好地捕捉数据中的内在结构，并提高模型的可塑性和稳定性。

技术框架：MoRe框架包含以下主要模块：1) 模块分解：利用时间延迟依赖性等信号，将知识表示分解为基本模块和特定模块。2) 层次结构构建：将模块组织成层次结构，基本模块位于底层，特定模块位于顶层。3) 模块重用、对齐和扩展：在学习新任务时，重用已有的模块，对齐相似的模块，并扩展新的模块。4) 模块保护：通过构造方式，确保旧模块在学习新知识时不会被破坏。

关键创新：MoRe的关键创新在于它将模块化的思想引入到表示学习中，而不是仅仅在架构层面进行模块化。这种方法能够更好地捕捉数据中的内在结构，并实现知识的有效积累和迁移。与现有方法相比，MoRe能够更好地平衡可塑性和稳定性，并提高模型的泛化能力。此外，MoRe还提供了可解释的层次结构，有助于理解模型的学习过程。

关键设计：MoRe的关键设计包括：1) 使用时间延迟依赖性来指导模块分解。2) 设计损失函数，鼓励模块之间的解耦和层次结构的形成。3) 采用可识别性约束，确保模块的唯一性和可解释性。4) 使用特定的网络结构，例如自编码器或变分自编码器，来实现模块的表示和重构。

🖼️ 关键图片

📊 实验亮点

MoRe在合成基准和真实LLM激活上的实验结果表明，该框架能够学习到可解释的层次结构，并显著改善可塑性-稳定性之间的权衡。具体来说，MoRe在持续学习任务上的性能优于现有的基线方法，并且能够更好地保留先前学习的知识。实验还表明，MoRe学习到的模块具有良好的可重用性和可迁移性。

🎯 应用场景

MoRe框架具有广泛的应用前景，例如自然语言处理、计算机视觉和机器人等领域。它可以用于构建能够持续学习和适应新环境的智能系统。例如，在自然语言处理中，MoRe可以用于构建能够持续学习新词汇和语法规则的语言模型。在机器人领域，MoRe可以用于构建能够持续学习新技能和适应新环境的机器人。

📄 摘要（原文）

Continual learning requires models to adapt to new data while preserving previously acquired knowledge. At its core, this challenge can be viewed as principled one-step adaptation: incorporating new information with minimal interference to existing representations. Most existing approaches address this challenge by modifying model parameters or architectures in a supervised, task-specific manner. However, the underlying issue is representational: tasks require distinct yet structured representations that can be selectively updated without disrupting representations, while structure should reflect intrinsic organization in the data rather than task boundaries. In sequential data, time-delayed dependencies provide a natural signal for uncovering this organization, revealing how fundamental representations give rise to more specific ones. Inspired by the modular organization of the human brain, we propose MoRe, a framework that identifies modularity in the representation itself rather than allocating it at the architectural level. MoRe decomposes knowledge into a hierarchy of fundamental and specific modules with identifiability guarantees, enabling principled module reuse, alignment, and expansion during adaptation while preserving old modules by construction. Experiments on synthetic benchmarks and real-world LLM activations demonstrate interpretable hierarchical structure, improved plasticity-stability trade-offs, suggesting MoRe as a principled foundation for continual adaptation

MoRe: Modular Representations for Principled Continual Representation Learning on Squantial Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理