Borrowed Geometry: Computational Reuse of Frozen Text-Pretrained Transformer Weights Across Modalities

📄 arXiv: 2605.00333v1 📥 PDF

作者: Abay Bektursun

分类: cs.LG, cs.CL

发布日期: 2026-05-01

备注: 29 pages, 11 figures. Independent research


💡 一句话要点

提出冻结文本预训练变换器权重的跨模态重用方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多模态学习 知识转移 预训练模型 机器人操作 文本处理 性能提升 可训练接口

📋 核心要点

  1. 现有的多模态学习方法在跨模态知识转移时面临效率低下和性能不足的挑战。
  2. 论文提出了一种通过冻结的文本预训练权重和可训练接口实现跨模态知识转移的新方法。
  3. 实验结果表明,该方法在多个基准任务中显著提升了性能,尤其是在机器人操作任务中取得了新的SOTA成绩。

📝 摘要(中文)

本文提出了一种通过可训练接口在模态边界间转移冻结的Gemma 4 31B文本预训练权重的方法。实验结果显示,该方法在多个任务中超越了现有的基准,尤其是在机器人操作任务中实现了显著的性能提升。此外,研究还探讨了不同头部在文本激活探测中的独立可识别性,展示了模型在跨模态应用中的潜力。

🔬 方法详解

问题定义:本文旨在解决现有多模态学习方法在知识转移过程中的效率低下和性能不足的问题,尤其是在机器人操作等实际应用中。

核心思路:通过冻结的Gemma 4 31B文本预训练权重与一个薄的可训练接口相结合,实现在不同模态间的知识转移,避免了从头训练的高昂成本。

技术框架:整体架构包括冻结的文本预训练模型和一个小型可训练线性接口。模型在多个任务上进行评估,包括OGBench和D4RL等基准,验证其跨模态性能。

关键创新:最重要的创新在于利用冻结的文本预训练权重进行跨模态知识转移,显著提高了模型在新任务上的表现,且与传统方法相比,减少了训练参数的数量。

关键设计:关键设计包括使用113K参数的线性接口,结合冻结的Gemma 4权重进行任务特定的微调,确保在不同任务中保持高效的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,在OGBench场景操作任务中,该方法相较于现有基准提升了4.33分,且在D4RL Walker2d任务中以0.43倍的训练参数达到了与决策变换器相当的性能,展现了显著的效率优势。

🎯 应用场景

该研究的潜在应用领域包括机器人操作、自然语言处理和多模态学习等。通过有效的知识转移,该方法能够在资源有限的情况下提升模型在新任务上的表现,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Frozen Gemma 4 31B weights pretrained exclusively on text tokens, unmodified, transfer across modality boundaries through a thin trainable interface. (1) OGBench scene-play-singletask-task1-v0: $+4.33$pt over published GCIQL at $n=3$ with std 0.74 -- a published-SOTA win on a robotic manipulation task the substrate has never seen. (2) D4RL Walker2d-medium-v2: Decision-Transformer parity ($76.2 \pm 0.8$, $n=3$) at $0.43\times$ DT's trainable count, with the frozen substrate compressing to a 5L slice ($+1.66$pt over the 6L baseline at $n=3$). (3) Associative recall as the cleanest pretraining-load-bearing case: the frozen slice + a 113K-parameter linear interface reaches L30 best-checkpoint per-bit error 0.0505 ($n=2$); a 6.36M-parameter from-scratch trained transformer at matched capacity ($1/\sqrt{d_k}$ scaling, two seeds, LR sweep) cannot solve the task at all under the protocol (best L30 = 0.4395), an $8.7\times$ advantage. Architecture-alone falsifications: a frozen random transformer with correct $1/\sqrt{d_k}$ scaling stays at random-chance loss for 50k steps; a random-init Gemma slice fails OGBench cube-double-play-task1 entirely (0.89% across $n=3$ where pretrained reaches 60%). A dual-measurement protocol -- text-activation probing on 95 English sentences plus task-ablation on a non-language target -- names individual heads independently identifiable on both protocols: head L26.28 scores $3.7\times$ the slice mean for English token-copying and is the #2 most-critical head for binary copy ablation ($Δ$ L30 $= +0.221$); three further heads (L27.28, L27.2, L27.3) classify by the same protocol. The mechanism is single-model and the cross-modality results are single-task within their respective benchmarks; cross-model replication is structurally constrained because Gemma 4 31B is the only model on the small-scale Pareto frontier as of April 2026.