Text Slider: Efficient and Plug-and-Play Continuous Concept Control for Image/Video Synthesis via LoRA Adapters

📄 arXiv: 2509.18831v1 📥 PDF

作者: Pin-Yen Chiu, I-Sheng Fang, Jun-Cheng Chen

分类: cs.GR, cs.AI, cs.CV, cs.LG, cs.MM

发布日期: 2025-09-23


💡 一句话要点

Text Slider:一种高效即插即用的LoRA适配器,用于图像/视频合成中的连续概念控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 扩散模型 文本图像合成 视频合成 概念控制 LoRA适配器

📋 核心要点

  1. 现有概念控制方法训练成本高昂,且需针对不同扩散模型重新训练,限制了其应用。
  2. Text Slider通过识别预训练文本编码器中的低秩方向,实现视觉概念的连续控制。
  3. 实验表明,Text Slider在显著降低训练成本的同时,实现了高效的图像和视频属性控制。

📝 摘要(中文)

扩散模型在图像和视频合成方面取得了显著进展。为了实现对自由文本提示的细粒度、连续和灵活的控制,研究者们提出了多种概念控制方法。然而,这些方法不仅需要大量的训练时间和GPU内存来学习滑块或嵌入,还需要针对不同的扩散模型骨干网络进行重新训练,限制了它们的可扩展性和适应性。为了解决这些限制,我们引入了Text Slider,这是一个轻量级、高效且即插即用的框架,它识别预训练文本编码器中的低秩方向,从而实现对视觉概念的连续控制,同时显著减少训练时间、GPU内存消耗和可训练参数的数量。此外,Text Slider支持多概念组合和连续控制,从而在图像和视频合成中实现细粒度和灵活的操作。实验表明,Text Slider能够在保持输入原始空间布局和结构的同时,对特定属性进行平滑和连续的调制。Text Slider实现了显著更高的效率:训练速度比Concept Slider快5倍,比Attribute Control快47倍,同时分别减少了近2倍和4倍的GPU内存使用量。

🔬 方法详解

问题定义:现有概念控制方法,如Concept Slider和Attribute Control,在图像和视频合成中实现对文本提示的细粒度控制时,面临训练时间长、GPU内存消耗大以及需要针对不同扩散模型骨干网络进行重新训练的问题。这些痛点限制了它们的可扩展性和适应性。

核心思路:Text Slider的核心思路是在预训练的文本编码器中寻找低秩方向,这些低秩方向对应于特定的视觉概念。通过在这些低秩方向上进行调整,可以实现对图像或视频中相应概念的连续控制,而无需从头开始训练或对整个模型进行微调。这种方法利用了预训练模型的知识,从而大大降低了训练成本。

技术框架:Text Slider框架主要包含以下几个步骤:1) 选择一个预训练的文本编码器(例如CLIP);2) 确定要控制的视觉概念;3) 通过少量数据训练LoRA适配器,以识别文本编码器中与这些概念相关的低秩方向;4) 在推理阶段,通过调整LoRA适配器的权重,实现对图像或视频中相应概念的连续控制。整个框架是即插即用的,可以轻松地集成到现有的扩散模型中。

关键创新:Text Slider的关键创新在于利用LoRA适配器在预训练文本编码器中寻找低秩方向,从而实现对视觉概念的连续控制。与现有方法相比,Text Slider无需从头开始训练或对整个模型进行微调,大大降低了训练成本和GPU内存消耗。此外,Text Slider是即插即用的,可以轻松地集成到现有的扩散模型中,具有良好的可扩展性和适应性。

关键设计:Text Slider的关键设计包括:1) 使用LoRA(Low-Rank Adaptation)来训练适配器,LoRA通过引入低秩矩阵来近似权重更新,从而减少了可训练参数的数量;2) 使用少量数据进行训练,以快速识别文本编码器中的低秩方向;3) 设计损失函数,以确保在调整概念的同时,保持图像或视频的原始空间布局和结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Text Slider在效率方面表现出色,训练速度比Concept Slider快5倍,比Attribute Control快47倍,同时分别减少了近2倍和4倍的GPU内存使用量。实验结果表明,Text Slider能够在保持图像或视频原始空间布局和结构的同时,对特定属性进行平滑和连续的调制,实现了高质量的图像和视频合成效果。

🎯 应用场景

Text Slider可广泛应用于图像和视频编辑、内容创作、风格迁移等领域。例如,用户可以通过简单的文本滑块,轻松调整图像中物体的颜色、大小、形状等属性,或者改变视频的整体风格。该技术具有巨大的商业价值和潜在的社会影响,可以为创意产业带来新的可能性。

📄 摘要(原文)

Recent advances in diffusion models have significantly improved image and video synthesis. In addition, several concept control methods have been proposed to enable fine-grained, continuous, and flexible control over free-form text prompts. However, these methods not only require intensive training time and GPU memory usage to learn the sliders or embeddings but also need to be retrained for different diffusion backbones, limiting their scalability and adaptability. To address these limitations, we introduce Text Slider, a lightweight, efficient and plug-and-play framework that identifies low-rank directions within a pre-trained text encoder, enabling continuous control of visual concepts while significantly reducing training time, GPU memory consumption, and the number of trainable parameters. Furthermore, Text Slider supports multi-concept composition and continuous control, enabling fine-grained and flexible manipulation in both image and video synthesis. We show that Text Slider enables smooth and continuous modulation of specific attributes while preserving the original spatial layout and structure of the input. Text Slider achieves significantly better efficiency: 5$\times$ faster training than Concept Slider and 47$\times$ faster than Attribute Control, while reducing GPU memory usage by nearly 2$\times$ and 4$\times$, respectively.