Lumina-OmniLV: A Unified Multimodal Framework for General Low-Level Vision

📄 arXiv: 2504.04903v2 📥 PDF

作者: Yuandong Pu, Le Zhuo, Kaiwen Zhu, Liangbin Xie, Wenlong Zhang, Xiangyu Chen, Peng Gao, Yu Qiao, Chao Dong, Yihao Liu

分类: cs.CV, cs.AI

发布日期: 2025-04-07 (更新: 2025-04-08)


💡 一句话要点

Lumina-OmniLV:用于通用底层视觉的统一多模态框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 底层视觉 多模态学习 扩散模型 Transformer 图像恢复

📋 核心要点

  1. 现有底层视觉模型难以同时处理多种任务,泛化能力受限,且缺乏灵活的用户交互方式。
  2. OmniLV通过统一的多模态框架,结合文本和视觉提示,利用DiT的生成先验,实现多任务通用性和高分辨率处理。
  3. 实验证明,该框架在多种底层视觉任务上表现出色,但高层生成任务的集成可能会影响细节恢复。

📝 摘要(中文)

本文提出了Lumina-OmniLV (简称OmniLV),一个通用的多模态多任务框架,用于解决底层视觉中的100多个子任务,涵盖图像恢复、图像增强、弱语义密集预测和风格化四大类。OmniLV利用文本和视觉提示,提供灵活且用户友好的交互方式。该框架基于扩散Transformer (DiT) 的生成先验,支持任意分辨率,并在1K分辨率下实现最佳性能,同时保留精细的细节和高保真度。通过大量实验表明,分别编码文本和视觉指令,并结合浅层特征控制进行协同训练,对于缓解任务歧义和增强多任务泛化能力至关重要。研究还发现,将高层生成任务集成到低层视觉模型中可能会损害对细节敏感的恢复任务。这些发现为构建更鲁棒和通用的低层视觉系统铺平了道路。

🔬 方法详解

问题定义:现有底层视觉模型通常针对特定任务设计,缺乏通用性和灵活性。它们难以同时处理图像恢复、增强、语义预测和风格化等多种任务,并且用户交互方式单一,无法根据需求进行灵活调整。此外,现有方法在高分辨率图像处理中,往往难以保持细节和高保真度。

核心思路:OmniLV的核心思路是构建一个统一的多模态框架,利用文本和视觉提示来指导模型完成不同的底层视觉任务。通过分别编码文本和视觉指令,并结合浅层特征控制进行协同训练,可以有效缓解任务歧义,增强多任务泛化能力。同时,利用基于扩散Transformer (DiT) 的生成先验,可以支持任意分辨率,并在高分辨率下保持细节和高保真度。

技术框架:OmniLV的整体框架包括以下几个主要模块:1) 文本编码器:用于将文本提示转换为特征向量;2) 视觉编码器:用于将视觉提示转换为特征向量;3) 扩散Transformer (DiT):作为生成先验,用于生成高质量的图像;4) 浅层特征控制模块:用于在训练过程中控制浅层特征,以缓解任务歧义。整个流程是,首先将文本和视觉提示分别输入到对应的编码器中,得到特征向量。然后,将这些特征向量输入到DiT中,生成最终的图像。在训练过程中,使用浅层特征控制模块来约束浅层特征,以提高多任务泛化能力。

关键创新:OmniLV的关键创新在于:1) 提出了一个统一的多模态框架,可以同时处理多种底层视觉任务;2) 利用文本和视觉提示,实现了灵活的用户交互方式;3) 结合浅层特征控制进行协同训练,有效缓解了任务歧义,增强了多任务泛化能力。与现有方法相比,OmniLV具有更强的通用性、灵活性和泛化能力。

关键设计:在OmniLV中,文本编码器可以使用预训练的语言模型,如BERT或GPT。视觉编码器可以使用卷积神经网络,如ResNet或VGG。扩散Transformer (DiT) 的结构可以根据具体任务进行调整。浅层特征控制模块可以使用简单的卷积层或全连接层。损失函数可以使用多种损失函数的组合,如L1损失、L2损失、感知损失和对抗损失等。具体的参数设置需要根据实验结果进行调整。

📊 实验亮点

实验结果表明,OmniLV在多种底层视觉任务上都取得了优异的性能。例如,在图像恢复任务中,OmniLV的PSNR和SSIM指标均优于现有方法。此外,实验还发现,分别编码文本和视觉指令,并结合浅层特征控制进行协同训练,可以显著提高多任务泛化能力。然而,将高层生成任务集成到低层视觉模型中可能会损害对细节敏感的恢复任务。

🎯 应用场景

OmniLV具有广泛的应用前景,可应用于图像编辑、图像修复、图像增强、艺术风格迁移等领域。例如,用户可以通过输入文本描述或提供参考图像,来指导模型完成图像修复或风格迁移任务。该研究的实际价值在于提供了一个通用的底层视觉解决方案,降低了开发成本,提高了开发效率。未来,OmniLV可以进一步扩展到其他视觉任务,如视频处理、三维重建等。

📄 摘要(原文)

We present Lunima-OmniLV (abbreviated as OmniLV), a universal multimodal multi-task framework for low-level vision that addresses over 100 sub-tasks across four major categories: image restoration, image enhancement, weak-semantic dense prediction, and stylization. OmniLV leverages both textual and visual prompts to offer flexible and user-friendly interactions. Built on Diffusion Transformer (DiT)-based generative priors, our framework supports arbitrary resolutions -- achieving optimal performance at 1K resolution -- while preserving fine-grained details and high fidelity. Through extensive experiments, we demonstrate that separately encoding text and visual instructions, combined with co-training using shallow feature control, is essential to mitigate task ambiguity and enhance multi-task generalization. Our findings also reveal that integrating high-level generative tasks into low-level vision models can compromise detail-sensitive restoration. These insights pave the way for more robust and generalizable low-level vision systems.