OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows
作者: Ruiting Dai, Zheyu Wang, Haoyu Yang, Yihan Liu, Chengzhi Wang, Zekun Zhang, Zishan Huang, Jiaman Cen, Lisi Mo
分类: cs.AI, cs.LG
发布日期: 2026-02-04
💡 一句话要点
OMG-Agent:通过解耦的粗到细智能体工作流实现鲁棒的缺失模态生成
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 模态缺失 智能体 知识检索 大语言模型
📋 核心要点
- 现有模态重建方法受限于语义-细节纠缠,导致生成质量不高,且对缺失模态鲁棒性差。
- OMG-Agent 模仿人类认知过程,通过解耦语义规划、证据检索和细节执行三个阶段来解决问题。
- 实验表明,OMG-Agent 在高缺失率下仍能保持优异性能,显著超越现有方法,提升了多模态重建的鲁棒性。
📝 摘要(中文)
数据不完整性严重阻碍了多模态系统的可靠性。现有的重建方法面临着明显的瓶颈:传统的参数/生成模型容易因过度依赖内部记忆而产生幻觉,而检索增强框架则难以克服检索的僵化性。至关重要的是,这些端到端架构从根本上受到语义-细节纠缠的限制——逻辑推理和信号合成之间的结构性冲突损害了保真度。本文提出了全模态生成智能体(OMG-Agent),这是一种新颖的框架,它将范式从静态映射转变为动态的粗到细智能体工作流。通过模仿一种深思熟虑后行动的认知过程,OMG-Agent 将任务明确地解耦为三个协同阶段:(1)由MLLM驱动的语义规划器,通过渐进式上下文推理来解决输入歧义,从而创建一个确定性的结构化语义计划;(2)非参数证据检索器,将抽象语义扎根于外部知识;(3)检索注入执行器,利用检索到的证据作为灵活的特征提示,以克服僵化并合成高保真度的细节。在多个基准上的大量实验表明,OMG-Agent 始终超越了最先进的方法,在极端的缺失情况下保持了鲁棒性,例如,在 70% 的缺失率下,CMU-MOSI 上的性能提升了 2.6 个百分点。
🔬 方法详解
问题定义:论文旨在解决多模态数据中由于模态缺失导致的信息不完整问题。现有方法,如参数模型和检索增强模型,分别存在幻觉和检索僵化的问题,根本原因是语义信息和细节信息的纠缠,导致模型难以在逻辑推理和信号合成之间取得平衡。
核心思路:OMG-Agent 的核心思路是将多模态生成任务分解为三个独立的、协同工作的阶段:语义规划、证据检索和细节执行。这种解耦的设计模仿了人类“深思熟虑后行动”的认知过程,允许模型首先理解任务的语义,然后检索相关证据,最后生成高质量的细节。
技术框架:OMG-Agent 包含三个主要模块:(1) 语义规划器:使用多模态大语言模型(MLLM)进行上下文推理,生成结构化的语义计划。(2) 证据检索器:使用非参数方法从外部知识库中检索与语义计划相关的证据。(3) 检索注入执行器:利用检索到的证据作为特征提示,指导细节生成,克服检索僵化问题。整个流程是从粗粒度的语义理解到细粒度的细节合成。
关键创新:OMG-Agent 的最重要创新在于其解耦的粗到细智能体工作流。与传统的端到端模型相比,OMG-Agent 能够更好地处理语义和细节之间的关系,从而提高生成质量和鲁棒性。通过引入外部知识检索,模型可以避免过度依赖内部记忆,减少幻觉的产生。
关键设计:语义规划器使用预训练的 MLLM,并针对多模态任务进行微调。证据检索器使用向量数据库存储外部知识,并使用相似度搜索算法检索相关证据。检索注入执行器使用注意力机制将检索到的证据融入到生成过程中。具体的损失函数和网络结构细节在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OMG-Agent 在多个基准数据集上均取得了显著的性能提升。例如,在 CMU-MOSI 数据集上,当缺失率达到 70% 时,OMG-Agent 的性能比现有最佳方法提高了 2.6 个百分点。这些结果证明了 OMG-Agent 在处理缺失模态问题上的优越性和鲁棒性。
🎯 应用场景
OMG-Agent 可应用于各种多模态数据处理任务,如视频理解、语音识别、图像生成等。在医疗诊断、自动驾驶等领域,数据的完整性至关重要,OMG-Agent 可以有效处理缺失模态,提高系统的可靠性和安全性。未来,该研究有望推动多模态人工智能的发展,使其在更广泛的实际场景中得到应用。
📄 摘要(原文)
Data incompleteness severely impedes the reliability of multimodal systems. Existing reconstruction methods face distinct bottlenecks: conventional parametric/generative models are prone to hallucinations due to over-reliance on internal memory, while retrieval-augmented frameworks struggle with retrieval rigidity. Critically, these end-to-end architectures are fundamentally constrained by Semantic-Detail Entanglement -- a structural conflict between logical reasoning and signal synthesis that compromises fidelity. In this paper, we present \textbf{\underline{O}}mni-\textbf{\underline{M}}odality \textbf{\underline{G}}eneration Agent (\textbf{OMG-Agent}), a novel framework that shifts the paradigm from static mapping to a dynamic coarse-to-fine Agentic Workflow. By mimicking a \textit{deliberate-then-act} cognitive process, OMG-Agent explicitly decouples the task into three synergistic stages: (1) an MLLM-driven Semantic Planner that resolves input ambiguity via Progressive Contextual Reasoning, creating a deterministic structured semantic plan; (2) a non-parametric Evidence Retriever that grounds abstract semantics in external knowledge; and (3) a Retrieval-Injected Executor that utilizes retrieved evidence as flexible feature prompts to overcome rigidity and synthesize high-fidelity details. Extensive experiments on multiple benchmarks demonstrate that OMG-Agent consistently surpasses state-of-the-art methods, maintaining robustness under extreme missingness, e.g., a $2.6$-point gain on CMU-MOSI at $70$\% missing rates.