OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows

作者: Ruiting Dai, Zheyu Wang, Haoyu Yang, Yihan Liu, Chengzhi Wang, Zekun Zhang, Zishan Huang, Jiaman Cen, Lisi Mo

分类: cs.AI, cs.LG

发布日期: 2026-02-04

💡 一句话要点

OMG-Agent：通过解耦的粗到细智能体工作流实现鲁棒的缺失模态生成

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 模态缺失 智能体 知识检索 大语言模型

📋 核心要点

现有模态重建方法受限于语义-细节纠缠，导致生成质量不高，且对缺失模态鲁棒性差。
OMG-Agent 模仿人类认知过程，通过解耦语义规划、证据检索和细节执行三个阶段来解决问题。
实验表明，OMG-Agent 在高缺失率下仍能保持优异性能，显著超越现有方法，提升了多模态重建的鲁棒性。

📝 摘要（中文）

数据不完整性严重阻碍了多模态系统的可靠性。现有的重建方法面临着明显的瓶颈：传统的参数/生成模型容易因过度依赖内部记忆而产生幻觉，而检索增强框架则难以克服检索的僵化性。至关重要的是，这些端到端架构从根本上受到语义-细节纠缠的限制——逻辑推理和信号合成之间的结构性冲突损害了保真度。本文提出了全模态生成智能体（OMG-Agent），这是一种新颖的框架，它将范式从静态映射转变为动态的粗到细智能体工作流。通过模仿一种深思熟虑后行动的认知过程，OMG-Agent 将任务明确地解耦为三个协同阶段：（1）由MLLM驱动的语义规划器，通过渐进式上下文推理来解决输入歧义，从而创建一个确定性的结构化语义计划；（2）非参数证据检索器，将抽象语义扎根于外部知识；（3）检索注入执行器，利用检索到的证据作为灵活的特征提示，以克服僵化并合成高保真度的细节。在多个基准上的大量实验表明，OMG-Agent 始终超越了最先进的方法，在极端的缺失情况下保持了鲁棒性，例如，在 70% 的缺失率下，CMU-MOSI 上的性能提升了 2.6 个百分点。

🔬 方法详解

问题定义：论文旨在解决多模态数据中由于模态缺失导致的信息不完整问题。现有方法，如参数模型和检索增强模型，分别存在幻觉和检索僵化的问题，根本原因是语义信息和细节信息的纠缠，导致模型难以在逻辑推理和信号合成之间取得平衡。

核心思路：OMG-Agent 的核心思路是将多模态生成任务分解为三个独立的、协同工作的阶段：语义规划、证据检索和细节执行。这种解耦的设计模仿了人类“深思熟虑后行动”的认知过程，允许模型首先理解任务的语义，然后检索相关证据，最后生成高质量的细节。

技术框架：OMG-Agent 包含三个主要模块：(1) 语义规划器：使用多模态大语言模型（MLLM）进行上下文推理，生成结构化的语义计划。(2) 证据检索器：使用非参数方法从外部知识库中检索与语义计划相关的证据。(3) 检索注入执行器：利用检索到的证据作为特征提示，指导细节生成，克服检索僵化问题。整个流程是从粗粒度的语义理解到细粒度的细节合成。

关键创新：OMG-Agent 的最重要创新在于其解耦的粗到细智能体工作流。与传统的端到端模型相比，OMG-Agent 能够更好地处理语义和细节之间的关系，从而提高生成质量和鲁棒性。通过引入外部知识检索，模型可以避免过度依赖内部记忆，减少幻觉的产生。

关键设计：语义规划器使用预训练的 MLLM，并针对多模态任务进行微调。证据检索器使用向量数据库存储外部知识，并使用相似度搜索算法检索相关证据。检索注入执行器使用注意力机制将检索到的证据融入到生成过程中。具体的损失函数和网络结构细节在论文中应该有更详细的描述（未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，OMG-Agent 在多个基准数据集上均取得了显著的性能提升。例如，在 CMU-MOSI 数据集上，当缺失率达到 70% 时，OMG-Agent 的性能比现有最佳方法提高了 2.6 个百分点。这些结果证明了 OMG-Agent 在处理缺失模态问题上的优越性和鲁棒性。

🎯 应用场景

OMG-Agent 可应用于各种多模态数据处理任务，如视频理解、语音识别、图像生成等。在医疗诊断、自动驾驶等领域，数据的完整性至关重要，OMG-Agent 可以有效处理缺失模态，提高系统的可靠性和安全性。未来，该研究有望推动多模态人工智能的发展，使其在更广泛的实际场景中得到应用。

📄 摘要（原文）

Data incompleteness severely impedes the reliability of multimodal systems. Existing reconstruction methods face distinct bottlenecks: conventional parametric/generative models are prone to hallucinations due to over-reliance on internal memory, while retrieval-augmented frameworks struggle with retrieval rigidity. Critically, these end-to-end architectures are fundamentally constrained by Semantic-Detail Entanglement -- a structural conflict between logical reasoning and signal synthesis that compromises fidelity. In this paper, we present \textbf{\underline{O}}mni-\textbf{\underline{M}}odality \textbf{\underline{G}}eneration Agent (\textbf{OMG-Agent}), a novel framework that shifts the paradigm from static mapping to a dynamic coarse-to-fine Agentic Workflow. By mimicking a \textit{deliberate-then-act} cognitive process, OMG-Agent explicitly decouples the task into three synergistic stages: (1) an MLLM-driven Semantic Planner that resolves input ambiguity via Progressive Contextual Reasoning, creating a deterministic structured semantic plan; (2) a non-parametric Evidence Retriever that grounds abstract semantics in external knowledge; and (3) a Retrieval-Injected Executor that utilizes retrieved evidence as flexible feature prompts to overcome rigidity and synthesize high-fidelity details. Extensive experiments on multiple benchmarks demonstrate that OMG-Agent consistently surpasses state-of-the-art methods, maintaining robustness under extreme missingness, e.g., a $2.6$-point gain on CMU-MOSI at $70$\% missing rates.

OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理