Omni-Persona: Systematic Benchmarking and Improving Omnimodal Personalization

📄 arXiv: 2605.09996v1 📥 PDF

作者: Yeongtak Oh, Dongwook Lee, Sangkwon Park, Heeseung Kim, Sungroh Yoon

分类: cs.CV

发布日期: 2026-05-11

备注: Project Page: https://github.com/oyt9306/Omni-Persona


💡 一句话要点

提出Omni-Persona基准框架,系统性评估并提升多模态大模型的全模态个性化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 个性化生成 基准测试 跨模态路由 模型校准 强化学习反馈 接地行为

📋 核心要点

  1. 现有研究多局限于视觉-语言模态,缺乏涵盖文本、图像、音频的统一全模态基准,且难以处理缺失个性化信息的复杂场景。
  2. 提出Omni-Persona基准,将个性化任务形式化为“个性化模态图”上的跨模态路由,并引入校准准确率指标以评估模型的接地与拒绝能力。
  3. 实验发现模型存在音频-视觉接地能力鸿沟,且参数规模与校准能力不直接挂钩,揭示了RLVR在反馈机制上的优势与潜在的保守性偏差。

📝 摘要(中文)

尽管多模态大模型在文本、图像和音频领域取得了显著进展,但个性化研究仍主要局限于视觉-语言模态。目前缺乏涵盖文本、图像和音频的统一全模态(Omnimodal)基准,且在处理缺失个性化信息场景及系统性接地(Grounding)研究方面存在方法论缺失。本文提出了Omni-Persona,这是首个全面的全模态个性化基准。我们将该任务形式化为“个性化模态图”上的跨模态路由问题,包含4个任务组、18个细分任务及约750个项目。为严谨诊断接地行为,我们提出了“校准准确率(Calibrated Accuracy)”,通过统一框架联合奖励正确的接地行为与适当的拒绝回答。实验揭示了模型在音频与视觉接地能力上的差距、参数规模与校准能力的不一致性,以及监督微调(SFT)与强化学习(RLVR)在规模化标注与反馈机制上的权衡,为未来多模态个性化研究提供了诊断指南。

🔬 方法详解

问题定义:论文旨在解决多模态大模型在个性化任务中缺乏统一评估标准的问题,特别是模型在面对缺失个性化信息时容易产生幻觉,且不同模态(音频、视觉、文本)间的接地能力存在显著不均衡。

核心思路:通过构建“个性化模态图(Persona Modality Graph)”将个性化任务形式化为跨模态路由问题,并引入校准准确率(Calibrated Accuracy)指标,强制模型在缺乏依据时学会“拒绝回答”,从而提升模型在真实场景下的可靠性。

技术框架:该框架包含四个主要任务组,涵盖了从模态检索到个性化生成的全流程。评估流程不仅考察模型生成内容的准确性,还通过引入“缺失个性化查询”来测试模型的鲁棒性,确保模型能够区分可回答与不可回答的边界。

关键创新:最重要的创新在于提出了“校准准确率(Calibrated Accuracy)”,它将正确接地与适当拒绝(Abstention)整合进统一的评估框架,有效解决了传统指标无法度量模型幻觉与过度自信的问题。

关键设计:采用了基于规则的监督(RLVR)来引导模型学习接地行为。在损失函数设计上,通过对拒绝回答行为的奖励机制,平衡了模型生成质量与保守性,揭示了SFT在标注规模上的瓶颈以及RLVR在反馈验证上的优势。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验表明,开源模型在音频与视觉接地能力上存在明显差距,RLVR通过密集规则监督可部分弥补该鸿沟。研究发现参数规模并不直接等同于校准能力,且RLVR在提供可验证反馈方面优于SFT,但存在生成质量下降的风险。该基准为评估模型在复杂多模态任务中的真实表现提供了关键诊断工具。

🎯 应用场景

该研究在智能助手、个性化内容生成及人机交互领域具有重要价值。通过提升模型在多模态环境下的接地能力与校准能力,可显著降低AI在医疗、法律或个人助理等高风险场景中的幻觉风险,推动更具鲁棒性和可信度的个性化AI系统落地。

📄 摘要(原文)

While multimodal large language models have advanced across text, image, and audio, personalization research has remained primarily vision-language, with unified omnimodal benchmarking that jointly covers text, image, and audio still limited, and lacking the methodological rigor to account for absent-persona scenarios or systematic grounding studies. We introduce Omni-Persona, the first comprehensive benchmark for omnimodal personalization. We formalize the task as cross-modal routing over the \emph{Persona Modality Graph}, encompassing 4 task groups and 18 fine-grained tasks across ${\sim}750$ items. To rigorously diagnose grounding behavior, we propose \emph{Calibrated Accuracy ($\mathrm{Cal}$)}, which jointly rewards correct grounding and appropriate abstention, incorporating absent-persona queries within a unified evaluation framework. On our dedicated experiments, three diagnostic findings emerge: (i) open-source models show a consistent audio-vs-visual grounding gap that RLVR partially narrows via dense rule-based supervision; (ii) answerable recall and parameter scale are incomplete diagnostics, since strong recall can coexist with absent-persona hallucination and larger models do not always achieve higher $\mathrm{Cal}$, exposing calibration as a separate evaluation axis; and (iii) SFT is bounded by the difficulty of constructing annotated ground-truth supervision at scale, while RLVR generalizes more consistently through outcome-level verifiable feedback yet drifts toward conservative behavior and lower generation quality under our reward design. Omni-Persona thus serves as a diagnostic framework that surfaces the pitfalls of omnimodal personalization, guiding future post-training and reward design.