InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback

📄 arXiv: 2502.15027v3 📥 PDF

作者: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou

分类: cs.CL, cs.AI, cs.CV, cs.HC

发布日期: 2025-02-20 (更新: 2025-11-07)

备注: Accepted by EMNLP 2025 Findings


💡 一句话要点

提出InterFeedback框架,评估大型多模态模型与人类交互的智能水平

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 人机交互 交互智能 反馈学习 基准测试

📋 核心要点

  1. 现有基准测试缺乏对大型多模态模型与人类交互能力的有效评估,阻碍了通用AI助手的开发。
  2. InterFeedback框架通过模拟人机交互,自动评估LMMs基于人类反馈改进响应的能力。
  3. 实验结果表明,即使是OpenAI-o1等先进模型,在人机交互中也难以有效利用人类反馈提升性能。

📝 摘要(中文)

现有基准测试未能充分评估大型多模态模型(LMMs)与人类用户的交互智能,而这对于开发通用人工智能助手至关重要。本文设计了InterFeedback,一个交互式框架,可应用于任何LMM和数据集,以自主评估这种能力。在此基础上,我们引入了InterFeedback-Bench,它使用两个代表性数据集MMMU-Pro和MathVerse评估交互智能,并测试了10种不同的开源LMM。此外,我们还提出了InterFeedback-Human,一个新收集的包含120个案例的数据集,旨在手动测试OpenAI-o1和Claude-Sonnet-4等领先模型的交互性能。我们的评估结果表明,即使是最先进的LMM,OpenAI-o1,也难以根据人类反馈改进其响应,平均得分低于50%。我们的研究结果表明,需要能够增强LMM解释和受益于反馈能力的方法。

🔬 方法详解

问题定义:论文旨在解决大型多模态模型(LMMs)与人类用户交互智能评估的问题。现有基准测试主要关注LMMs在静态数据集上的表现,忽略了它们在实际应用中与人类交互并根据反馈进行改进的能力。现有方法的痛点在于缺乏一个能够有效、自主地评估LMMs交互智能的框架。

核心思路:论文的核心思路是构建一个交互式评估框架,模拟人类用户与LMMs的交互过程,并根据LMMs对反馈的响应来评估其交互智能。通过这种方式,可以更全面地了解LMMs在实际应用中的表现。

技术框架:InterFeedback框架包含以下主要组成部分:1) 交互环境:模拟人类用户与LMMs的交互界面。2) 评估数据集:包括MMMU-Pro、MathVerse和InterFeedback-Human,用于测试LMMs在不同任务上的交互能力。3) 评估指标:用于量化LMMs对人类反馈的响应程度和改进效果。4) 自动化评估流程:自动执行交互过程,并根据评估指标生成评估报告。

关键创新:该论文的关键创新在于提出了一个能够自主评估LMMs交互智能的框架。与现有方法相比,InterFeedback能够更全面地评估LMMs在实际应用中的表现,并为LMMs的改进提供有价值的反馈。InterFeedback-Human数据集的构建也为手动评估LMMs的交互性能提供了数据支持。

关键设计:InterFeedback框架的关键设计包括:1) 交互环境的设计:需要模拟真实的人机交互场景,并提供清晰的反馈机制。2) 评估数据集的选择:需要选择具有代表性的数据集,覆盖不同的任务和场景。3) 评估指标的定义:需要定义能够有效量化LMMs交互智能的指标,例如响应速度、准确率、改进幅度等。4) 自动化评估流程的设计:需要确保评估过程的自动化和可重复性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是OpenAI-o1等最先进的LMM,在InterFeedback-Bench和InterFeedback-Human数据集上的表现也远未达到理想水平,平均得分低于50%。这表明LMMs在理解和利用人类反馈方面仍存在很大的提升空间。InterFeedback框架的评估结果为LMMs的改进提供了重要的参考依据。

🎯 应用场景

该研究成果可应用于通用人工智能助手的开发,帮助提升LMMs与人类用户的交互能力,使其能够更好地理解人类意图并提供个性化服务。此外,该框架还可用于评估和比较不同LMMs的交互性能,为模型选择和优化提供依据。未来,该研究有望推动人机协作在教育、医疗、客服等领域的广泛应用。

📄 摘要(原文)

Existing benchmarks do not test Large Multimodal Models (LMMs) on their interactive intelligence with human users, which is vital for developing general-purpose AI assistants. We design InterFeedback, an interactive framework, which can be applied to any LMM and dataset to assess this ability autonomously. On top of this, we introduce InterFeedback-Bench which evaluates interactive intelligence using two representative datasets, MMMU-Pro and MathVerse, to test 10 different open-source LMMs. Additionally, we present InterFeedback-Human, a newly collected dataset of 120 cases designed for manually testing interactive performance in leading models such as OpenAI-o1 and Claude-Sonnet-4. Our evaluation results indicate that even the state-of-the-art LMM, OpenAI-o1, struggles to refine its responses based on human feedback, achieving an average score of less than 50%. Our findings point to the need for methods that can enhance LMMs' capabilities to interpret and benefit from feedback.