InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback

作者: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou

分类: cs.CL, cs.AI, cs.CV, cs.HC

发布日期: 2025-02-20 (更新: 2025-11-07)

备注: Accepted by EMNLP 2025 Findings

💡 一句话要点

提出InterFeedback框架，评估大型多模态模型与人类交互的智能水平

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 人机交互 交互智能 反馈学习 基准测试

📋 核心要点

现有基准测试缺乏对大型多模态模型与人类交互能力的有效评估，阻碍了通用AI助手的开发。
InterFeedback框架通过模拟人机交互，自动评估LMMs基于人类反馈改进响应的能力。
实验结果表明，即使是OpenAI-o1等先进模型，在人机交互中也难以有效利用人类反馈提升性能。

📝 摘要（中文）

现有基准测试未能充分评估大型多模态模型(LMMs)与人类用户的交互智能，而这对于开发通用人工智能助手至关重要。本文设计了InterFeedback，一个交互式框架，可应用于任何LMM和数据集，以自主评估这种能力。在此基础上，我们引入了InterFeedback-Bench，它使用两个代表性数据集MMMU-Pro和MathVerse评估交互智能，并测试了10种不同的开源LMM。此外，我们还提出了InterFeedback-Human，一个新收集的包含120个案例的数据集，旨在手动测试OpenAI-o1和Claude-Sonnet-4等领先模型的交互性能。我们的评估结果表明，即使是最先进的LMM，OpenAI-o1，也难以根据人类反馈改进其响应，平均得分低于50%。我们的研究结果表明，需要能够增强LMM解释和受益于反馈能力的方法。

🔬 方法详解

问题定义：论文旨在解决大型多模态模型（LMMs）与人类用户交互智能评估的问题。现有基准测试主要关注LMMs在静态数据集上的表现，忽略了它们在实际应用中与人类交互并根据反馈进行改进的能力。现有方法的痛点在于缺乏一个能够有效、自主地评估LMMs交互智能的框架。

核心思路：论文的核心思路是构建一个交互式评估框架，模拟人类用户与LMMs的交互过程，并根据LMMs对反馈的响应来评估其交互智能。通过这种方式，可以更全面地了解LMMs在实际应用中的表现。

技术框架：InterFeedback框架包含以下主要组成部分：1) 交互环境：模拟人类用户与LMMs的交互界面。2) 评估数据集：包括MMMU-Pro、MathVerse和InterFeedback-Human，用于测试LMMs在不同任务上的交互能力。3) 评估指标：用于量化LMMs对人类反馈的响应程度和改进效果。4) 自动化评估流程：自动执行交互过程，并根据评估指标生成评估报告。

关键创新：该论文的关键创新在于提出了一个能够自主评估LMMs交互智能的框架。与现有方法相比，InterFeedback能够更全面地评估LMMs在实际应用中的表现，并为LMMs的改进提供有价值的反馈。InterFeedback-Human数据集的构建也为手动评估LMMs的交互性能提供了数据支持。

关键设计：InterFeedback框架的关键设计包括：1) 交互环境的设计：需要模拟真实的人机交互场景，并提供清晰的反馈机制。2) 评估数据集的选择：需要选择具有代表性的数据集，覆盖不同的任务和场景。3) 评估指标的定义：需要定义能够有效量化LMMs交互智能的指标，例如响应速度、准确率、改进幅度等。4) 自动化评估流程的设计：需要确保评估过程的自动化和可重复性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是OpenAI-o1等最先进的LMM，在InterFeedback-Bench和InterFeedback-Human数据集上的表现也远未达到理想水平，平均得分低于50%。这表明LMMs在理解和利用人类反馈方面仍存在很大的提升空间。InterFeedback框架的评估结果为LMMs的改进提供了重要的参考依据。

🎯 应用场景

该研究成果可应用于通用人工智能助手的开发，帮助提升LMMs与人类用户的交互能力，使其能够更好地理解人类意图并提供个性化服务。此外，该框架还可用于评估和比较不同LMMs的交互性能，为模型选择和优化提供依据。未来，该研究有望推动人机协作在教育、医疗、客服等领域的广泛应用。

📄 摘要（原文）

Existing benchmarks do not test Large Multimodal Models (LMMs) on their interactive intelligence with human users, which is vital for developing general-purpose AI assistants. We design InterFeedback, an interactive framework, which can be applied to any LMM and dataset to assess this ability autonomously. On top of this, we introduce InterFeedback-Bench which evaluates interactive intelligence using two representative datasets, MMMU-Pro and MathVerse, to test 10 different open-source LMMs. Additionally, we present InterFeedback-Human, a newly collected dataset of 120 cases designed for manually testing interactive performance in leading models such as OpenAI-o1 and Claude-Sonnet-4. Our evaluation results indicate that even the state-of-the-art LMM, OpenAI-o1, struggles to refine its responses based on human feedback, achieving an average score of less than 50%. Our findings point to the need for methods that can enhance LMMs' capabilities to interpret and benefit from feedback.

InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理