Project Riley: Multimodal Multi-Agent LLM Collaboration with Emotional Reasoning and Voting

📄 arXiv: 2505.20521v2 📥 PDF

作者: Ana Rita Ortigoso, Gabriel Vieira, Daniel Fuentes, Luis Frazão, Nuno Costa, António Pereira

分类: cs.AI, cs.CL

发布日期: 2025-05-26 (更新: 2025-09-08)

备注: 28 pages, 5 figures. Submitted for review to Information Fusion


💡 一句话要点

Project Riley:提出一种基于情感推理和投票的多模态多智能体LLM协作框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 情感计算 大型语言模型 对话式AI 情感推理

📋 核心要点

  1. 现有对话式AI在情感表达和推理方面存在不足,难以模拟人类情感影响下的决策过程。
  2. Project Riley提出多智能体协作框架,模拟不同情感视角,通过对话和投票机制生成更具情感色彩的回复。
  3. 用户测试表明,该系统在情感适当性和沟通清晰度方面表现良好,验证了其在结构化场景中的有效性。

📝 摘要(中文)

本文介绍了Project Riley,一种新颖的多模态和多模型对话式AI架构,旨在模拟受情感状态影响的推理过程。该系统受到皮克斯动画电影《头脑特工队》的启发,由五个不同的情感智能体——快乐、悲伤、恐惧、愤怒和厌恶——组成,它们通过结构化的多轮对话来生成、批评和迭代改进响应。最终的推理机制将这些智能体的贡献综合成一个连贯的输出,该输出既可以反映主导情绪,也可以整合多个视角。该架构结合了文本和视觉大型语言模型(LLM),以及高级推理和自我完善过程。一个功能原型已在离线环境中本地部署,并针对情感表达和计算效率进行了优化。从最初的原型中,又出现了一个名为Armando的原型,该原型被开发用于紧急情况,通过集成检索增强生成(RAG)和累积上下文跟踪来传递情感校准和事实准确的信息。Project Riley原型通过用户测试进行了评估,参与者与聊天机器人互动并完成了一份结构化问卷,评估了三个维度:情感适当性、清晰度和实用性以及自然性和类人度。结果表明,在结构化场景中表现出色,尤其是在情感对齐和沟通清晰度方面。

🔬 方法详解

问题定义:现有对话式AI系统通常缺乏对情感的细致建模和推理能力,难以在需要情感理解和表达的场景中提供令人满意的服务。它们往往无法区分不同情感状态下的需求,也难以生成具有情感色彩的回复。这限制了它们在心理健康支持、情感陪伴等领域的应用。

核心思路:Project Riley的核心思路是模拟人类大脑中不同情感之间的相互作用,通过多个具有不同情感倾向的智能体进行协作,从而生成更具情感深度和 nuanced 的回复。借鉴《头脑特工队》的设定,系统构建了五个代表不同情感的智能体,每个智能体负责从各自的情感视角评估和生成回复。

技术框架:Project Riley的整体架构包括以下几个主要模块:1) 情感智能体:五个分别代表快乐、悲伤、恐惧、愤怒和厌恶的智能体,每个智能体都配备了LLM,并被赋予特定的情感角色。2) 多轮对话:用户输入首先被传递给所有情感智能体,每个智能体根据自身的情感状态生成初步回复。这些回复在智能体之间进行多轮对话,相互批评和改进。3) 推理和投票:在对话结束后,系统使用推理机制综合所有智能体的贡献,并根据情感强度进行投票,最终生成一个连贯的回复。4) RAG集成(Armando原型):Armando原型进一步集成了检索增强生成(RAG)技术,以确保回复的事实准确性,并跟踪累积上下文以提供更个性化的服务。

关键创新:Project Riley的关键创新在于其多智能体协作的情感推理框架。与传统的单智能体对话系统相比,该框架能够模拟不同情感视角之间的冲突和融合,从而生成更丰富、更 nuanced 的回复。此外,该系统还采用了投票机制来平衡不同情感的影响,从而确保最终回复的情感表达既准确又恰当。

关键设计:情感智能体的具体实现细节未知,论文中没有详细描述LLM的选择、训练数据、损失函数等关键参数。投票机制的具体实现方式也未知,例如如何量化情感强度,以及如何根据情感强度分配权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

用户测试表明,Project Riley在情感适当性和沟通清晰度方面表现良好。参与者认为该系统能够生成符合情境情感需求的回复,并且表达清晰易懂。这表明该系统在模拟人类情感推理方面具有一定的潜力,并为开发更具情感智能的对话式AI系统提供了新的思路。

🎯 应用场景

Project Riley的潜在应用领域包括心理健康支持、情感陪伴、教育和娱乐等。它可以用于开发更具同理心和情感智能的聊天机器人,帮助用户应对情感问题,提供个性化的情感支持,或者创造更具沉浸感和情感共鸣的互动体验。在紧急情况下,如Armando原型所示,它可以提供情感校准和事实准确的信息,帮助人们更好地应对危机。

📄 摘要(原文)

This paper presents Project Riley, a novel multimodal and multi-model conversational AI architecture oriented towards the simulation of reasoning influenced by emotional states. Drawing inspiration from Pixar's Inside Out, the system comprises five distinct emotional agents - Joy, Sadness, Fear, Anger, and Disgust - that engage in structured multi-round dialogues to generate, criticise, and iteratively refine responses. A final reasoning mechanism synthesises the contributions of these agents into a coherent output that either reflects the dominant emotion or integrates multiple perspectives. The architecture incorporates both textual and visual large language models (LLMs), alongside advanced reasoning and self-refinement processes. A functional prototype was deployed locally in an offline environment, optimised for emotional expressiveness and computational efficiency. From this initial prototype, another one emerged, called Armando, which was developed for use in emergency contexts, delivering emotionally calibrated and factually accurate information through the integration of Retrieval-Augmented Generation (RAG) and cumulative context tracking. The Project Riley prototype was evaluated through user testing, in which participants interacted with the chatbot and completed a structured questionnaire assessing three dimensions: Emotional Appropriateness, Clarity and Utility, and Naturalness and Human-likeness. The results indicate strong performance in structured scenarios, particularly with respect to emotional alignment and communicative clarity.