Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs

作者: Sanjoy Chowdhury, Hanan Gani, Nishit Anand, Sayan Nag, Ruohan Gao, Mohamed Elhoseiny, Salman Khan, Dinesh Manocha

分类: eess.AS, cs.AI, cs.CV, cs.LG

发布日期: 2025-03-29

💡 一句话要点

Aurelia：面向音视频LLM的测试时推理蒸馏框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音视频大语言模型 推理蒸馏 Actor-Critic 强化学习 多模态推理 测试时优化 AVReasonBench

📋 核心要点

现有推理优化方法未能充分解决音视频场景的复杂性，限制了音视频大语言模型（AVLLM）的性能。
AURELIA框架通过Actor-Critic机制，在测试时将结构化推理过程注入AVLLM，提升其多模态理解能力。
AVReasonBench基准测试揭示了现有AVLLM的不足，而AURELIA实现了高达100%的性能提升。

📝 摘要（中文）

本文提出AURELIA，一个基于Actor-Critic的音视频（AV）推理框架，旨在测试时将结构化的、逐步推理过程提炼到AVLLM中，从而提升其处理复杂多模态输入的能力，无需额外的训练或微调。为进一步提升AVLLM的推理能力，作者构建了AVReasonBench，一个包含4500个音视频问题的基准测试，每个问题都配有详细的逐步推理过程。该基准涵盖六个不同的任务，包括AV-GeoIQ，用于评估AV推理与地理和文化知识的结合。在AVReasonBench上评估18个AVLLM，揭示了它们在多模态推理能力方面的显著局限性。使用AURELIA，实现了高达100%的相对改进，证明了其有效性。这一性能提升突显了推理增强数据生成在推动AVLLM在实际应用中的潜力。代码和数据将在https://github.com/schowdhury671/aurelia上公开发布。

🔬 方法详解

问题定义：现有的大语言模型推理优化工作主要集中在文本领域，忽略了音视频场景的复杂性。现有的音视频大语言模型在处理需要复杂推理的多模态任务时表现不佳，缺乏有效的推理机制。

核心思路：AURELIA的核心思路是在测试时，通过Actor-Critic强化学习框架，引导AVLLM生成逐步的、结构化的推理过程。Actor负责生成推理步骤，Critic评估这些步骤的质量，并提供反馈，从而提升AVLLM的推理能力。这种方法无需额外的训练或微调，即可提升现有模型的性能。

技术框架：AURELIA框架包含以下主要模块：1) 音视频编码器：将音视频输入转换为特征表示。2) Actor网络：根据音视频特征和当前状态，生成下一步的推理步骤。3) Critic网络：评估Actor生成的推理步骤的质量，并给出奖励信号。4) 大语言模型：根据推理步骤生成最终答案。整个流程通过强化学习进行优化，Actor和Critic网络不断迭代，提升推理的准确性和效率。

关键创新：AURELIA的关键创新在于将Actor-Critic强化学习框架应用于音视频大语言模型的测试时推理蒸馏。与传统的微调方法不同，AURELIA无需额外的训练数据，即可提升现有模型的推理能力。此外，AVReasonBench基准测试的构建，为评估和比较AVLLM的推理能力提供了标准化的平台。

关键设计：Actor和Critic网络可以使用各种神经网络结构，例如Transformer或LSTM。奖励函数的设计至关重要，需要综合考虑推理步骤的正确性、完整性和效率。作者可能使用了诸如BLEU score或ROUGE score等指标来评估推理步骤的质量。具体的网络结构、损失函数和训练参数等细节需要在论文中进一步查找。

🖼️ 关键图片

📊 实验亮点

AURELIA在AVReasonBench基准测试上取得了显著的性能提升，最高达到100%的相对改进。这一结果表明，AURELIA框架能够有效地提升AVLLM的推理能力，使其在复杂的多模态任务中表现更佳。此外，AVReasonBench基准测试的构建，为评估和比较AVLLM的推理能力提供了标准化的平台。

🎯 应用场景

AURELIA框架可应用于各种需要音视频理解和推理的场景，例如智能监控、视频内容分析、人机交互等。通过提升AVLLM的推理能力，可以实现更准确、更智能的音视频处理，例如自动生成视频摘要、识别异常事件、理解用户意图等。该研究有望推动音视频大语言模型在实际应用中的广泛应用。

📄 摘要（原文）

Recent advancements in reasoning optimization have greatly enhanced the performance of large language models (LLMs). However, existing work fails to address the complexities of audio-visual scenarios, underscoring the need for further research. In this paper, we introduce AURELIA, a novel actor-critic based audio-visual (AV) reasoning framework that distills structured, step-by-step reasoning into AVLLMs at test time, improving their ability to process complex multi-modal inputs without additional training or fine-tuning. To further advance AVLLM reasoning skills, we present AVReasonBench, a challenging benchmark comprising 4500 audio-visual questions, each paired with detailed step-by-step reasoning. Our benchmark spans six distinct tasks, including AV-GeoIQ, which evaluates AV reasoning combined with geographical and cultural knowledge. Evaluating 18 AVLLMs on AVReasonBench reveals significant limitations in their multi-modal reasoning capabilities. Using AURELIA, we achieve up to a 100% relative improvement, demonstrating its effectiveness. This performance gain highlights the potential of reasoning-enhanced data generation for advancing AVLLMs in real-world applications. Our code and data will be publicly released at: https: //github.com/schowdhury671/aurelia.

Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理