Active Intelligence in Video Avatars via Closed-loop World Modeling
作者: Xuanhua He, Tianyu Yang, Ke Cao, Ruiqi Wu, Cheng Meng, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Qifeng Chen
分类: cs.CV
发布日期: 2025-12-23
备注: Project Page: https://xuanhuahe.github.io/ORCA/
💡 一句话要点
提出ORCA框架,通过闭环世界建模实现视频化身的主动智能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视频化身 主动智能 世界模型 闭环控制 POMDP 分层架构 目标导向 环境交互
📋 核心要点
- 现有视频化身方法缺乏自主性,无法进行长期目标导向的环境交互。
- ORCA框架通过闭环OTAR循环和分层双系统架构,使视频化身具备主动智能。
- 实验表明,ORCA在任务成功率和行为连贯性方面显著优于现有方法。
📝 摘要(中文)
现有的视频化身生成方法擅长保持身份和对齐动作,但缺乏真正的自主性,无法通过自适应环境交互自主地追求长期目标。为了解决这个问题,我们引入了L-IVA(Long-horizon Interactive Visual Avatar),这是一个用于评估随机生成环境中目标导向规划的任务和基准。同时,我们提出了ORCA(Online Reasoning and Cognitive Architecture),这是第一个使视频化身具备主动智能的框架。ORCA通过两个关键创新实现了内部世界模型(IWM)能力:(1)一个闭环的OTAR循环(观察-思考-行动-反思),通过持续验证预测结果与实际生成结果,在生成不确定性下保持鲁棒的状态跟踪;(2)一个分层的双系统架构,其中系统2利用状态预测进行战略推理,而系统1将抽象计划转化为精确的、模型特定的动作描述。通过将化身控制建模为POMDP,并使用结果验证实现连续的信念更新,ORCA能够在开放域场景中实现自主的多步骤任务完成。大量的实验表明,ORCA在任务成功率和行为连贯性方面显著优于开放循环和非反思的基线,验证了我们受IWM启发的、将视频化身智能从被动动画提升到主动的、目标导向行为的设计。
🔬 方法详解
问题定义:论文旨在解决视频化身缺乏自主智能的问题。现有方法主要关注身份保持和动作对齐,无法使化身根据环境变化自主地规划和执行长期任务。这限制了视频化身在交互式应用中的潜力,使其只能被动地响应用户的指令,而不能主动地与环境进行交互并完成目标。
核心思路:论文的核心思路是赋予视频化身一个内部世界模型(IWM),使其能够像人类一样,通过观察、思考、行动和反思的循环,不断学习和适应环境。通过预测行动的结果并与实际观察进行比较,化身可以不断更新其对世界的理解,从而做出更明智的决策。这种闭环反馈机制是实现主动智能的关键。
技术框架:ORCA框架采用了一个分层的双系统架构。系统1负责将抽象的计划转化为具体的动作指令,它是一个快速、直觉的系统,类似于人类的本能反应。系统2负责进行战略推理和状态预测,它是一个缓慢、深思熟虑的系统,类似于人类的理性思考。这两个系统协同工作,使得化身既能快速响应环境变化,又能进行长期的目标规划。框架的核心是一个闭环的OTAR(Observe-Think-Act-Reflect)循环,在这个循环中,化身首先观察环境,然后根据内部世界模型进行思考和规划,接着执行动作,最后反思行动的结果,并更新内部世界模型。
关键创新:论文的关键创新在于将内部世界模型(IWM)的概念引入到视频化身控制中,并设计了一个闭环的OTAR循环来实现持续的状态跟踪和信念更新。与传统的开环控制方法不同,ORCA能够根据实际的生成结果来验证预测,从而在生成不确定性下保持鲁棒性。此外,分层的双系统架构也使得化身能够同时进行快速响应和长期规划。
关键设计:ORCA将化身控制建模为一个部分可观测马尔可夫决策过程(POMDP),并使用连续的信念更新来跟踪化身的状态。OTAR循环中的“反思”阶段使用一个验证模块来比较预测结果和实际生成结果,并根据差异来更新内部世界模型。系统1和系统2之间的交互通过一个共享的知识库来实现,系统2将战略计划写入知识库,系统1则从知识库中读取指令并执行。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ORCA在L-IVA任务上显著优于基线方法。在任务成功率方面,ORCA比开放循环方法提高了约20%,比非反思方法提高了约15%。此外,ORCA在行为连贯性方面也表现出明显的优势,能够生成更符合逻辑和常识的动作序列。这些结果验证了ORCA框架的有效性和内部世界模型在视频化身控制中的重要性。
🎯 应用场景
该研究成果可应用于智能游戏、虚拟助手、远程协作、教育培训等领域。通过赋予视频化身主动智能,可以使其在虚拟环境中更加逼真和有用,例如,在游戏中,化身可以自主地探索世界、完成任务,与玩家进行更自然的互动;在远程协作中,化身可以代表用户进行会议、演示,甚至执行一些简单的物理任务。未来,随着技术的不断发展,主动智能视频化身有望成为人们在数字世界中的重要化身。
📄 摘要(原文)
Current video avatar generation methods excel at identity preservation and motion alignment but lack genuine agency, they cannot autonomously pursue long-term goals through adaptive environmental interaction. We address this by introducing L-IVA (Long-horizon Interactive Visual Avatar), a task and benchmark for evaluating goal-directed planning in stochastic generative environments, and ORCA (Online Reasoning and Cognitive Architecture), the first framework enabling active intelligence in video avatars. ORCA embodies Internal World Model (IWM) capabilities through two key innovations: (1) a closed-loop OTAR cycle (Observe-Think-Act-Reflect) that maintains robust state tracking under generative uncertainty by continuously verifying predicted outcomes against actual generations, and (2) a hierarchical dual-system architecture where System 2 performs strategic reasoning with state prediction while System 1 translates abstract plans into precise, model-specific action captions. By formulating avatar control as a POMDP and implementing continuous belief updating with outcome verification, ORCA enables autonomous multi-step task completion in open-domain scenarios. Extensive experiments demonstrate that ORCA significantly outperforms open-loop and non-reflective baselines in task success rate and behavioral coherence, validating our IWM-inspired design for advancing video avatar intelligence from passive animation to active, goal-oriented behavior.