cs.CV(2025-10-08)

📊 共 4 篇论文

🎯 兴趣领域导航

支柱九:具身大模型 (Embodied Foundation Models) (2) 支柱一:机器人控制 (Robot Control) (1) 支柱六:视频提取与匹配 (Video Extraction) (1)

🔬 支柱九:具身大模型 (Embodied Foundation Models) (2 篇)

#题目一句话要点标签🔗
1 Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer Ming-UniVision:提出统一连续Tokenizer,实现图像理解与生成的联合建模。 large language model
2 Cluster Paths: Navigating Interpretability in Neural Networks 提出Cluster Paths,提升神经网络决策过程的可解释性,并用于异常检测。 large language model

🔬 支柱一:机器人控制 (Robot Control) (1 篇)

#题目一句话要点标签🔗
3 WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation 提出WristWorld,通过4D世界模型从Anchor视角生成腕部视角视频,提升机器人操作性能。 manipulation world model VGGT

🔬 支柱六:视频提取与匹配 (Video Extraction) (1 篇)

#题目一句话要点标签🔗
4 OmniSAT: Compact Action Token, Faster Auto Regression OmniSAT:紧凑动作Token,加速自回归视觉-语言-动作模型训练 egocentric cross-embodiment vision-language-action

⬅️ 返回 cs.CV 首页 · 🏠 返回主页