cs.CV(2025-10-08)
📊 共 4 篇论文
🎯 兴趣领域导航
支柱九:具身大模型 (Embodied Foundation Models) (2)
支柱一:机器人控制 (Robot Control) (1)
支柱六:视频提取与匹配 (Video Extraction) (1)
🔬 支柱九:具身大模型 (Embodied Foundation Models) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer | Ming-UniVision:提出统一连续Tokenizer,实现图像理解与生成的联合建模。 | large language model | ||
| 2 | Cluster Paths: Navigating Interpretability in Neural Networks | 提出Cluster Paths,提升神经网络决策过程的可解释性,并用于异常检测。 | large language model |
🔬 支柱一:机器人控制 (Robot Control) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 3 | WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation | 提出WristWorld,通过4D世界模型从Anchor视角生成腕部视角视频,提升机器人操作性能。 | manipulation world model VGGT |
🔬 支柱六:视频提取与匹配 (Video Extraction) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 4 | OmniSAT: Compact Action Token, Faster Auto Regression | OmniSAT:紧凑动作Token,加速自回归视觉-语言-动作模型训练 | egocentric cross-embodiment vision-language-action |