cs.CV(2025-10-08)
📊 共 23 篇论文 | 🔗 1 篇有代码
🎯 兴趣领域导航
支柱二:RL算法与架构 (RL & Architecture) (7)
支柱九:具身大模型 (Embodied Foundation Models) (7 🔗1)
支柱三:空间感知与语义 (Perception & Semantics) (6)
支柱六:视频提取与匹配 (Video Extraction) (2)
支柱一:机器人控制 (Robot Control) (1)
🔬 支柱二:RL算法与架构 (RL & Architecture) (7 篇)
🔬 支柱九:具身大模型 (Embodied Foundation Models) (7 篇)
🔬 支柱三:空间感知与语义 (Perception & Semantics) (6 篇)
🔬 支柱六:视频提取与匹配 (Video Extraction) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 21 | TalkCuts: A Large-Scale Dataset for Multi-Shot Human Speech Video Generation | 提出TalkCuts大规模数据集,用于多镜头人声视频生成研究 | SMPL SMPL-X multimodal | ||
| 22 | MoRe: Monocular Geometry Refinement via Graph Optimization for Cross-View Consistency | 提出MoRe,通过图优化单目几何体,提升跨视角一致性和尺度对齐。 | feature matching foundation model |
🔬 支柱一:机器人控制 (Robot Control) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 23 | WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation | 提出WristWorld,利用4D世界模型从Anchor视角生成腕部视角视频,提升机器人操作性能。 | manipulation world model VGGT |