cs.CV(2025-04-05)
📊 共 11 篇论文 | 🔗 5 篇有代码
🎯 兴趣领域导航
支柱九:具身大模型 (Embodied Foundation Models) (6 🔗2)
支柱二:RL算法与架构 (RL & Architecture) (2)
支柱三:空间感知与语义 (Perception & Semantics) (2 🔗2)
支柱五:交互与反应 (Interaction & Reaction) (1 🔗1)
🔬 支柱九:具身大模型 (Embodied Foundation Models) (6 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | Evaluating Graphical Perception with Multimodal LLMs | 利用多模态大语言模型评估图形感知能力,对比人类表现。 | large language model multimodal | ||
| 2 | A Survey of Pathology Foundation Model: Progress and Future Directions | 病理学Foundation Model综述:系统分析现有模型,指明未来发展方向 | foundation model multimodal | ✅ | |
| 3 | Window Token Concatenation for Efficient Visual Large Language Models | 提出窗口令牌连接(WiCo)方法,高效压缩视觉大语言模型中的视觉令牌数量。 | large language model | ✅ | |
| 4 | The Effects of Grouped Structural Global Pruning of Vision Transformers on Domain Generalisation | 提出分组结构化剪枝方法,提升Vision Transformer在领域泛化任务中的效率。 | large language model | ||
| 5 | TARAC: Mitigating Hallucination in LVLMs via Temporal Attention Real-time Accumulative Connection | 提出TARAC,通过时序注意力累积连接缓解LVLM中的幻觉问题 | multimodal | ||
| 6 | DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion | DiTaiListener:提出基于扩散模型的可控高保真听者视频生成方法 | multimodal |
🔬 支柱二:RL算法与架构 (RL & Architecture) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 7 | Interpretable Single-View 3D Gaussian Splatting using Unsupervised Hierarchical Disentangled Representation Learning | 提出3DisGS框架,通过无监督分层解耦表示学习实现单视角3D高斯模型的语义可解释性。 | DRL representation learning 3D gaussian splatting | ||
| 8 | GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill | GROVE:一种广义奖励框架,用于学习开放词汇的物理技能 | reinforcement learning open-vocabulary open vocabulary |
🔬 支柱三:空间感知与语义 (Perception & Semantics) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 9 | 3R-GS: Best Practice in Optimizing Camera Poses Along with 3DGS | 3R-GS:通过联合优化3D高斯和相机位姿,提升神经渲染质量与精度 | 3D gaussian splatting 3DGS gaussian splatting | ✅ | |
| 10 | Simultaneous Motion And Noise Estimation with Event Cameras | 提出事件相机运动与噪声同步估计方法,提升去噪和运动估计性能 | optical flow | ✅ |
🔬 支柱五:交互与反应 (Interaction & Reaction) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 11 | Multi-identity Human Image Animation with Structural Video Diffusion | 提出结构化视频扩散模型,解决多人交互场景下高质量人物视频生成问题。 | human-object interaction | ✅ |