cs.CV(2024-11-17)
📊 共 4 篇论文
🎯 兴趣领域导航
支柱三:空间感知与语义 (Perception & Semantics) (1)
支柱九:具身大模型 (Embodied Foundation Models) (1)
支柱八:物理动画 (Physics-based Animation) (1)
支柱一:机器人控制 (Robot Control) (1)
🔬 支柱三:空间感知与语义 (Perception & Semantics) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | Memory-Augmented Multimodal LLMs for Surgical VQA via Self-Contained Inquiry | 提出SCAN:一种基于记忆增强的多模态LLM框架,用于提升手术VQA的场景理解能力。 | scene understanding multimodal |
🔬 支柱九:具身大模型 (Embodied Foundation Models) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 2 | F$^3$OCUS -- Federated Finetuning of Vision-Language Foundation Models with Optimal Client Layer Updating Strategy via Multi-objective Meta-Heuristics | 提出F$^3$OCUS,通过元启发式算法优化联邦学习中视觉-语言模型的参数高效微调。 | foundation model |
🔬 支柱八:物理动画 (Physics-based Animation) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 3 | STOP: Spatiotemporal Orthogonal Propagation for Weight-Threshold-Leakage Synergistic Training of Deep Spiking Neural Networks | 提出时空正交传播(STOP)算法,用于权重-阈值-泄漏协同训练深度脉冲神经网络,提升边缘计算场景下的能效和精度。 | spatiotemporal |
🔬 支柱一:机器人控制 (Robot Control) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 4 | PickScan: Object discovery and reconstruction from handheld interactions | PickScan:提出交互引导的物体发现与三维重建方法,无需预训练。 | manipulation |