cs.CV(2024-10-20)
📊 共 11 篇论文 | 🔗 2 篇有代码
🎯 兴趣领域导航
支柱九:具身大模型 (Embodied Foundation Models) (4 🔗1)
支柱三:空间感知与语义 (Perception & Semantics) (3 🔗1)
支柱二:RL算法与架构 (RL & Architecture) (2)
支柱七:动作重定向 (Motion Retargeting) (1)
支柱一:机器人控制 (Robot Control) (1)
🔬 支柱九:具身大模型 (Embodied Foundation Models) (4 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | MMDS: A Multimodal Medical Diagnosis System Integrating Image Analysis and Knowledge-based Departmental Consultation | MMDS:融合图像分析与知识库科室咨询的多模态医疗诊断系统 | large language model multimodal | ||
| 2 | Generalized Multimodal Fusion via Poisson-Nernst-Planck Equation | 提出基于Poisson-Nernst-Planck方程的广义多模态融合方法,提升特征提取和跨任务适应性。 | multimodal | ||
| 3 | Modality-Fair Preference Optimization for Trustworthy MLLM Alignment | 提出模态公平偏好优化(MFPO)以提升多模态大语言模型(MLLM)的可靠性,缓解幻觉问题。 | large language model multimodal | ||
| 4 | YOLO-RD: Introducing Relevant and Compact Explicit Knowledge to YOLO by Retriever-Dictionary | YOLO-RD:通过检索器-字典模块为YOLO引入相关且紧凑的显式知识,提升目标检测性能。 | large language model | ✅ |
🔬 支柱三:空间感知与语义 (Perception & Semantics) (3 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 5 | EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting | 提出EF-3DGS,利用事件相机辅助自由轨迹3D高斯溅射,解决高速或低帧率视频场景重建问题。 | 3D gaussian splatting 3DGS gaussian splatting | ✅ | |
| 6 | Scene Graph Generation with Role-Playing Large Language Models | 提出SDSGG框架,利用角色扮演大语言模型生成场景特定描述,提升开放词汇场景图生成性能。 | open-vocabulary open vocabulary large language model | ||
| 7 | Open-vocabulary vs. Closed-set: Best Practice for Few-shot Object Detection Considering Text Describability | 针对文本可描述性,研究开放词汇与封闭集目标检测在少样本学习中的适用性 | open-vocabulary open vocabulary |
🔬 支柱二:RL算法与架构 (RL & Architecture) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 8 | Taming Mambas for Voxel Level 3D Medical Image Segmentation | 利用Mamba模型进行体素级3D医学图像分割 | Mamba SSM state space model | ||
| 9 | EVA: An Embodied World Model for Future Video Anticipation | 提出EVA:一种具身世界模型,用于未来视频预测。 | world model |
🔬 支柱七:动作重定向 (Motion Retargeting) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 10 | MedDiff-FM: A Diffusion-based Foundation Model for Versatile Medical Image Applications | MedDiff-FM:基于扩散模型的医学影像通用基础模型,适用于多种下游任务。 | spatial relationship foundation model |
🔬 支柱一:机器人控制 (Robot Control) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 11 | Lying mirror | 提出一种全光学“欺骗镜”,通过衍射表面伪装信息,实现无计算的信息隐藏。 | manipulation |