cs.CV(2024-10-20)

📊 共 11 篇论文 | 🔗 2 篇有代码

🎯 兴趣领域导航

支柱九:具身大模型 (Embodied Foundation Models) (4 🔗1) 支柱三:空间感知与语义 (Perception & Semantics) (3 🔗1) 支柱二:RL算法与架构 (RL & Architecture) (2) 支柱七:动作重定向 (Motion Retargeting) (1) 支柱一:机器人控制 (Robot Control) (1)

🔬 支柱九:具身大模型 (Embodied Foundation Models) (4 篇)

#题目一句话要点标签🔗
1 MMDS: A Multimodal Medical Diagnosis System Integrating Image Analysis and Knowledge-based Departmental Consultation MMDS:融合图像分析与知识库科室咨询的多模态医疗诊断系统 large language model multimodal
2 Generalized Multimodal Fusion via Poisson-Nernst-Planck Equation 提出基于Poisson-Nernst-Planck方程的广义多模态融合方法,提升特征提取和跨任务适应性。 multimodal
3 Modality-Fair Preference Optimization for Trustworthy MLLM Alignment 提出模态公平偏好优化(MFPO)以提升多模态大语言模型(MLLM)的可靠性,缓解幻觉问题。 large language model multimodal
4 YOLO-RD: Introducing Relevant and Compact Explicit Knowledge to YOLO by Retriever-Dictionary YOLO-RD:通过检索器-字典模块为YOLO引入相关且紧凑的显式知识,提升目标检测性能。 large language model

🔬 支柱三:空间感知与语义 (Perception & Semantics) (3 篇)

#题目一句话要点标签🔗
5 EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting 提出EF-3DGS,利用事件相机辅助自由轨迹3D高斯溅射,解决高速或低帧率视频场景重建问题。 3D gaussian splatting 3DGS gaussian splatting
6 Scene Graph Generation with Role-Playing Large Language Models 提出SDSGG框架,利用角色扮演大语言模型生成场景特定描述,提升开放词汇场景图生成性能。 open-vocabulary open vocabulary large language model
7 Open-vocabulary vs. Closed-set: Best Practice for Few-shot Object Detection Considering Text Describability 针对文本可描述性,研究开放词汇与封闭集目标检测在少样本学习中的适用性 open-vocabulary open vocabulary

🔬 支柱二:RL算法与架构 (RL & Architecture) (2 篇)

#题目一句话要点标签🔗
8 Taming Mambas for Voxel Level 3D Medical Image Segmentation 利用Mamba模型进行体素级3D医学图像分割 Mamba SSM state space model
9 EVA: An Embodied World Model for Future Video Anticipation 提出EVA:一种具身世界模型,用于未来视频预测。 world model

🔬 支柱七:动作重定向 (Motion Retargeting) (1 篇)

#题目一句话要点标签🔗
10 MedDiff-FM: A Diffusion-based Foundation Model for Versatile Medical Image Applications MedDiff-FM:基于扩散模型的医学影像通用基础模型,适用于多种下游任务。 spatial relationship foundation model

🔬 支柱一:机器人控制 (Robot Control) (1 篇)

#题目一句话要点标签🔗
11 Lying mirror 提出一种全光学“欺骗镜”,通过衍射表面伪装信息,实现无计算的信息隐藏。 manipulation

⬅️ 返回 cs.CV 首页 · 🏠 返回主页