cs.CV（2024-10-20）

📊 共 11 篇论文 | 🔗 2 篇有代码

🎯 兴趣领域导航

支柱九：具身大模型 (Embodied Foundation Models) (4 🔗1) 支柱三：空间感知与语义 (Perception & Semantics) (3 🔗1) 支柱二：RL算法与架构 (RL & Architecture) (2) 支柱七：动作重定向 (Motion Retargeting) (1) 支柱一：机器人控制 (Robot Control) (1)

🔬 支柱九：具身大模型 (Embodied Foundation Models) (4 篇)

#	题目	一句话要点	标签	🔗	⭐
1	MMDS: A Multimodal Medical Diagnosis System Integrating Image Analysis and Knowledge-based Departmental Consultation	MMDS：融合图像分析与知识库科室咨询的多模态医疗诊断系统	large language model multimodal
2	Generalized Multimodal Fusion via Poisson-Nernst-Planck Equation	提出基于Poisson-Nernst-Planck方程的广义多模态融合方法，提升特征提取和跨任务适应性。	multimodal
3	Modality-Fair Preference Optimization for Trustworthy MLLM Alignment	提出模态公平偏好优化(MFPO)以提升多模态大语言模型(MLLM)的可靠性，缓解幻觉问题。	large language model multimodal
4	YOLO-RD: Introducing Relevant and Compact Explicit Knowledge to YOLO by Retriever-Dictionary	YOLO-RD：通过检索器-字典模块为YOLO引入相关且紧凑的显式知识，提升目标检测性能。	large language model	✅

🔬 支柱三：空间感知与语义 (Perception & Semantics) (3 篇)

#	题目	一句话要点	标签	🔗	⭐
5	EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting	提出EF-3DGS，利用事件相机辅助自由轨迹3D高斯溅射，解决高速或低帧率视频场景重建问题。	3D gaussian splatting 3DGS gaussian splatting	✅
6	Scene Graph Generation with Role-Playing Large Language Models	提出SDSGG框架，利用角色扮演大语言模型生成场景特定描述，提升开放词汇场景图生成性能。	open-vocabulary open vocabulary large language model
7	Open-vocabulary vs. Closed-set: Best Practice for Few-shot Object Detection Considering Text Describability	针对文本可描述性，研究开放词汇与封闭集目标检测在少样本学习中的适用性	open-vocabulary open vocabulary

🔬 支柱二：RL算法与架构 (RL & Architecture) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
8	Taming Mambas for Voxel Level 3D Medical Image Segmentation	利用Mamba模型进行体素级3D医学图像分割	Mamba SSM state space model
9	EVA: An Embodied World Model for Future Video Anticipation	提出EVA：一种具身世界模型，用于未来视频预测。	world model

🔬 支柱七：动作重定向 (Motion Retargeting) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
10	MedDiff-FM: A Diffusion-based Foundation Model for Versatile Medical Image Applications	MedDiff-FM：基于扩散模型的医学影像通用基础模型，适用于多种下游任务。	spatial relationship foundation model

🔬 支柱一：机器人控制 (Robot Control) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
11	Lying mirror	提出一种全光学“欺骗镜”，通过衍射表面伪装信息，实现无计算的信息隐藏。	manipulation

⬅️ 返回 cs.CV 首页 · 🏠 返回主页