cs.CV（2024-12-04）

📊 共 21 篇论文 | 🔗 9 篇有代码

🎯 兴趣领域导航

支柱九：具身大模型 (Embodied Foundation Models) (9 🔗6) 支柱三：空间感知与语义 (Perception & Semantics) (8 🔗3) 支柱二：RL算法与架构 (RL & Architecture) (3) 支柱六：视频提取与匹配 (Video Extraction) (1)

🔬 支柱九：具身大模型 (Embodied Foundation Models) (9 篇)

#	题目	一句话要点	标签	🔗	⭐
1	VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding	VidHalluc：评估多模态大语言模型在视频理解中的时间幻觉问题	large language model multimodal instruction following	✅
2	Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis	探索多模态大语言模型在图像描述中的个性化能力与微调策略	large language model multimodal
3	Training-Free Mitigation of Language Reasoning Degradation After Multimodal Instruction Tuning	提出免训练模型融合方法，缓解多模态指令调优后语言推理能力退化	large language model multimodal
4	PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation	PrefixKV：自适应前缀KV缓存提升视觉指令跟随模型生成效率	multimodal instruction following	✅
5	Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension	提出视觉价值模型VisVM，指导视觉语言模型推理时搜索，提升视觉理解能力	large language model multimodal	✅
6	INST-IT: Boosting Instance Understanding via Explicit Visual Prompt Instruction Tuning	INST-IT：通过显式视觉提示指令调优增强实例级理解	multimodal
7	FLAIR: VLM with Fine-grained Language-informed Image Representations	FLAIR：利用细粒度语言信息图像表征的视觉语言模型，提升局部图像内容检索能力。	multimodal	✅
8	Pre-trained Multiple Latent Variable Generative Models are good defenders against Adversarial Attacks	提出基于预训练多重潜在变量生成模型（MLVGM）的对抗攻击防御方法	foundation model	✅
9	AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning	提出AIM，通过Token合并与剪枝自适应推理多模态LLM，显著降低计算成本。	large language model	✅

🔬 支柱三：空间感知与语义 (Perception & Semantics) (8 篇)

#	题目	一句话要点	标签	🔗	⭐
10	UrbanGS: Semantic-Guided Gaussian Splatting for Urban Scene Reconstruction	UrbanGS：基于语义引导的高斯溅射重建城市场景	3D gaussian splatting 3DGS gaussian splatting
11	2DGS-Room: Seed-Guided 2D Gaussian Splatting with Geometric Constrains for High-Fidelity Indoor Scene Reconstruction	提出2DGS-Room，利用种子引导的2D高斯溅射和几何约束实现高保真室内场景重建。	monocular depth 3D gaussian splatting gaussian splatting
12	Perception Tokens Enhance Visual Reasoning in Multimodal Language Models	提出AURORA，通过感知Tokens增强多模态语言模型中的视觉推理能力	depth estimation VQ-VAE multimodal
13	SGSST: Scaling Gaussian Splatting StyleTransfer	SGSST：提出基于优化的高斯溅射风格迁移方法，实现超高分辨率3D场景风格化	3D gaussian splatting 3DGS gaussian splatting
14	Dense Scene Reconstruction from Light-Field Images Affected by Rolling Shutter	提出一种基于高斯溅射的光场图像稠密重建方法，可补偿卷帘快门效应	depth estimation splatting scene reconstruction	✅
15	Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos	提出BTimer，首个运动感知前馈模型，用于动态场景的实时子弹时间重建与新视角合成。	3D gaussian splatting gaussian splatting splatting
16	Volumetrically Consistent 3D Gaussian Rasterization	提出体一致3D高斯光栅化方法，提升高质量快速视图合成效果	3D gaussian splatting 3DGS gaussian splatting	✅
17	PlanarSplatting: Accurate Planar Surface Reconstruction in 3 Minutes	PlanarSplatting：提出快速精确的平面表面重建方法，适用于室内场景。	splatting	✅

🔬 支柱二：RL算法与架构 (RL & Architecture) (3 篇)

#	题目	一句话要点	标签	🔗	⭐
18	ARCON: Advancing Auto-Regressive Continuation for Driving Videos	ARCON：提出一种用于自动驾驶视频延续的自回归方案，提升长时视频生成一致性。	world model semantic map optical flow
19	Distillation of Diffusion Features for Semantic Correspondence	提出扩散特征蒸馏方法，提升语义对应任务效率并超越SOTA。	distillation foundation model
20	Navigation World Models	提出导航世界模型(NWM)，用于预测未来视觉观测并规划导航轨迹。	world model egocentric

🔬 支柱六：视频提取与匹配 (Video Extraction) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
21	Streaming Detection of Queried Event Start	提出流式查询事件起始检测(SDQES)任务，解决具身智能应用中实时事件响应问题。	egocentric Ego4D multimodal

⬅️ 返回 cs.CV 首页 · 🏠 返回主页