cs.CV（2025-05-08）

📊 共 4 篇论文 | 🔗 1 篇有代码

🎯 兴趣领域导航

#	题目	一句话要点	标签	🔗	⭐
1	StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant	StreamBridge：将离线视频大语言模型转化为主动流式助理	large language model
2	TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation	TokLIP通过语义化视觉tokens并融合CLIP语义，提升多模态理解与生成能力。	multimodal	✅

#	题目	一句话要点	标签	🔗	⭐
3	Visual Affordance Prediction: Survey and Reproducibility	统一视觉可供性预测框架，解决定义不一致和可复现性问题	affordance

#	题目	一句话要点	标签	🔗	⭐
4	Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding	提出自适应标记语言生成方法，用于上下文感知的视觉文档理解。	spatial relationship instruction following