cs.CV（2025-09-09）

📊 共 3 篇论文 | 🔗 2 篇有代码

🎯 兴趣领域导航

#	题目	一句话要点	标签	🔗	⭐
1	GLEAM: Learning to Match and Explain in Cross-View Geo-Localization	提出GLEAM，通过多模态对齐与可解释推理，提升跨视角地理定位性能。	large language model multimodal	✅
2	Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images	提出Visual-TableQA，用于评估和提升视觉语言模型在表格图像上的推理能力。	multimodal	✅

#	题目	一句话要点	标签	🔗	⭐
3	Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search	Mini-o3：通过扩展推理模式和交互轮数，提升视觉搜索性能。	reinforcement learning multimodal