VLM

Triage: Hierarchical Visual Budgeting for Efficient Video Reasoning in Vision-Language Models

Vision-Language Models (VLMs) face significant computational challenges in video processing due to massive data redundancy, which …

Anmin Wang, Nan Zhang, Wei Tao, Xiaoyang Qu, Guokuan Li, Jiguang Wan, Jianzong Wang