1

Triage: Hierarchical Visual Budgeting for Efficient Video Reasoning in Vision-Language Models

Vision-Language Models (VLMs) face significant computational challenges in video processing due to massive data redundancy, which …

Anmin Wang, Nan Zhang, Wei Tao, Xiaoyang Qu, Guokuan Li, Jiguang Wan, Jianzong Wang

Vista: Scene-Aware Optimization for Streaming Video Question Answering under Post-Hoc Queries

Haocheng Lu, Nan Zhang, Wei Tao, Xiaoyang Qu, Guokuan Li, Jiguang Wan, Jianzong Wang

Turbo-TTS: Enhancing Diffusion Model TTS with an Improved ODE Solver

This paper introduces Turbo-TTS, a novel diffusion-based model for text-to-speech (TTS) synthesis. Diffusion models leverage stochastic …

Xulong Zhang, Jiashu Wang, Xiaoyang Qu, Hui Tian, Jianzong Wang

EMO-RL: Emotion-Rule-Based Reinforcement Learning Enhanced Audio-Language Model for Generalized Speech Emotion Recognition

Although Large Audio-Language Models (LALMs) have exhibited outstanding performance in auditory understanding, their performance in …

Pengcheng Li~, Botao Zhao, Zuheng Kang, Junqing Peng, Xiaoyang Qu, Yayun He, Jianzong Wang

EMO-RL: Emotion-Rule-Based Reinforcement Learning Enhanced Audio-Language Model for Generalized Speech Emotion Recognition

Federated Domain Generalization with Domain-specific Soft Prompts Generation

Prompt learning has become an efficient paradigm for adapting CLIP to downstream tasks. Compared with traditional fine-tuning, prompt …

Jianhan Wu, Xiaoyang Qu, Zhangcheng Huang, Jianzong Wang

Publicly Verifiable Private Information Retrieval Protocols Based on Function Secret Sharing

Private Information Retrieval (PIR) is a fundamental cryptographic primitive that enables users to retrieve data from a database …

Lin Zhu, Lingwei Kong, Xin Ning, Xiaoyang Qu, Jianzong Wang

Hierarchical-Task-Aware Multi-modal Mixture of Incremental LoRA Experts for Embodied Continual Learning

Previous continual learning setups for embodied intelligence focused on executing low-level actions based on human commands, neglecting …

Ziqi Jia, Anmin Wang, Xiaoyang Qu, Xiaowen Yang, Jianzong Wang

Hierarchical-Task-Aware Multi-modal Mixture of Incremental LoRA Experts for Embodied Continual Learning

MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts

One of the primary challenges in optimizing large language models (LLMs) for long-context inference lies in the high memory consumption …

Wei Tao, Haocheng Lu, Xiaoyang Qu, Bin Zhang, Kai Lu, Jiguang Wan, Jianzong Wang

MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts

RATE-Nav: Region-Aware Termination Enhancement for Zero-shot Object Navigation with Vision-Language Models

Object Navigation (ObjectNav) is a fundamental task in embodied artificial intelligence. Although significant progress has been made in …

Junjie Li, Nan Zhang, Xiaoyang Qu, Kai Lu, Guokuan Li, Jiguang Wan, Jianzong Wang

RATE-Nav: Region-Aware Termination Enhancement for Zero-shot Object Navigation with Vision-Language Models

BAGNet: A Boundary-Aware Graph Attention Network for 3D Point Cloud Semantic Segmentation

Since the point cloud data is inherently irregular and unstructured, point cloud semantic segmentation has always been a challenging …

Wei Tao, Xiaoyang Qu, Kai Lu, Jiguang Wan, Shenglin He, Jianzong Wang

BAGNet: A Boundary-Aware Graph Attention Network for 3D Point Cloud Semantic Segmentation